論文の概要: Precise Zero-Shot Dense Retrieval without Relevance Labels
- arxiv url: http://arxiv.org/abs/2212.10496v1
- Date: Tue, 20 Dec 2022 18:09:52 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-21 16:51:59.130076
- Title: Precise Zero-Shot Dense Retrieval without Relevance Labels
- Title(参考訳): 関連ラベルのない高精度ゼロショット高密度検索
- Authors: Luyu Gao, Xueguang Ma, Jimmy Lin, Jamie Callan
- Abstract要約: 仮説文書埋め込み(英: hypothetical Document Embeddings, HyDE)は、ゼロショット高密度検索システムである。
我々は,HyDEが最先端の非教師付き高密度検索器であるContrieverを著しく上回っていることを示す。
- 参考スコア(独自算出の注目度): 60.457378374671656
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: While dense retrieval has been shown effective and efficient across tasks and
languages, it remains difficult to create effective fully zero-shot dense
retrieval systems when no relevance label is available. In this paper, we
recognize the difficulty of zero-shot learning and encoding relevance. Instead,
we propose to pivot through Hypothetical Document Embeddings~(HyDE). Given a
query, HyDE first zero-shot instructs an instruction-following language model
(e.g. InstructGPT) to generate a hypothetical document. The document captures
relevance patterns but is unreal and may contain false details. Then, an
unsupervised contrastively learned encoder~(e.g. Contriever) encodes the
document into an embedding vector. This vector identifies a neighborhood in the
corpus embedding space, where similar real documents are retrieved based on
vector similarity. This second step ground the generated document to the actual
corpus, with the encoder's dense bottleneck filtering out the incorrect
details. Our experiments show that HyDE significantly outperforms the
state-of-the-art unsupervised dense retriever Contriever and shows strong
performance comparable to fine-tuned retrievers, across various tasks (e.g. web
search, QA, fact verification) and languages~(e.g. sw, ko, ja).
- Abstract(参考訳): 密集検索はタスクや言語全体で効果的かつ効率的であることが示されているが、関連ラベルが存在しない場合には、効果的な完全ゼロショット密集検索システムを作成することは困難である。
本稿では,ゼロショット学習の難しさとエンコーディングの関連性を認識する。
代わりに、仮説文書埋め込み~(HyDE)をピボットすることを提案する。
クエリが与えられたとき、HyDEの最初のゼロショットは命令追従言語モデル(例えばインストラクションGPT)に、仮説文書を生成するように指示する。
この文書は関連パターンをキャプチャするが、現実的ではなく、虚偽の詳細を含むこともある。
そして、教師なしのコントラスト学習エンコーダ~(例:contriever)は、文書を埋め込みベクトルにエンコードする。
このベクトルは、類似した実文書がベクトル類似性に基づいて検索されるコーパス埋め込み空間内の近傍を特定する。
この第2ステップは、生成されたドキュメントを実際のコーパスにグラウンドし、エンコーダの密集したボトルネックが不正確な詳細をフィルタリングする。
実験の結果,HyDEは最先端の教師なし密集型検索器であるContrieverよりも優れており,様々なタスク(Web検索,QA,事実検証など)や言語(sw,ko,jaなど)において,微調整型検索器に匹敵する高い性能を示すことがわかった。
関連論文リスト
- Contextual Document Embeddings [77.22328616983417]
本稿では,コンテキスト化された文書埋め込みのための2つの補完手法を提案する。
第一に、文書近傍を明示的にバッチ内コンテキスト損失に組み込む別のコントラスト学習目標である。
第二に、隣接する文書情報をエンコードされた表現に明示的にエンコードする新しいコンテキストアーキテクチャ。
論文 参考訳(メタデータ) (2024-10-03T14:33:34Z) - SparseCL: Sparse Contrastive Learning for Contradiction Retrieval [87.02936971689817]
コントラディション検索(Contradiction Search)とは、クエリの内容に明示的に異を唱える文書を識別し、抽出することである。
類似性探索やクロスエンコーダモデルといった既存の手法には、大きな制限がある。
文間の微妙で矛盾したニュアンスを保存するために特別に訓練された文埋め込みを利用するSparseCLを導入する。
論文 参考訳(メタデータ) (2024-06-15T21:57:03Z) - Optimizing Factual Accuracy in Text Generation through Dynamic Knowledge
Selection [71.20871905457174]
言語モデル(LM)は、私たちが情報と対話する方法に革命をもたらしたが、しばしば非現実的なテキストを生成する。
従来の手法では、外部知識をテキスト生成の参照として使用して事実性を高めるが、無関係な参照の知識の混在に苦慮することが多い。
本稿では,テキスト生成プロセスを反復処理に分割するDKGenを提案する。
論文 参考訳(メタデータ) (2023-08-30T02:22:40Z) - DAPR: A Benchmark on Document-Aware Passage Retrieval [57.45793782107218]
我々は,このタスクemphDocument-Aware Passage Retrieval (DAPR)を提案する。
State-of-The-Art(SoTA)パスレトリバーのエラーを分析しながら、大きなエラー(53.5%)は文書コンテキストの欠如に起因する。
提案するベンチマークにより,検索システムの開発・比較を今後行うことができる。
論文 参考訳(メタデータ) (2023-05-23T10:39:57Z) - Noise-Robust Dense Retrieval via Contrastive Alignment Post Training [89.29256833403167]
Contrastive Alignment POst Training (CAPOT) は、指数再生を必要とせず、モデルロバスト性を改善する高効率な微調整法である。
CAPOTはドキュメントエンコーダを凍結することで堅牢な検索を可能にし、クエリエンコーダはノイズの多いクエリを修正されていないルートに整列させる。
MSMARCO、Natural Questions、Trivia QAパス検索のCAPOTノイズ変動を評価し、CAPOTがオーバーヘッドを伴わないデータ増大に類似した影響があることを発見した。
論文 参考訳(メタデータ) (2023-04-06T22:16:53Z) - Multi-Vector Retrieval as Sparse Alignment [21.892007741798853]
本稿では,クエリと文書トークンの相互アライメントを疎結合に学習する,新しいマルチベクタ検索モデルを提案する。
エントロピー規則化線形計画法により、疎度を達成するために他の手法よりも優れるスパースなユニタリサリエンスを学習する。
我々のモデルは、しばしば解釈可能なアライメントを生成し、より大きな言語モデルからその性能を著しく向上させる。
論文 参考訳(メタデータ) (2022-11-02T16:49:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。