論文の概要: Adversarial Retriever-Ranker for dense text retrieval
- arxiv url: http://arxiv.org/abs/2110.03611v2
- Date: Fri, 8 Oct 2021 07:29:14 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-11 11:53:49.589333
- Title: Adversarial Retriever-Ranker for dense text retrieval
- Title(参考訳): 高密度テキスト検索のためのadversarial retriever-ranker
- Authors: Hang Zhang, Yeyun Gong, Yelong Shen, Jiancheng Lv, Nan Duan, Weizhu
Chen
- Abstract要約: 本稿では、二重エンコーダレトリバーとクロスエンコーダローダからなるAdversarial Retriever-Ranker(AR2)を提案する。
AR2は、既存の高密度レトリバー法より一貫して大幅に優れている。
これには、R@5から77.9%(+2.1%)、TriviaQA R@5から78.2%(+1.4)、MS-MARCO MRR@10から39.5%(+1.3%)の改善が含まれている。
- 参考スコア(独自算出の注目度): 51.87158529880056
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Current dense text retrieval models face two typical challenges. First, it
adopts a siamese dual-encoder architecture to encode query and document
independently for fast indexing and searching, whereas neglecting the
finer-grained term-wise interactions. This results in a sub-optimal recall
performance. Second, it highly relies on a negative sampling technique to build
up the negative documents in its contrastive loss. To address these challenges,
we present Adversarial Retriever-Ranker (AR2), which consists of a dual-encoder
retriever plus a cross-encoder ranker. The two models are jointly optimized
according to a minimax adversarial objective: the retriever learns to retrieve
negative documents to cheat the ranker, while the ranker learns to rank a
collection of candidates including both the ground-truth and the retrieved
ones, as well as providing progressive direct feedback to the dual-encoder
retriever. Through this adversarial game, the retriever gradually produces
harder negative documents to train a better ranker, whereas the cross-encoder
ranker provides progressive feedback to improve retriever. We evaluate AR2 on
three benchmarks. Experimental results show that AR2 consistently and
significantly outperforms existing dense retriever methods and achieves new
state-of-the-art results on all of them. This includes the improvements on
Natural Questions R@5 to 77.9%(+2.1%), TriviaQA R@5 to 78.2%(+1.4), and
MS-MARCO MRR@10 to 39.5%(+1.3%). We will make our code, models, and data
publicly available.
- Abstract(参考訳): 現在の高密度テキスト検索モデルは2つの典型的な課題に直面している。
まず、シアム二重エンコーダアーキテクチャを用いてクエリとドキュメントを独立に符号化し、高速インデックス化と検索を行う。
これにより、サブ最適リコール性能が得られる。
第2に、負のサンプリング手法に強く依存し、その対照的な損失で負のドキュメントを構築する。
これらの課題に対処するために、デュアルエンコーダレトリバーとクロスエンコーダローダからなるAdversarial Retriever-Ranker (AR2)を提案する。
この2つのモデルは、minimaxの敵意に従って協調的に最適化される: 検索者は、ランク付けを行うために負の文書を取得することを学び、ランク付け者は、基底と検索の両方を含む候補者のコレクションをランク付けすることを学び、デュアルエンコーダ検索者にプログレッシブな直接フィードバックを提供する。
この対戦ゲームを通じて、レトリバーは徐々により厳しい負の文書を生成してより良いランク付けを訓練する一方、クロスエンコーダローダはプログレッシブフィードバックを提供してレトリバーを改善する。
3つのベンチマークでAR2を評価する。
実験結果から、AR2は既存の高密度検索手法よりも一貫して大幅に優れており、これらすべてに対して新たな最先端の結果が得られている。
これには、R@5から77.9%(+2.1%)、TriviaQA R@5から78.2%(+1.4)、MS-MARCO MRR@10から39.5%(+1.3%)の改善が含まれている。
コード、モデル、データを公開します。
関連論文リスト
- Towards Competitive Search Relevance For Inference-Free Learned Sparse Retrievers [6.773411876899064]
推測のないスパースモデルは 検索の関連という点で はるかに遅れています スパースモデルと密集したサイムズモデルの両方と比較して
まず,IDF(Inverted Document Frequency)を導入したIFF対応のFLOPS損失を表現のスペーシングに導入する。
その結果、FLOPS正則化が検索関連性に与える影響を軽減し、精度と効率のバランスが良くなることがわかった。
論文 参考訳(メタデータ) (2024-11-07T03:46:43Z) - Boot and Switch: Alternating Distillation for Zero-Shot Dense Retrieval [50.47192086219752]
$texttABEL$は、ゼロショット設定でのパス検索を強化するための、シンプルだが効果的な教師なしのメソッドである。
ラベル付きデータに対して$texttABEL$を微調整するか、既存の教師付き高密度検索と統合することにより、最先端の結果が得られる。
論文 参考訳(メタデータ) (2023-11-27T06:22:57Z) - ReFIT: Relevance Feedback from a Reranker during Inference [109.33278799999582]
Retrieve-and-Rerankは、ニューラル情報検索の一般的なフレームワークである。
本稿では,リランカを利用してリコールを改善する手法を提案する。
論文 参考訳(メタデータ) (2023-05-19T15:30:33Z) - LED: Lexicon-Enlightened Dense Retriever for Large-Scale Retrieval [68.85686621130111]
そこで本研究では,高密度なレトリバーをレキシコン認識表現モデルに整合させることを提案する。
提案手法を3つの公開ベンチマークで評価した結果,教師と同等のレキシコン・アウェア・レトリバーにより,提案手法が一貫した,重要な改善をもたらす可能性が示唆された。
論文 参考訳(メタデータ) (2022-08-29T15:09:28Z) - Towards Robust Ranker for Text Retrieval [83.15191578888188]
ローダは、デファクトの'retrieval & rerank'パイプラインで必須の役割を果たす。
ローダは、デファクトの'retrieval & rerank'パイプラインで必須の役割を果たす。
論文 参考訳(メタデータ) (2022-06-16T10:27:46Z) - LaPraDoR: Unsupervised Pretrained Dense Retriever for Zero-Shot Text
Retrieval [55.097573036580066]
実験結果から,LaPraDoRは教師付き高密度検索モデルと比較して最先端の性能が得られることがわかった。
再ランクと比較すると,1ミリ秒 (22.5倍高速) でレキシコン強化手法を動作させることができるが,性能は良好である。
論文 参考訳(メタデータ) (2022-03-11T18:53:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。