論文の概要: A Study on the Efficiency and Generalization of Light Hybrid Retrievers
- arxiv url: http://arxiv.org/abs/2210.01371v2
- Date: Tue, 23 May 2023 09:45:30 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-25 01:21:50.102377
- Title: A Study on the Efficiency and Generalization of Light Hybrid Retrievers
- Title(参考訳): 光ハイブリッドレトリバーの効率性と一般化に関する研究
- Authors: Man Luo, Shashank Jain, Anchit Gupta, Arash Einolghozati, Barlas Oguz,
Debojeet Chatterjee, Xilun Chen, Chitta Baral, Peyman Heidari
- Abstract要約: インデクシング効率の高い高密度レトリバー(DrBoost)を活用し、さらにDrBoostのメモリを削減するLITEレトリバーを導入する。
我々のハイブリッド-LITEレトリバーは、BM25とDPRのハイブリッドレトリバーの98.0%性能を維持しながら、13Xメモリを節約する。
- 参考スコア(独自算出の注目度): 28.08970760703045
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Hybrid retrievers can take advantage of both sparse and dense retrievers.
Previous hybrid retrievers leverage indexing-heavy dense retrievers. In this
work, we study "Is it possible to reduce the indexing memory of hybrid
retrievers without sacrificing performance"? Driven by this question, we
leverage an indexing-efficient dense retriever (i.e. DrBoost) and introduce a
LITE retriever that further reduces the memory of DrBoost. LITE is jointly
trained on contrastive learning and knowledge distillation from DrBoost. Then,
we integrate BM25, a sparse retriever, with either LITE or DrBoost to form
light hybrid retrievers. Our Hybrid-LITE retriever saves 13X memory while
maintaining 98.0% performance of the hybrid retriever of BM25 and DPR. In
addition, we study the generalization capacity of our light hybrid retrievers
on out-of-domain dataset and a set of adversarial attacks datasets. Experiments
showcase that light hybrid retrievers achieve better generalization performance
than individual sparse and dense retrievers. Nevertheless, our analysis shows
that there is a large room to improve the robustness of retrievers, suggesting
a new research direction.
- Abstract(参考訳): ハイブリッドレトリバーはスパースと高密度レトリバーの両方を利用することができる。
従来のハイブリッドレトリバーはインデックス重密レトリバーを活用する。
本研究では「性能を犠牲にすることなくハイブリッドレトリバーのインデクシングメモリを削減できるか」について検討する。
本稿では,DrBoostをインデックス化効率の高い高密度レトリバー(DrBoost)に利用し,さらにDrBoostのメモリを削減するLITEレトリバーを導入する。
LITEはDrBoostからの対照的な学習と知識の蒸留を共同で訓練している。
次に,sparseレトリバーであるbm25をliteまたはdrboostと統合し,軽量ハイブリッドレトリバーを形成する。
我々のハイブリッド-LITEレトリバーは、BM25とDPRのハイブリッドレトリバーの98.0%性能を維持しながら、13Xメモリを節約する。
さらに,ドメイン外データセットと敵対的アタックデータセット上での軽量ハイブリッドレトリバーの一般化能力について検討した。
実験により,光ハイブリッドレトリバーは個々のスパースや高密度レトリバーよりも優れた一般化性能が得られることが示された。
しかし,解析の結果,検索者の堅牢性向上のための大きな空間があることが示唆され,新たな研究の方向性が示唆された。
関連論文リスト
- Towards Competitive Search Relevance For Inference-Free Learned Sparse Retrievers [6.773411876899064]
推測のないスパースモデルは 検索の関連という点で はるかに遅れています スパースモデルと密集したサイムズモデルの両方と比較して
まず,IDF(Inverted Document Frequency)を導入したIFF対応のFLOPS損失を表現のスペーシングに導入する。
その結果、FLOPS正則化が検索関連性に与える影響を軽減し、精度と効率のバランスが良くなることがわかった。
論文 参考訳(メタデータ) (2024-11-07T03:46:43Z) - Exploring Demonstration Retrievers in RAG for Coding Tasks: Yeas and Nays! [6.34946724864899]
本稿では,3つの符号化タスクにおけるレトリバーの効率効率性トレードオフを系統的に評価する。
BM25は有効性は優れているが,知識ベースが1000を超えると効率が低下する。
大規模な検索では、効率の差がより顕著になり、ほぼ密集した検索者が最大利得を提供する。
論文 参考訳(メタデータ) (2024-10-12T22:31:01Z) - Boot and Switch: Alternating Distillation for Zero-Shot Dense Retrieval [50.47192086219752]
$texttABEL$は、ゼロショット設定でのパス検索を強化するための、シンプルだが効果的な教師なしのメソッドである。
ラベル付きデータに対して$texttABEL$を微調整するか、既存の教師付き高密度検索と統合することにより、最先端の結果が得られる。
論文 参考訳(メタデータ) (2023-11-27T06:22:57Z) - UPRISE: Universal Prompt Retrieval for Improving Zero-Shot Evaluation [81.80385076856304]
本稿では,与えられたゼロショットタスク入力のプロンプトを自動的に取り出す軽量で多用途なレトリバーをチューニングするUPRISEを提案する。
具体的には、クロスタスクおよびクロスモデルシナリオにおける普遍性を示す。
UPRISEはChatGPT実験における幻覚の緩和効果を示す。
論文 参考訳(メタデータ) (2023-03-15T10:53:49Z) - Bridging the Training-Inference Gap for Dense Phrase Retrieval [104.4836127502683]
密度の高いレトリバーを構築するには、トレーニングやニューラルネットワークの検証など、一連の標準手順が必要である。
本稿では,高密度検索におけるトレーニングと推論のギャップを減らせる方法について検討する。
コーパス全体の小さな部分集合を用いて高密度レトリバーを効率よく検証する方法を提案する。
論文 参考訳(メタデータ) (2022-10-25T00:53:06Z) - LaPraDoR: Unsupervised Pretrained Dense Retriever for Zero-Shot Text
Retrieval [55.097573036580066]
実験結果から,LaPraDoRは教師付き高密度検索モデルと比較して最先端の性能が得られることがわかった。
再ランクと比較すると,1ミリ秒 (22.5倍高速) でレキシコン強化手法を動作させることができるが,性能は良好である。
論文 参考訳(メタデータ) (2022-03-11T18:53:12Z) - Learning to Retrieve Passages without Supervision [58.31911597824848]
オープンドメイン質問応答(ODQA)のためのダンスレトリバーは,問合せペアの大規模データセットをトレーニングすることで,優れた性能を発揮することが示されている。
そこで本研究では,自己教師型で高密度検索が学べるかどうかを考察し,アノテーションを使わずに効果的に適用する。
論文 参考訳(メタデータ) (2021-12-14T19:18:08Z) - Salient Phrase Aware Dense Retrieval: Can a Dense Retriever Imitate a
Sparse One? [15.618287626892174]
本稿では,スパースモデルの語彙マッチング能力を有する高密度検索器であるSPARについて紹介する。
特に高密度レトリバーLambdaはスパースレトリバーを模倣するように訓練でき、SPARは標準密度レトリバーをLambdaで強化することで構築されることを示す。
論文 参考訳(メタデータ) (2021-10-13T17:56:19Z) - Adversarial Retriever-Ranker for dense text retrieval [51.87158529880056]
本稿では、二重エンコーダレトリバーとクロスエンコーダローダからなるAdversarial Retriever-Ranker(AR2)を提案する。
AR2は、既存の高密度レトリバー法より一貫して大幅に優れている。
これには、R@5から77.9%(+2.1%)、TriviaQA R@5から78.2%(+1.4)、MS-MARCO MRR@10から39.5%(+1.3%)の改善が含まれている。
論文 参考訳(メタデータ) (2021-10-07T16:41:15Z) - Is Retriever Merely an Approximator of Reader? [27.306407064073177]
読み手と受け手は,精度の点でのみ相補的であることを示す。
我々は,レトリバーにリーダを蒸留し,レトリバーが読者の強度を吸収し,自身の利益を維持することを提案する。
論文 参考訳(メタデータ) (2020-10-21T13:40:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。