論文の概要: A Study on the Efficiency and Generalization of Light Hybrid Retrievers
- arxiv url: http://arxiv.org/abs/2210.01371v1
- Date: Tue, 4 Oct 2022 04:22:46 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-05 14:41:00.976688
- Title: A Study on the Efficiency and Generalization of Light Hybrid Retrievers
- Title(参考訳): 光ハイブリッドレトリバーの効率性と一般化に関する研究
- Authors: Man Luo, Shashank Jain, Anchit Gupta, Arash Einolghozati, Barlas Oguz,
Debojeet Chatterjee, Xilun Chen, Chitta Baral, Peyman Heidari
- Abstract要約: 既存のハイブリッドレトリバーはスパースと密集したレトリバーを統合し、実際のオンデバイス設定で適用性を制限する。
我々は、インデックス化効率の高い高密度レトリバー(DrBoost)を活用して、軽量ハイブリッドレトリバーを得る。
従来の重ハイブリッドレトリバーと比較して、Hybrid-LITEレトリバーは98.0性能を維持しながら13メモリを節約する。
- 参考スコア(独自算出の注目度): 28.08970760703045
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Existing hybrid retrievers which integrate sparse and dense retrievers, are
indexing-heavy, limiting their applicability in real-world on-devices settings.
We ask the question "Is it possible to reduce the indexing memory of hybrid
retrievers without sacrificing performance?" Driven by this question, we
leverage an indexing-efficient dense retriever (i.e. DrBoost) to obtain a light
hybrid retriever. Moreover, to further reduce the memory, we introduce a
lighter dense retriever (LITE) which is jointly trained on contrastive learning
and knowledge distillation from DrBoost. Compared to previous heavy hybrid
retrievers, our Hybrid-LITE retriever saves 13 memory while maintaining 98.0
performance.
In addition, we study the generalization of light hybrid retrievers along two
dimensions, out-of-domain (OOD) generalization and robustness against
adversarial attacks. We evaluate models on two existing OOD benchmarks and
create six adversarial attack sets for robustness evaluation. Experiments show
that our light hybrid retrievers achieve better robustness performance than
both sparse and dense retrievers. Nevertheless there is a large room to improve
the robustness of retrievers, and our datasets can aid future research.
- Abstract(参考訳): スパースと密集したレトリバーを統合する既存のハイブリッドレトリバーはインデックス重く、実世界のオンデバイス設定での適用性が制限されている。
パフォーマンスを犠牲にすることなく、ハイブリッドレトリバーのインデックス記憶を減らすことは可能か?
この疑問に駆り立てられ、インデックス化効率の高い高密度レトリバー(drboost)を利用して軽量ハイブリッドレトリバーを得る。
さらに,drboostのコントラスト学習と知識蒸留を併用した,より軽量な密集型回収機(lite)を提案する。
従来の重ハイブリッドレトリバーと比較して、Hybrid-LITEレトリバーは98.0性能を維持しながら13メモリを節約する。
さらに,2次元にまたがる光ハイブリッドレトリバーの一般化,ドメイン外一般化と敵攻撃に対する堅牢性について検討した。
我々は既存の2つのOODベンチマークのモデルを評価し、ロバストネス評価のための6つの逆攻撃セットを作成する。
実験により, 軽量ハイブリッドレトリバーは, ばらばらで密集したレトリバーよりもロバスト性が向上した。
それでも、検索者の堅牢性を改善するための大きな部屋があり、私たちのデータセットは将来の研究に役立つ。
関連論文リスト
- Towards Competitive Search Relevance For Inference-Free Learned Sparse Retrievers [6.773411876899064]
推測のないスパースモデルは 検索の関連という点で はるかに遅れています スパースモデルと密集したサイムズモデルの両方と比較して
まず,IDF(Inverted Document Frequency)を導入したIFF対応のFLOPS損失を表現のスペーシングに導入する。
その結果、FLOPS正則化が検索関連性に与える影響を軽減し、精度と効率のバランスが良くなることがわかった。
論文 参考訳(メタデータ) (2024-11-07T03:46:43Z) - Exploring Demonstration Retrievers in RAG for Coding Tasks: Yeas and Nays! [6.34946724864899]
本稿では,3つの符号化タスクにおけるレトリバーの効率効率性トレードオフを系統的に評価する。
BM25は有効性は優れているが,知識ベースが1000を超えると効率が低下する。
大規模な検索では、効率の差がより顕著になり、ほぼ密集した検索者が最大利得を提供する。
論文 参考訳(メタデータ) (2024-10-12T22:31:01Z) - Boot and Switch: Alternating Distillation for Zero-Shot Dense Retrieval [50.47192086219752]
$texttABEL$は、ゼロショット設定でのパス検索を強化するための、シンプルだが効果的な教師なしのメソッドである。
ラベル付きデータに対して$texttABEL$を微調整するか、既存の教師付き高密度検索と統合することにより、最先端の結果が得られる。
論文 参考訳(メタデータ) (2023-11-27T06:22:57Z) - UPRISE: Universal Prompt Retrieval for Improving Zero-Shot Evaluation [81.80385076856304]
本稿では,与えられたゼロショットタスク入力のプロンプトを自動的に取り出す軽量で多用途なレトリバーをチューニングするUPRISEを提案する。
具体的には、クロスタスクおよびクロスモデルシナリオにおける普遍性を示す。
UPRISEはChatGPT実験における幻覚の緩和効果を示す。
論文 参考訳(メタデータ) (2023-03-15T10:53:49Z) - Bridging the Training-Inference Gap for Dense Phrase Retrieval [104.4836127502683]
密度の高いレトリバーを構築するには、トレーニングやニューラルネットワークの検証など、一連の標準手順が必要である。
本稿では,高密度検索におけるトレーニングと推論のギャップを減らせる方法について検討する。
コーパス全体の小さな部分集合を用いて高密度レトリバーを効率よく検証する方法を提案する。
論文 参考訳(メタデータ) (2022-10-25T00:53:06Z) - LaPraDoR: Unsupervised Pretrained Dense Retriever for Zero-Shot Text
Retrieval [55.097573036580066]
実験結果から,LaPraDoRは教師付き高密度検索モデルと比較して最先端の性能が得られることがわかった。
再ランクと比較すると,1ミリ秒 (22.5倍高速) でレキシコン強化手法を動作させることができるが,性能は良好である。
論文 参考訳(メタデータ) (2022-03-11T18:53:12Z) - Learning to Retrieve Passages without Supervision [58.31911597824848]
オープンドメイン質問応答(ODQA)のためのダンスレトリバーは,問合せペアの大規模データセットをトレーニングすることで,優れた性能を発揮することが示されている。
そこで本研究では,自己教師型で高密度検索が学べるかどうかを考察し,アノテーションを使わずに効果的に適用する。
論文 参考訳(メタデータ) (2021-12-14T19:18:08Z) - Salient Phrase Aware Dense Retrieval: Can a Dense Retriever Imitate a
Sparse One? [15.618287626892174]
本稿では,スパースモデルの語彙マッチング能力を有する高密度検索器であるSPARについて紹介する。
特に高密度レトリバーLambdaはスパースレトリバーを模倣するように訓練でき、SPARは標準密度レトリバーをLambdaで強化することで構築されることを示す。
論文 参考訳(メタデータ) (2021-10-13T17:56:19Z) - Adversarial Retriever-Ranker for dense text retrieval [51.87158529880056]
本稿では、二重エンコーダレトリバーとクロスエンコーダローダからなるAdversarial Retriever-Ranker(AR2)を提案する。
AR2は、既存の高密度レトリバー法より一貫して大幅に優れている。
これには、R@5から77.9%(+2.1%)、TriviaQA R@5から78.2%(+1.4)、MS-MARCO MRR@10から39.5%(+1.3%)の改善が含まれている。
論文 参考訳(メタデータ) (2021-10-07T16:41:15Z) - Is Retriever Merely an Approximator of Reader? [27.306407064073177]
読み手と受け手は,精度の点でのみ相補的であることを示す。
我々は,レトリバーにリーダを蒸留し,レトリバーが読者の強度を吸収し,自身の利益を維持することを提案する。
論文 参考訳(メタデータ) (2020-10-21T13:40:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。