論文の概要: A Study on the Efficiency and Generalization of Light Hybrid Retrievers
- arxiv url: http://arxiv.org/abs/2210.01371v1
- Date: Tue, 4 Oct 2022 04:22:46 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-05 14:41:00.976688
- Title: A Study on the Efficiency and Generalization of Light Hybrid Retrievers
- Title(参考訳): 光ハイブリッドレトリバーの効率性と一般化に関する研究
- Authors: Man Luo, Shashank Jain, Anchit Gupta, Arash Einolghozati, Barlas Oguz,
Debojeet Chatterjee, Xilun Chen, Chitta Baral, Peyman Heidari
- Abstract要約: 既存のハイブリッドレトリバーはスパースと密集したレトリバーを統合し、実際のオンデバイス設定で適用性を制限する。
我々は、インデックス化効率の高い高密度レトリバー(DrBoost)を活用して、軽量ハイブリッドレトリバーを得る。
従来の重ハイブリッドレトリバーと比較して、Hybrid-LITEレトリバーは98.0性能を維持しながら13メモリを節約する。
- 参考スコア(独自算出の注目度): 28.08970760703045
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Existing hybrid retrievers which integrate sparse and dense retrievers, are
indexing-heavy, limiting their applicability in real-world on-devices settings.
We ask the question "Is it possible to reduce the indexing memory of hybrid
retrievers without sacrificing performance?" Driven by this question, we
leverage an indexing-efficient dense retriever (i.e. DrBoost) to obtain a light
hybrid retriever. Moreover, to further reduce the memory, we introduce a
lighter dense retriever (LITE) which is jointly trained on contrastive learning
and knowledge distillation from DrBoost. Compared to previous heavy hybrid
retrievers, our Hybrid-LITE retriever saves 13 memory while maintaining 98.0
performance.
In addition, we study the generalization of light hybrid retrievers along two
dimensions, out-of-domain (OOD) generalization and robustness against
adversarial attacks. We evaluate models on two existing OOD benchmarks and
create six adversarial attack sets for robustness evaluation. Experiments show
that our light hybrid retrievers achieve better robustness performance than
both sparse and dense retrievers. Nevertheless there is a large room to improve
the robustness of retrievers, and our datasets can aid future research.
- Abstract(参考訳): スパースと密集したレトリバーを統合する既存のハイブリッドレトリバーはインデックス重く、実世界のオンデバイス設定での適用性が制限されている。
パフォーマンスを犠牲にすることなく、ハイブリッドレトリバーのインデックス記憶を減らすことは可能か?
この疑問に駆り立てられ、インデックス化効率の高い高密度レトリバー(drboost)を利用して軽量ハイブリッドレトリバーを得る。
さらに,drboostのコントラスト学習と知識蒸留を併用した,より軽量な密集型回収機(lite)を提案する。
従来の重ハイブリッドレトリバーと比較して、Hybrid-LITEレトリバーは98.0性能を維持しながら13メモリを節約する。
さらに,2次元にまたがる光ハイブリッドレトリバーの一般化,ドメイン外一般化と敵攻撃に対する堅牢性について検討した。
我々は既存の2つのOODベンチマークのモデルを評価し、ロバストネス評価のための6つの逆攻撃セットを作成する。
実験により, 軽量ハイブリッドレトリバーは, ばらばらで密集したレトリバーよりもロバスト性が向上した。
それでも、検索者の堅牢性を改善するための大きな部屋があり、私たちのデータセットは将来の研究に役立つ。
関連論文リスト
- Inference-time Re-ranker Relevance Feedback for Neural Information
Retrieval [84.20748790986131]
検索と参照のフレームワークは、まずK(例えば100)候補を検索し、次により強力なクロスエンコーダモデルを使って上位の候補をランク付けする。
リランカは一般的に、レトリバーよりも優れた候補スコアを生成するが、トップKのみの検索に限られる。
本研究では、リランカを活用して、推論時間関連性フィードバックを検索者に提供することにより、検索を改善する。
論文 参考訳(メタデータ) (2023-05-19T15:30:33Z) - UPRISE: Universal Prompt Retrieval for Improving Zero-Shot Evaluation [81.80385076856304]
本稿では,与えられたゼロショットタスク入力のプロンプトを自動的に取り出す軽量で多用途なレトリバーをチューニングするUPRISEを提案する。
具体的には、クロスタスクおよびクロスモデルシナリオにおける普遍性を示す。
UPRISEはChatGPT実験における幻覚の緩和効果を示す。
論文 参考訳(メタデータ) (2023-03-15T10:53:49Z) - Bridging the Training-Inference Gap for Dense Phrase Retrieval [104.4836127502683]
密度の高いレトリバーを構築するには、トレーニングやニューラルネットワークの検証など、一連の標準手順が必要である。
本稿では,高密度検索におけるトレーニングと推論のギャップを減らせる方法について検討する。
コーパス全体の小さな部分集合を用いて高密度レトリバーを効率よく検証する方法を提案する。
論文 参考訳(メタデータ) (2022-10-25T00:53:06Z) - Zero-Shot Retrieval with Search Agents and Hybrid Environments [8.017306481455778]
現在の言語モデルは、伝統的な用語ベースの検索と組み合わせて、シンボリックなクエリ再構成ポリシーを学習することができるが、より優れたニューラル検索には及ばない。
本稿では,2つのエンコーダを経由した1回目検索の後に,個別のクエリ精算操作を受け入れるハイブリッド環境に,従来の学習環境を拡張した。
BEIRタスクの実験では、動作クローンによって訓練されたサーチエージェントが、二重エンコーダレシーバーとクロスエンコーダリランカの組み合わせに基づいて、基礎となるサーチシステムより優れていることが示された。
論文 参考訳(メタデータ) (2022-09-30T13:50:25Z) - LaPraDoR: Unsupervised Pretrained Dense Retriever for Zero-Shot Text
Retrieval [55.097573036580066]
実験結果から,LaPraDoRは教師付き高密度検索モデルと比較して最先端の性能が得られることがわかった。
再ランクと比較すると,1ミリ秒 (22.5倍高速) でレキシコン強化手法を動作させることができるが,性能は良好である。
論文 参考訳(メタデータ) (2022-03-11T18:53:12Z) - Learning to Retrieve Passages without Supervision [58.31911597824848]
オープンドメイン質問応答(ODQA)のためのダンスレトリバーは,問合せペアの大規模データセットをトレーニングすることで,優れた性能を発揮することが示されている。
そこで本研究では,自己教師型で高密度検索が学べるかどうかを考察し,アノテーションを使わずに効果的に適用する。
論文 参考訳(メタデータ) (2021-12-14T19:18:08Z) - Hindsight: Posterior-guided training of retrievers for improved
open-ended generation [41.59136233128446]
そこで,本研究では,目標出力の使用を許可し,学習中に関連する経路を「後から」検索できるガイドレトリバーを提案する。
ウィザード・オブ・ウィキペディアのデータセットからの情報的な会話のために、後部誘導訓練により、検索者はトップ10に高い関連性のあるパスを見つける。
論文 参考訳(メタデータ) (2021-10-14T22:24:57Z) - Salient Phrase Aware Dense Retrieval: Can a Dense Retriever Imitate a
Sparse One? [15.618287626892174]
本稿では,スパースモデルの語彙マッチング能力を有する高密度検索器であるSPARについて紹介する。
特に高密度レトリバーLambdaはスパースレトリバーを模倣するように訓練でき、SPARは標準密度レトリバーをLambdaで強化することで構築されることを示す。
論文 参考訳(メタデータ) (2021-10-13T17:56:19Z) - Adversarial Retriever-Ranker for dense text retrieval [51.87158529880056]
本稿では、二重エンコーダレトリバーとクロスエンコーダローダからなるAdversarial Retriever-Ranker(AR2)を提案する。
AR2は、既存の高密度レトリバー法より一貫して大幅に優れている。
これには、R@5から77.9%(+2.1%)、TriviaQA R@5から78.2%(+1.4)、MS-MARCO MRR@10から39.5%(+1.3%)の改善が含まれている。
論文 参考訳(メタデータ) (2021-10-07T16:41:15Z) - Is Retriever Merely an Approximator of Reader? [27.306407064073177]
読み手と受け手は,精度の点でのみ相補的であることを示す。
我々は,レトリバーにリーダを蒸留し,レトリバーが読者の強度を吸収し,自身の利益を維持することを提案する。
論文 参考訳(メタデータ) (2020-10-21T13:40:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。