論文の概要: LED: Lexicon-Enlightened Dense Retriever for Large-Scale Retrieval
- arxiv url: http://arxiv.org/abs/2208.13661v1
- Date: Mon, 29 Aug 2022 15:09:28 GMT
- ステータス: 処理完了
- システム内更新日: 2022-08-30 13:47:27.216592
- Title: LED: Lexicon-Enlightened Dense Retriever for Large-Scale Retrieval
- Title(参考訳): LED:大型リトリーバー用レキシコン照明ダンスレトリバー
- Authors: Kai Zhang, Chongyang Tao, Tao Shen, Can Xu, Xiubo Geng, Binxing Jiao,
Daxin Jiang
- Abstract要約: そこで本研究では,高密度なレトリバーをレキシコン認識表現モデルに整合させることを提案する。
提案手法を3つの公開ベンチマークで評価した結果,教師と同等のレキシコン・アウェア・レトリバーにより,提案手法が一貫した,重要な改善をもたらす可能性が示唆された。
- 参考スコア(独自算出の注目度): 68.85686621130111
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Retrieval models based on dense representations in semantic space have become
an indispensable branch for first-stage retrieval. These retrievers benefit
from surging advances in representation learning towards compressive global
sequence-level embeddings. However, they are prone to overlook local salient
phrases and entity mentions in texts, which usually play pivot roles in
first-stage retrieval. To mitigate this weakness, we propose to make a dense
retriever align a well-performing lexicon-aware representation model. The
alignment is achieved by weakened knowledge distillations to enlighten the
retriever via two aspects -- 1) a lexicon-augmented contrastive objective to
challenge the dense encoder and 2) a pair-wise rank-consistent regularization
to make dense model's behavior incline to the other. We evaluate our model on
three public benchmarks, which shows that with a comparable lexicon-aware
retriever as the teacher, our proposed dense one can bring consistent and
significant improvements, and even outdo its teacher. In addition, we found our
improvement on the dense retriever is complementary to the standard ranker
distillation, which can further lift state-of-the-art performance.
- Abstract(参考訳): セマンティック空間における密表現に基づく検索モデルは、第一段階の検索には不可欠である。
これらのレトリバーは、圧縮的グローバルシーケンスレベルの埋め込みへの表現学習の進歩の恩恵を受ける。
しかし、彼らはテキスト中の局所的な有能なフレーズやエンティティの言及を見落としやすいため、通常は第一段階の検索において中心的な役割を果たす。
この弱さを緩和するため、高密度なレトリバーを良好なレキシコン認識表現モデルに整列させることを提案する。
このアライメントは、2つの側面を通じてレトリバーを啓蒙する知識蒸留の弱化によって達成される。
1)高密度エンコーダに挑戦するための辞書強化コントラスト目的
2) 密なモデルの振る舞いを他方に傾けるような対のランク整合正則化。
提案手法を3つの公開ベンチマークで評価し,比較対象のレキシコン・アウェア・レトリバーを教師として採用することで,提案手法が一貫性と大幅な改善をもたらすこと,さらには教師よりも優れていること,等を示す。
また,高濃度回収器の性能向上は,標準ランチャー蒸留法を補完するものであり,さらなる性能向上が期待できることがわかった。
関連論文リスト
- Towards Competitive Search Relevance For Inference-Free Learned Sparse Retrievers [6.773411876899064]
推測のないスパースモデルは 検索の関連という点で はるかに遅れています スパースモデルと密集したサイムズモデルの両方と比較して
まず,IDF(Inverted Document Frequency)を導入したIFF対応のFLOPS損失を表現のスペーシングに導入する。
その結果、FLOPS正則化が検索関連性に与える影響を軽減し、精度と効率のバランスが良くなることがわかった。
論文 参考訳(メタデータ) (2024-11-07T03:46:43Z) - Bridging the Training-Inference Gap for Dense Phrase Retrieval [104.4836127502683]
密度の高いレトリバーを構築するには、トレーニングやニューラルネットワークの検証など、一連の標準手順が必要である。
本稿では,高密度検索におけるトレーニングと推論のギャップを減らせる方法について検討する。
コーパス全体の小さな部分集合を用いて高密度レトリバーを効率よく検証する方法を提案する。
論文 参考訳(メタデータ) (2022-10-25T00:53:06Z) - Metric-guided Distillation: Distilling Knowledge from the Metric to
Ranker and Retriever for Generative Commonsense Reasoning [48.18060169551869]
本稿では,計量からランクまで知識を蒸留するための計量蒸留則を提案する。
さらに、蒸留したランクラーによって要約された臨界知識をレトリバーに転送する。
提案手法の有効性をCommonGenベンチマークで検証した。
論文 参考訳(メタデータ) (2022-10-21T03:34:24Z) - Towards Robust Ranker for Text Retrieval [83.15191578888188]
ローダは、デファクトの'retrieval & rerank'パイプラインで必須の役割を果たす。
ローダは、デファクトの'retrieval & rerank'パイプラインで必須の役割を果たす。
論文 参考訳(メタデータ) (2022-06-16T10:27:46Z) - UnifieR: A Unified Retriever for Large-Scale Retrieval [84.61239936314597]
大規模な検索は、クエリを与えられた巨大なコレクションから関連ドキュメントをリコールすることである。
事前学習型言語モデル(PLM)に基づく最近の検索手法は,高密度ベクターあるいはレキシコンに基づくパラダイムに大別することができる。
本論文では,高密度ベクトルとレキシコンに基づく検索を2つの表現能力を持つ1つのモデルで統合する学習フレームワークUnifieRを提案する。
論文 参考訳(メタデータ) (2022-05-23T11:01:59Z) - LaPraDoR: Unsupervised Pretrained Dense Retriever for Zero-Shot Text
Retrieval [55.097573036580066]
実験結果から,LaPraDoRは教師付き高密度検索モデルと比較して最先端の性能が得られることがわかった。
再ランクと比較すると,1ミリ秒 (22.5倍高速) でレキシコン強化手法を動作させることができるが,性能は良好である。
論文 参考訳(メタデータ) (2022-03-11T18:53:12Z) - Adversarial Retriever-Ranker for dense text retrieval [51.87158529880056]
本稿では、二重エンコーダレトリバーとクロスエンコーダローダからなるAdversarial Retriever-Ranker(AR2)を提案する。
AR2は、既存の高密度レトリバー法より一貫して大幅に優れている。
これには、R@5から77.9%(+2.1%)、TriviaQA R@5から78.2%(+1.4)、MS-MARCO MRR@10から39.5%(+1.3%)の改善が含まれている。
論文 参考訳(メタデータ) (2021-10-07T16:41:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。