論文の概要: Bridging the Training-Inference Gap for Dense Phrase Retrieval
- arxiv url: http://arxiv.org/abs/2210.13678v1
- Date: Tue, 25 Oct 2022 00:53:06 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-26 14:05:59.083580
- Title: Bridging the Training-Inference Gap for Dense Phrase Retrieval
- Title(参考訳): デンスフレーズ検索のためのトレーニング推論ギャップのブリッジ化
- Authors: Gyuwan Kim, Jinhyuk Lee, Barlas Oguz, Wenhan Xiong, Yizhe Zhang,
Yashar Mehdad, William Yang Wang
- Abstract要約: 密度の高いレトリバーを構築するには、トレーニングやニューラルネットワークの検証など、一連の標準手順が必要である。
本稿では,高密度検索におけるトレーニングと推論のギャップを減らせる方法について検討する。
コーパス全体の小さな部分集合を用いて高密度レトリバーを効率よく検証する方法を提案する。
- 参考スコア(独自算出の注目度): 104.4836127502683
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Building dense retrievers requires a series of standard procedures, including
training and validating neural models and creating indexes for efficient
search. However, these procedures are often misaligned in that training
objectives do not exactly reflect the retrieval scenario at inference time. In
this paper, we explore how the gap between training and inference in dense
retrieval can be reduced, focusing on dense phrase retrieval (Lee et al., 2021)
where billions of representations are indexed at inference. Since validating
every dense retriever with a large-scale index is practically infeasible, we
propose an efficient way of validating dense retrievers using a small subset of
the entire corpus. This allows us to validate various training strategies
including unifying contrastive loss terms and using hard negatives for phrase
retrieval, which largely reduces the training-inference discrepancy. As a
result, we improve top-1 phrase retrieval accuracy by 2~3 points and top-20
passage retrieval accuracy by 2~4 points for open-domain question answering.
Our work urges modeling dense retrievers with careful consideration of training
and inference via efficient validation while advancing phrase retrieval as a
general solution for dense retrieval.
- Abstract(参考訳): 高密度レトリバーの構築には、ニューラルネットワークモデルのトレーニングと検証、効率的な検索のためのインデックスの作成など、一連の標準的な手順が必要となる。
しかし、これらの手順は、トレーニング対象が推論時の検索シナリオを正確に反映していないという点でしばしば誤解される。
本稿では,数十億の表現が推論でインデックス化される密接な句検索(lee et al., 2021)に着目し,密接な検索における学習と推論のギャップの低減について検討する。
大規模インデックスを用いたディープレトリバーの検証は事実上不可能であるため,コーパス全体の小さなサブセットを用いて,ディープレトリバーを効率よく検証する方法を提案する。
これにより、コントラスト的損失項の統一化や、句検索にハードネガティブを用いることなど、さまざまなトレーニング戦略を検証することができる。
その結果,トップ1句の検索精度は2~3ポイント,トップ20節の検索精度は2~4ポイント向上した。
本研究は, 単語検索を高密度検索の一般解として進めつつ, 効率的に評価し, 学習と推論を慎重に考慮した高密度検索をモデル化することを促す。
関連論文リスト
- Towards Competitive Search Relevance For Inference-Free Learned Sparse Retrievers [6.773411876899064]
推測のないスパースモデルは 検索の関連という点で はるかに遅れています スパースモデルと密集したサイムズモデルの両方と比較して
まず,IDF(Inverted Document Frequency)を導入したIFF対応のFLOPS損失を表現のスペーシングに導入する。
その結果、FLOPS正則化が検索関連性に与える影響を軽減し、精度と効率のバランスが良くなることがわかった。
論文 参考訳(メタデータ) (2024-11-07T03:46:43Z) - Improve Dense Passage Retrieval with Entailment Tuning [22.39221206192245]
検索システムの鍵となるのは、クエリとパスペアの関連スコアを計算することである。
我々は、NLIタスクにおけるエンテーメントの概念と、関連性の主要なクラスが一致していることを観察した。
我々は,高密度レトリバーの埋め込みを改善するために,エンテーメントチューニングと呼ばれる手法を設計する。
論文 参考訳(メタデータ) (2024-10-21T09:18:30Z) - Dense X Retrieval: What Retrieval Granularity Should We Use? [56.90827473115201]
しばしば見過ごされる設計選択は、コーパスが索引付けされる検索単位である。
本稿では,高密度検索のための新しい検索ユニット,命題を提案する。
実験により、提案のような細粒度単位によるコーパスのインデックス付けは、検索タスクにおける通過レベル単位を著しく上回っていることが明らかとなった。
論文 参考訳(メタデータ) (2023-12-11T18:57:35Z) - LED: Lexicon-Enlightened Dense Retriever for Large-Scale Retrieval [68.85686621130111]
そこで本研究では,高密度なレトリバーをレキシコン認識表現モデルに整合させることを提案する。
提案手法を3つの公開ベンチマークで評価した結果,教師と同等のレキシコン・アウェア・レトリバーにより,提案手法が一貫した,重要な改善をもたらす可能性が示唆された。
論文 参考訳(メタデータ) (2022-08-29T15:09:28Z) - LaPraDoR: Unsupervised Pretrained Dense Retriever for Zero-Shot Text
Retrieval [55.097573036580066]
実験結果から,LaPraDoRは教師付き高密度検索モデルと比較して最先端の性能が得られることがわかった。
再ランクと比較すると,1ミリ秒 (22.5倍高速) でレキシコン強化手法を動作させることができるが,性能は良好である。
論文 参考訳(メタデータ) (2022-03-11T18:53:12Z) - Phrase Retrieval Learns Passage Retrieval, Too [77.57208968326422]
文節検索が,文節や文書を含む粗いレベルの検索の基盤となるかを検討する。
句検索システムでは,句検索の精度が向上し,句検索の精度が向上していることを示す。
また,句のフィルタリングやベクトル量子化により,インデックスのサイズを4~10倍に削減できることを示す。
論文 参考訳(メタデータ) (2021-09-16T17:42:45Z) - Approximate Nearest Neighbor Negative Contrastive Learning for Dense
Text Retrieval [20.62375162628628]
本稿では, コーパスの近似ニアネストニアバー(ANN)指数から負を構成する学習機構である, 近似近傍の負相対性推定(ANCE)を提案する。
実験では,BERT-Siamese DRモデルを改良し,厳密でスパースな検索ベースラインを上回ります。
これは、ANCE学習表現空間におけるドット生成を用いたスパース検索とBERTの精度とほぼ一致し、約100倍のスピードアップを提供する。
論文 参考訳(メタデータ) (2020-07-01T23:15:56Z) - Progressively Pretrained Dense Corpus Index for Open-Domain Question
Answering [87.32442219333046]
本稿では,段落エンコーダを事前学習するための簡易かつ資源効率の高い手法を提案する。
本手法は,事前学習に7倍の計算資源を使用する既存の高密度検索法より優れている。
論文 参考訳(メタデータ) (2020-04-30T18:09:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。