論文の概要: Approximate Nearest Neighbor Negative Contrastive Learning for Dense
Text Retrieval
- arxiv url: http://arxiv.org/abs/2007.00808v2
- Date: Tue, 20 Oct 2020 22:17:19 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-14 22:25:56.654890
- Title: Approximate Nearest Neighbor Negative Contrastive Learning for Dense
Text Retrieval
- Title(参考訳): 濃密テキスト検索のための近似近傍負の競合学習
- Authors: Lee Xiong, Chenyan Xiong, Ye Li, Kwok-Fung Tang, Jialin Liu, Paul
Bennett, Junaid Ahmed, Arnold Overwijk
- Abstract要約: 本稿では, コーパスの近似ニアネストニアバー(ANN)指数から負を構成する学習機構である, 近似近傍の負相対性推定(ANCE)を提案する。
実験では,BERT-Siamese DRモデルを改良し,厳密でスパースな検索ベースラインを上回ります。
これは、ANCE学習表現空間におけるドット生成を用いたスパース検索とBERTの精度とほぼ一致し、約100倍のスピードアップを提供する。
- 参考スコア(独自算出の注目度): 20.62375162628628
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Conducting text retrieval in a dense learned representation space has many
intriguing advantages over sparse retrieval. Yet the effectiveness of dense
retrieval (DR) often requires combination with sparse retrieval. In this paper,
we identify that the main bottleneck is in the training mechanisms, where the
negative instances used in training are not representative of the irrelevant
documents in testing. This paper presents Approximate nearest neighbor Negative
Contrastive Estimation (ANCE), a training mechanism that constructs negatives
from an Approximate Nearest Neighbor (ANN) index of the corpus, which is
parallelly updated with the learning process to select more realistic negative
training instances. This fundamentally resolves the discrepancy between the
data distribution used in the training and testing of DR. In our experiments,
ANCE boosts the BERT-Siamese DR model to outperform all competitive dense and
sparse retrieval baselines. It nearly matches the accuracy of
sparse-retrieval-and-BERT-reranking using dot-product in the ANCE-learned
representation space and provides almost 100x speed-up.
- Abstract(参考訳): 密集した表現空間におけるテキスト検索はスパース検索よりも多くの興味深い利点がある。
しかし、高密度検索(DR)の有効性はスパース検索と組み合わせることがしばしば必要である。
本稿では,トレーニングで使用される負のインスタンスがテストにおける無関係な文書を代表しない,トレーニングメカニズムが主なボトルネックであることを示す。
本稿では,学習プロセスと並行して更新され,より現実的な否定的学習インスタンスが選択されるコーパスの近近近辺(ann)インデックスから負を構成する学習機構である,近近近近近辺負対比推定(ance)を提案する。
実験ではBERT-Siamese DRモデルを改良し,厳密でスパースな検索ベースラインをすべて上回る結果を得た。
sparse-retrieval-and-bert-rerankingの精度とほぼ一致し、約100倍のスピードアップを提供する。
関連論文リスト
- Towards Competitive Search Relevance For Inference-Free Learned Sparse Retrievers [6.773411876899064]
推測のないスパースモデルは 検索の関連という点で はるかに遅れています スパースモデルと密集したサイムズモデルの両方と比較して
まず,IDF(Inverted Document Frequency)を導入したIFF対応のFLOPS損失を表現のスペーシングに導入する。
その結果、FLOPS正則化が検索関連性に与える影響を軽減し、精度と効率のバランスが良くなることがわかった。
論文 参考訳(メタデータ) (2024-11-07T03:46:43Z) - Mitigating the Impact of False Negatives in Dense Retrieval with
Contrastive Confidence Regularization [15.204113965411777]
ノイズコントラスト推定(NCE)損失に対する新しいコントラスト信頼度正規化器を提案する。
解析の結果,正則化器はより高密度な検索モデルにおいて,理論的保証のある偽陰性に対してより堅牢であることがわかった。
論文 参考訳(メタデータ) (2023-12-30T08:01:57Z) - Noisy Correspondence Learning with Self-Reinforcing Errors Mitigation [63.180725016463974]
クロスモーダル検索は、実際は精力的な、十分に整合した大規模データセットに依存している。
我々は、新しい雑音対応学習フレームワーク、textbfSelf-textbfReinforcing textbfErrors textbfMitigation(SREM)を導入する。
論文 参考訳(メタデータ) (2023-12-27T09:03:43Z) - Unsupervised Dense Retrieval with Relevance-Aware Contrastive
Pre-Training [81.3781338418574]
関連性を考慮したコントラスト学習を提案する。
我々は、BEIRおよびオープンドメインQA検索ベンチマークにおいて、SOTAアン教師なしコントリバーモデルを一貫して改善する。
本手法は, 目標コーパスの事前訓練後, BM25に打ち勝つだけでなく, 優れた数発学習者として機能する。
論文 参考訳(メタデータ) (2023-06-05T18:20:27Z) - Test-Time Distribution Normalization for Contrastively Learned
Vision-language Models [39.66329310098645]
CLIPとして最近提案された最も代表的なアプローチの1つは、その有効性のために広く採用されている。
本稿では,ドット製品のダウンストリーム化は最適化目標の0次近似に過ぎず,テスト時間中に情報が失われることを明らかにする。
本研究では, 分散正規化(DN)を提案し, テストサンプルのバッチの平均表現を近似し, InfoNCE損失における負のサンプルと類似するものを表現する。
論文 参考訳(メタデータ) (2023-02-22T01:14:30Z) - Bridging the Training-Inference Gap for Dense Phrase Retrieval [104.4836127502683]
密度の高いレトリバーを構築するには、トレーニングやニューラルネットワークの検証など、一連の標準手順が必要である。
本稿では,高密度検索におけるトレーニングと推論のギャップを減らせる方法について検討する。
コーパス全体の小さな部分集合を用いて高密度レトリバーを効率よく検証する方法を提案する。
論文 参考訳(メタデータ) (2022-10-25T00:53:06Z) - LaPraDoR: Unsupervised Pretrained Dense Retriever for Zero-Shot Text
Retrieval [55.097573036580066]
実験結果から,LaPraDoRは教師付き高密度検索モデルと比較して最先端の性能が得られることがわかった。
再ランクと比較すると,1ミリ秒 (22.5倍高速) でレキシコン強化手法を動作させることができるが,性能は良好である。
論文 参考訳(メタデータ) (2022-03-11T18:53:12Z) - Combining Feature and Instance Attribution to Detect Artifacts [62.63504976810927]
トレーニングデータアーティファクトの識別を容易にする手法を提案する。
提案手法は,トレーニングデータのアーティファクトの発見に有効であることを示す。
我々は,これらの手法が実際にNLP研究者にとって有用かどうかを評価するために,小規模なユーザスタディを実施している。
論文 参考訳(メタデータ) (2021-07-01T09:26:13Z) - CIMON: Towards High-quality Hash Codes [63.37321228830102]
我々はtextbfComprehensive stextbfImilarity textbfMining と ctextbfOnsistency leartextbfNing (CIMON) という新しい手法を提案する。
まず、グローバルな洗練と類似度統計分布を用いて、信頼性とスムーズなガイダンスを得る。第二に、意味的整合性学習とコントラスト的整合性学習の両方を導入して、乱不変と差別的ハッシュコードの両方を導出する。
論文 参考訳(メタデータ) (2020-10-15T14:47:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。