論文の概要: Mitigating the Impact of False Negatives in Dense Retrieval with
Contrastive Confidence Regularization
- arxiv url: http://arxiv.org/abs/2401.00165v1
- Date: Sat, 30 Dec 2023 08:01:57 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-03 18:29:04.630672
- Title: Mitigating the Impact of False Negatives in Dense Retrieval with
Contrastive Confidence Regularization
- Title(参考訳): コントラスト信頼正規化による密検索における偽陰性の影響の軽減
- Authors: Shiqi Wang, Yeqin Zhang and Cam-Tu Nguyen
- Abstract要約: ノイズコントラスト推定(NCE)損失に対する新しいコントラスト信頼度正規化器を提案する。
解析の結果,正則化器はより高密度な検索モデルにおいて,理論的保証のある偽陰性に対してより堅牢であることがわかった。
- 参考スコア(独自算出の注目度): 15.204113965411777
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In open-domain Question Answering (QA), dense retrieval is crucial for
finding relevant passages for answer generation. Typically, contrastive
learning is used to train a retrieval model that maps passages and queries to
the same semantic space. The objective is to make similar ones closer and
dissimilar ones further apart. However, training such a system is challenging
due to the false negative issue, where relevant passages may be missed during
data annotation. Hard negative sampling, which is commonly used to improve
contrastive learning, can introduce more noise in training. This is because
hard negatives are those closer to a given query, and thus more likely to be
false negatives. To address this issue, we propose a novel contrastive
confidence regularizer for Noise Contrastive Estimation (NCE) loss, a commonly
used loss for dense retrieval. Our analysis shows that the regularizer helps
dense retrieval models be more robust against false negatives with a
theoretical guarantee. Additionally, we propose a model-agnostic method to
filter out noisy negative passages in the dataset, improving any downstream
dense retrieval models. Through experiments on three datasets, we demonstrate
that our method achieves better retrieval performance in comparison to existing
state-of-the-art dense retrieval systems.
- Abstract(参考訳): オープンドメイン質問回答(QA)では,回答生成のための関連する経路を見つけるために,密集検索が重要である。
通常、コントラスト学習は、パスとクエリを同じ意味空間にマッピングする検索モデルを訓練するために使用される。
目的は、同様のものをより近づき、差別化させることである。
しかしながら、このようなシステムのトレーニングは、データアノテーション中に関連する節を見逃す可能性がある、誤った否定的な問題のために難しい。
対照的な学習を改善するために一般的に使用されるハードネガティブサンプリングは、トレーニングにおいてより多くのノイズをもたらす可能性がある。
これは、ハードネガティブが与えられたクエリに近いものであり、従って偽陰性である可能性が高いためである。
この問題に対処するために,ノイズコントラスト推定(nce)損失に対する新しいコントラスト信頼度正規化器を提案する。
解析の結果, 正規化器は, 密検索モデルが理論的に保証された偽負に対してより頑健になることを示す。
さらに,データセット内のノイズのある負の通路をフィルタするモデル非依存手法を提案し,下流の密集した検索モデルを改善した。
本手法は, 3つのデータセットを用いた実験により, 既存の高密度検索システムと比較して, 検索性能が向上することを示す。
関連論文リスト
- Noisy Correspondence Learning with Self-Reinforcing Errors Mitigation [63.180725016463974]
クロスモーダル検索は、実際は精力的な、十分に整合した大規模データセットに依存している。
我々は、新しい雑音対応学習フレームワーク、textbfSelf-textbfReinforcing textbfErrors textbfMitigation(SREM)を導入する。
論文 参考訳(メタデータ) (2023-12-27T09:03:43Z) - Noisy Pair Corrector for Dense Retrieval [59.312376423104055]
ノイズペアコレクタ(NPC)と呼ばれる新しい手法を提案する。
NPCは検出モジュールと修正モジュールから構成される。
我々は,テキスト検索ベンチマークのNatural QuestionとTriviaQA,コード検索ベンチマークのStaQCとSO-DSで実験を行った。
論文 参考訳(メタデータ) (2023-11-07T08:27:14Z) - Detrimental Contexts in Open-Domain Question Answering [9.059854023578508]
質問応答に使用される検索テーマのアーキテクチャに対して,パスが有害な影響を及ぼすかを分析する。
この結果から,2つの人気のあるQAデータセットにおいて,有害経路をフィルタリングすることにより,モデル精度を10%向上できることが示唆された。
論文 参考訳(メタデータ) (2023-10-27T11:45:16Z) - Unsupervised Dense Retrieval with Relevance-Aware Contrastive
Pre-Training [81.3781338418574]
関連性を考慮したコントラスト学習を提案する。
我々は、BEIRおよびオープンドメインQA検索ベンチマークにおいて、SOTAアン教師なしコントリバーモデルを一貫して改善する。
本手法は, 目標コーパスの事前訓練後, BM25に打ち勝つだけでなく, 優れた数発学習者として機能する。
論文 参考訳(メタデータ) (2023-06-05T18:20:27Z) - Robust Contrastive Learning against Noisy Views [79.71880076439297]
ノイズの多い視点に対して頑健な新しいコントラスト損失関数を提案する。
提案手法は,最新の画像,ビデオ,グラフのコントラスト学習ベンチマークに対して一貫した改善を提供する。
論文 参考訳(メタデータ) (2022-01-12T05:24:29Z) - Negative Sample is Negative in Its Own Way: Tailoring Negative Sentences
for Image-Text Retrieval [19.161248757493386]
本稿では, 否定文として自動的に合成文を生成するために, 識別・訂正による否定文をTAGS-DC(TAiloring Negative Sentences with Discrimination and Correction)を提案する。
トレーニング中の難易度を維持するため,パラメータ共有による検索と生成を相互に改善する。
実験では,MS-COCOおよびFlickr30Kにおけるモデルの有効性を,現在の最先端モデルと比較して検証した。
論文 参考訳(メタデータ) (2021-11-05T09:36:41Z) - Incremental False Negative Detection for Contrastive Learning [95.68120675114878]
本稿では,自己指導型コントラスト学習のための新たな偽陰性検出手法を提案する。
対照的な学習では、検出された偽陰性を明示的に除去する2つの戦略について議論する。
提案手法は,制限された計算内での複数のベンチマークにおいて,他の自己教師付きコントラスト学習フレームワークよりも優れる。
論文 参考訳(メタデータ) (2021-06-07T15:29:14Z) - Continual Learning for Fake Audio Detection [62.54860236190694]
本論文では,連続学習に基づく手法である忘れずに偽物を検出することで,モデルに新たなスプーフィング攻撃をインクリメンタルに学習させる手法を提案する。
ASVspoof 2019データセットで実験が行われる。
論文 参考訳(メタデータ) (2021-04-15T07:57:05Z) - Understanding Hard Negatives in Noise Contrastive Estimation [21.602701327267905]
ハードマイナスの役割を理解するための分析ツールを開発した。
テキスト検索に用いられる様々なアーキテクチャを統一するスコア関数の一般的な形式を導出する。
論文 参考訳(メタデータ) (2021-04-13T14:42:41Z) - Approximate Nearest Neighbor Negative Contrastive Learning for Dense
Text Retrieval [20.62375162628628]
本稿では, コーパスの近似ニアネストニアバー(ANN)指数から負を構成する学習機構である, 近似近傍の負相対性推定(ANCE)を提案する。
実験では,BERT-Siamese DRモデルを改良し,厳密でスパースな検索ベースラインを上回ります。
これは、ANCE学習表現空間におけるドット生成を用いたスパース検索とBERTの精度とほぼ一致し、約100倍のスピードアップを提供する。
論文 参考訳(メタデータ) (2020-07-01T23:15:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。