論文の概要: Noisy Pair Corrector for Dense Retrieval
- arxiv url: http://arxiv.org/abs/2311.03798v1
- Date: Tue, 7 Nov 2023 08:27:14 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-08 16:11:14.662664
- Title: Noisy Pair Corrector for Dense Retrieval
- Title(参考訳): 音響検索用ノイズペア補正器
- Authors: Hang Zhang, Yeyun Gong, Xingwei He, Dayiheng Liu, Daya Guo, Jiancheng
Lv, Jian Guo
- Abstract要約: ノイズペアコレクタ(NPC)と呼ばれる新しい手法を提案する。
NPCは検出モジュールと修正モジュールから構成される。
我々は,テキスト検索ベンチマークのNatural QuestionとTriviaQA,コード検索ベンチマークのStaQCとSO-DSで実験を行った。
- 参考スコア(独自算出の注目度): 59.312376423104055
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Most dense retrieval models contain an implicit assumption: the training
query-document pairs are exactly matched. Since it is expensive to annotate the
corpus manually, training pairs in real-world applications are usually
collected automatically, which inevitably introduces mismatched-pair noise. In
this paper, we explore an interesting and challenging problem in dense
retrieval, how to train an effective model with mismatched-pair noise. To solve
this problem, we propose a novel approach called Noisy Pair Corrector (NPC),
which consists of a detection module and a correction module. The detection
module estimates noise pairs by calculating the perplexity between annotated
positive and easy negative documents. The correction module utilizes an
exponential moving average (EMA) model to provide a soft supervised signal,
aiding in mitigating the effects of noise. We conduct experiments on
text-retrieval benchmarks Natural Question and TriviaQA, code-search benchmarks
StaQC and SO-DS. Experimental results show that NPC achieves excellent
performance in handling both synthetic and realistic noise.
- Abstract(参考訳): ほとんどの密集した検索モデルは暗黙の仮定を含んでいる: トレーニングされたクエリとドキュメントのペアは正確に一致している。
コーパスに手動で注釈をつけるのは費用がかかるため、現実世界のアプリケーションではトレーニングペアが自動的に収集されるため、必然的にミスマッチペアノイズが発生する。
本稿では,密集検索における興味深く,かつ困難な課題について検討し,不一致ペアノイズを伴う効果的なモデルの学習方法について検討する。
そこで本研究では,検出モジュールと修正モジュールから構成されるNPC(Noisy Pair Corrector)という新しい手法を提案する。
検出モジュールは、注釈付き正の文書と簡単な負の文書との複雑度を計算して雑音対を推定する。
補正モジュールは指数移動平均(EMA)モデルを用いて、ノイズの影響を緩和するソフト教師付き信号を提供する。
我々は,テキスト検索ベンチマークのNatural QuestionとTriviaQA,コード検索ベンチマークのStaQCとSO-DSで実験を行った。
実験結果から,NPCは合成ノイズと現実雑音の両方を扱うのに優れた性能を示した。
関連論文リスト
- Robust Learning under Hybrid Noise [24.36707245704713]
本稿では,データリカバリの観点からハイブリッドノイズに対処するため,新たな統合学習フレームワーク"Feature and Label Recovery"(FLR)を提案する。
論文 参考訳(メタデータ) (2024-07-04T16:13:25Z) - Pivotal Auto-Encoder via Self-Normalizing ReLU [20.76999663290342]
トランスフォーメーション学習問題として,単一の隠蔽層スパースオートエンコーダを定式化する。
本稿では,テスト時の騒音レベルに不変な予測モデルを実現する最適化問題を提案する。
実験結果から, 各種ノイズに対する安定性が向上することが示唆された。
論文 参考訳(メタデータ) (2024-06-23T09:06:52Z) - SoftPatch: Unsupervised Anomaly Detection with Noisy Data [67.38948127630644]
本稿では,画像センサ異常検出におけるラベルレベルのノイズを初めて考察する。
本稿では,メモリベースの非教師付きAD手法であるSoftPatchを提案する。
既存の手法と比較して、SoftPatchは通常のデータの強力なモデリング能力を維持し、コアセットにおける過信問題を軽減する。
論文 参考訳(メタデータ) (2024-03-21T08:49:34Z) - Understanding the Effect of Noise in LLM Training Data with Algorithmic
Chains of Thought [0.0]
思考の連鎖におけるノイズが,高度に制御された環境下でのタスクパフォーマンスに与える影響について検討する。
本研究では,CoTトレース処理後に適用される局所的な雑音と,トレース処理時にエラーを伝播する大域的なノイズであるテクトダイナミックノイズの2種類を定義した。
微調整されたモデルでは、高レベルの静的ノイズに対して非常に頑健であるが、低レベルの動的ノイズに対してかなり苦労している。
論文 参考訳(メタデータ) (2024-02-06T13:59:56Z) - Noisy Correspondence Learning with Self-Reinforcing Errors Mitigation [63.180725016463974]
クロスモーダル検索は、実際は精力的な、十分に整合した大規模データセットに依存している。
我々は、新しい雑音対応学習フレームワーク、textbfSelf-textbfReinforcing textbfErrors textbfMitigation(SREM)を導入する。
論文 参考訳(メタデータ) (2023-12-27T09:03:43Z) - Improving the Robustness of Summarization Models by Detecting and
Removing Input Noise [50.27105057899601]
本研究では,様々な種類の入力ノイズから,様々なデータセットやモデルサイズに対する性能損失を定量化する大規模な実験的検討を行った。
本稿では,モデル推論中の入力中のそのようなノイズを検出し,除去するための軽量な手法を提案する。
論文 参考訳(メタデータ) (2022-12-20T00:33:11Z) - NASTAR: Noise Adaptive Speech Enhancement with Target-Conditional
Resampling [34.565077865854484]
ターゲット条件再サンプリング(NASTAR)を用いた雑音適応音声強調手法を提案する。
NASTARはフィードバック機構を使用して、ノイズ抽出器と検索モデルを介して適応的なトレーニングデータをシミュレートする。
実験結果から,NASTARは1つの雑音のある音声サンプルを効果的に使用して,SEモデルを目標条件に適応させることができることがわかった。
論文 参考訳(メタデータ) (2022-06-18T00:15:48Z) - Learning with Group Noise [106.56780716961732]
グループノイズを用いた学習のための新しいマックスマッチング手法を提案する。
いくつかの学習パラダイムの領域における実世界のデータセットのレンジのパフォーマンスは、Max-Matchingの有効性を示している。
論文 参考訳(メタデータ) (2021-03-17T06:57:10Z) - Towards Noise-resistant Object Detection with Noisy Annotations [119.63458519946691]
ディープオブジェクト検出器の訓練には、正確なオブジェクトラベルとバウンディングボックス座標を持つ、相当量の人間の注釈画像が必要である。
ノイズの多いアノテーションはずっと簡単にアクセスできますが、学習には有害かもしれません。
ノイズにはラベルノイズとバウンディングボックスノイズが混在している。
論文 参考訳(メタデータ) (2020-03-03T01:32:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。