論文の概要: Fixing Data That Hurts Performance: Cascading LLMs to Relabel Hard Negatives for Robust Information Retrieval
- arxiv url: http://arxiv.org/abs/2505.16967v1
- Date: Thu, 22 May 2025 17:47:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-23 17:12:48.515458
- Title: Fixing Data That Hurts Performance: Cascading LLMs to Relabel Hard Negatives for Robust Information Retrieval
- Title(参考訳): パフォーマンスを損なうデータを修正する:ロバストな情報検索のためのハードネガティクスのリラベルにLLMをカスケードする
- Authors: Nandan Thakur, Crystina Zhang, Xueguang Ma, Jimmy Lin,
- Abstract要約: BGEコレクションから15のデータセットのうち8つを抽出し、BEIRでnDCG@10を1.0ポイント増やします。
カスケードLDMプロンプトを用いた簡易で費用対効果の高い手法を提案する。
BEIR上のQwen2.5-3Bのような可逆データに微調整されたリランカーについても同様の利得が観察された。
- 参考スコア(独自算出の注目度): 54.68474647525667
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Training robust retrieval and reranker models typically relies on large-scale retrieval datasets; for example, the BGE collection contains 1.6 million query-passage pairs sourced from various data sources. However, we find that certain datasets can negatively impact model effectiveness -- pruning 8 out of 15 datasets from the BGE collection reduces the training set size by 2.35$\times$ and increases nDCG@10 on BEIR by 1.0 point. This motivates a deeper examination of training data quality, with a particular focus on "false negatives", where relevant passages are incorrectly labeled as irrelevant. We propose a simple, cost-effective approach using cascading LLM prompts to identify and relabel hard negatives. Experimental results show that relabeling false negatives with true positives improves both E5 (base) and Qwen2.5-7B retrieval models by 0.7-1.4 nDCG@10 on BEIR and by 1.7-1.8 nDCG@10 on zero-shot AIR-Bench evaluation. Similar gains are observed for rerankers fine-tuned on the relabeled data, such as Qwen2.5-3B on BEIR. The reliability of the cascading design is further supported by human annotation results, where we find judgment by GPT-4o shows much higher agreement with humans than GPT-4o-mini.
- Abstract(参考訳): 例えば、BGEコレクションには、さまざまなデータソースから出力された1.6万のクエリパスペアが含まれている。
しかしながら、特定のデータセットがモデルの有効性に悪影響を及ぼす可能性があることが分かっています -- BGEコレクションから15データセット中8データセットをプルすると、トレーニングセットのサイズが2.35$\times$に減少し、BEIRのnDCG@10が1.0ポイント向上します。
これは、トレーニングデータ品質のより深い検証を動機付け、特に「偽陰性(false negatives)」に焦点を当てている。
カスケードLDMプロンプトを用いた簡易で費用対効果の高い手法を提案する。
実験の結果,真正で偽陰性を許容すると,E5(ベース)とQwen2.5-7B検索モデルの両方がBEIRで0.7-1.4nDCG@10,ゼロショットAIR-Benchで1.7-1.8nDCG@10に改善されることがわかった。
BEIR上のQwen2.5-3Bのような可逆データに微調整されたリランカーについても同様の利得が観察された。
GPT-4o による判断は GPT-4o-mini よりもはるかに高い一致を示した。
関連論文リスト
- Evaluating the Impact of Data Cleaning on the Quality of Generated Pull Request Descriptions [2.2134505920972547]
プルリクエスト(PR)はコラボレーションコーディングの中心である。
多くのPRは不完全、非形式的、あるいはアウト・オブ・コンテクストのコンテンツを持っている。
本研究では,「ノイズ」PRの有病率について検討し,それらが記述生成モデルに与える影響を評価する。
論文 参考訳(メタデータ) (2025-05-02T08:58:42Z) - SoTA with Less: MCTS-Guided Sample Selection for Data-Efficient Visual Reasoning Self-Improvement [100.85923086072204]
ThinkLite-VLはQwen2.5-VL-7Bインストラクションの平均性能を7%向上させる。
私たちのコード、データ、モデルはhttps://github.com/si0wang/ThinkLite-VL.orgで公開されています。
論文 参考訳(メタデータ) (2025-04-10T17:49:05Z) - Segmentation Dataset for Reinforced Concrete Construction [4.32009010195029]
本稿では, 補強コンクリートの欠陥を自動検査するためのセグメンテーションラベル付き14,805枚のRGB画像のデータセットを提供する。
YOLOv8L-seg は、最大 0.59 のバリデーション mIOU スコアを達成する。
公開データの欠如は、偽陰性に対する重要な貢献であると認識されている。
論文 参考訳(メタデータ) (2024-07-12T15:53:15Z) - SAP: Corrective Machine Unlearning with Scaled Activation Projection for Label Noise Robustness [9.080678336379528]
本稿では,SVDに基づく新しい非学習アルゴリズムであるScaled Activation Projection (SAP)を紹介する。
SAPは、クロスエントロピー損失を用いて信頼されたサンプルの小さなサブセットを特定することでラベルノイズを緩和する。
自然劣化したクロチング1Mで訓練したビジョントランスモデルの2.31%の一般化改善を観察する。
論文 参考訳(メタデータ) (2024-03-13T15:32:08Z) - CLIP the Bias: How Useful is Balancing Data in Multimodal Learning? [72.19502317793133]
比較言語画像事前学習(CLIP)におけるバイアス軽減のためのデータバランスの有効性について検討する。
表現バイアスと相関バイアスの両方を低減するために,Multi-Modal Moment Matching (M4) と呼ばれる新しいアルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-03-07T14:43:17Z) - gSASRec: Reducing Overconfidence in Sequential Recommendation Trained
with Negative Sampling [67.71952251641545]
負のサンプリングで訓練されたモデルは、正の相互作用の確率を過大評価する傾向がある。
本稿では, 一般化二項クロスエントロピー損失関数(gBCE)を提案する。
本稿では,gSASRecが過信問題を示さない3つのデータセットについて詳細な実験を行った。
論文 参考訳(メタデータ) (2023-08-14T14:56:40Z) - Rethinking InfoNCE: How Many Negative Samples Do You Need? [54.146208195806636]
半定量的理論フレームワークを用いて, InfoNCE に最適化された負のサンプル数について検討した。
トレーニングの有効性関数を最大化する$K$値を用いて,最適負サンプリング比を推定する。
論文 参考訳(メタデータ) (2021-05-27T08:38:29Z) - Reinforced Negative Sampling over Knowledge Graph for Recommendation [106.07209348727564]
我々は、高品質なネガティブを探索する強化学習エージェントとして機能する新しい負サンプリングモデル、知識グラフポリシーネットワーク(kgPolicy)を開発した。
kgPolicyは、ターゲットのポジティブなインタラクションからナビゲートし、知識を意識したネガティブなシグナルを適応的に受信し、最終的にはリコメンダをトレーニングする潜在的なネガティブなアイテムを生成する。
論文 参考訳(メタデータ) (2020-03-12T12:44:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。