論文の概要: ECI: Effective Contrastive Information to Evaluate Hard-Negatives
- arxiv url: http://arxiv.org/abs/2603.20990v1
- Date: Sun, 22 Mar 2026 00:21:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-24 19:11:39.1849
- Title: ECI: Effective Contrastive Information to Evaluate Hard-Negatives
- Title(参考訳): ECI:ハードネグティティブ評価のための効果的なコントラスト情報
- Authors: Aarush Sinha, Rahul Seetharaman, Aman Bansal,
- Abstract要約: ECI: 効果的なコントラスト情報は、情報理論と情報検索の原則に基づくメトリクスである。
我々は,BM25,クロスエンコーダ,および大規模言語モデルを用いてマイニングまたは生成した強負集合のECIを評価する。
- 参考スコア(独自算出の注目度): 0.3674670871245149
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Hard negatives play a critical role in training and fine-tuning dense retrieval models, as they are semantically similar to positive documents yet non-relevant, and correctly distinguishing them is essential for improving retrieval accuracy. However, identifying effective hard negatives typically requires extensive ablation studies involving repeated fine-tuning with different negative sampling strategies and hyperparameters, resulting in substantial computational cost. In this paper, we introduce ECI: Effective Contrastive Information , a theoretically grounded metric grounded in Information Theory and Information Retrieval principles that enables practitioners to assess the quality of hard negatives prior to model fine-tuning. ECI evaluates negatives by optimizing the trade-off between Information Capacity the logarithmic bound on mutual information determined by set size and Discriminative Efficiency, a harmonic balance of Signal Magnitude (Hardness) and Safety (Max-Margin). Unlike heuristic approaches, ECI strictly penalizes unsafe, false-positive negatives prevalent in generative methods. We evaluate ECI across hard-negative sets mined or generated using BM25, cross-encoders, and large language models. Our results demonstrate that ECI accurately predicts downstream retrieval performance, identifying that hybrid strategies (BM25+Cross-Encoder) offer the optimal balance of volume and reliability, significantly reducing the need for costly end-to-end ablation studies.
- Abstract(参考訳): 強陰性は、正の文書と意味的に類似しているが非関連であるため、訓練や微調整の密集検索モデルにおいて重要な役割を担っている。
しかし、有効なハードネガティブを同定するには、通常、異なる負のサンプリング戦略とハイパーパラメータによる繰り返し微調整を含む広範囲なアブレーション研究が必要である。
本稿では,情報理論と情報検索の原理を基礎とした理論的な基準であるECI: Effective Contrastive Informationを紹介する。
ECIは、設定サイズと識別効率、信号マグニチュード(Hardness)と安全(Max-Margin)の調和バランスによって決定される相互情報に基づいて、情報容量と対数境界とのトレードオフを最適化することにより、負の評価を行う。
ヒューリスティックなアプローチとは異なり、ECIは生成法で一般的である安全でない偽陽性の否定を厳格に罰する。
我々は,BM25,クロスエンコーダ,および大規模言語モデルを用いてマイニングまたは生成した強負集合のECIを評価する。
以上の結果から, ECI が下流検索性能を正確に予測し, ハイブリッド戦略 (BM25+Cross-Encoder) がボリュームと信頼性のバランスを最適に保ち, エンドツーエンドのアブレーション研究の必要性を著しく低減することを示した。
関連論文リスト
- Quantifying Adversarial Uncertainty in Evidential Deep Learning using Conflict Resolution [2.321323878201932]
C-EDL (Conflict-aware Evidential Deep Learning) は、ポストホック後の不確実性定量化手法である。
C-EDLは入力毎に多様なタスク保存変換を生成し、不一致を定量化して不確実性推定を校正する。
実験により,C-EDLは最先端のEDLと競争ベースラインを著しく上回ることがわかった。
論文 参考訳(メタデータ) (2025-06-06T10:06:23Z) - Dissecting Long-Chain-of-Thought Reasoning Models: An Empirical Study [91.78803511141975]
この研究は、強化学習のスケーリングにおける正と負のサンプルの役割に焦点を当てている。
グループ相対的政策最適化において、サンプルの半数以上がゼロの優位性を持つような実質的なデータ非効率性を同定する。
本研究では,様々な推論モデルとベンチマークの不安定な性能について検討し,不明瞭な結果を伴う不確実な問題に対する不安定性について考察した。
論文 参考訳(メタデータ) (2025-06-05T11:47:10Z) - The role of data partitioning on the performance of EEG-based deep learning models in supervised cross-subject analysis: a preliminary study [37.69303106863453]
ディープラーニングは、非常に非線形なパターンを効果的に発見することによって、脳波(EEG)データの解析を進めています。
ドメイン内に適切なデータパーティショニングとクロスバリデーションのための包括的なガイドラインは存在しない。
本稿では,脳波深層学習モデルの評価におけるデータ分割とクロスバリデーションの役割について,徹底的に検討する。
論文 参考訳(メタデータ) (2025-05-19T12:05:28Z) - How Contaminated Is Your Benchmark? Quantifying Dataset Leakage in Large Language Models with Kernel Divergence [23.019102917957152]
Kernel Divergence Score (KDS) は、サンプル埋め込みのカーネル類似性行列間のばらつきを計算することによって、データセット汚染を評価する新しい手法である。
KDSは汚染レベルとほぼ完璧な相関を示し、既存のベースラインを上回っている。
論文 参考訳(メタデータ) (2025-02-02T05:50:39Z) - Dynamic Perturbation-Adaptive Adversarial Training on Medical Image
Classification [9.039586043401972]
敵の例(AE)は生データと知覚不可能な類似性を示し、ネットワークの堅牢性に対する深刻な懸念を提起した。
本稿では,ATを動的学習環境に配置し,適応型データレベルの摂動を生成する動的摂動適応対向訓練(DPAAT)手法を提案する。
HAM10000データセットの総合的な試験により、DPAATはより堅牢性の向上と一般化保存を達成できただけでなく、平均精度と解釈可能性を大幅に向上した。
論文 参考訳(メタデータ) (2024-03-11T15:16:20Z) - Noisy Correspondence Learning with Self-Reinforcing Errors Mitigation [63.180725016463974]
クロスモーダル検索は、実際は精力的な、十分に整合した大規模データセットに依存している。
我々は、新しい雑音対応学習フレームワーク、textbfSelf-textbfReinforcing textbfErrors textbfMitigation(SREM)を導入する。
論文 参考訳(メタデータ) (2023-12-27T09:03:43Z) - Doubly Robust Instance-Reweighted Adversarial Training [107.40683655362285]
本稿では,2重のインスタンス再重み付き対向フレームワークを提案する。
KL偏差正規化損失関数の最適化により重みを求める。
提案手法は, 平均ロバスト性能において, 最先端のベースライン法よりも優れた性能を示す。
論文 参考訳(メタデータ) (2023-08-01T06:16:18Z) - Uncertainty Estimation by Fisher Information-based Evidential Deep
Learning [61.94125052118442]
不確実性推定は、ディープラーニングを実用アプリケーションで信頼できるものにする鍵となる要素である。
漁業情報に基づくエビデンシャルディープラーニング(mathcalI$-EDL)を提案する。
特に,各サンプルが有する証拠の情報量を測定するためにFisher Information Matrix (FIM)を導入し,目的的損失項を動的に重み付けし,不確実なクラスの表現学習に集中させる。
論文 参考訳(メタデータ) (2023-03-03T16:12:59Z) - Bootstrapping Your Own Positive Sample: Contrastive Learning With
Electronic Health Record Data [62.29031007761901]
本稿では,新しいコントラスト型正規化臨床分類モデルを提案する。
EHRデータに特化した2つのユニークなポジティブサンプリング戦略を紹介します。
私たちのフレームワークは、現実世界のCOVID-19 EHRデータの死亡リスクを予測するために、競争の激しい実験結果をもたらします。
論文 参考訳(メタデータ) (2021-04-07T06:02:04Z) - ELMV: an Ensemble-Learning Approach for Analyzing Electrical Health
Records with Significant Missing Values [4.9810955364960385]
本稿では,ELMV(Ensemble-Learning for Missing Value)フレームワークを提案する。
ELMVは、重要な特徴識別のための現実世界の医療データと、結果予測の欠落率の異なるシミュレーションデータのバッチで評価されている。
論文 参考訳(メタデータ) (2020-06-25T06:29:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。