論文の概要: Optimizing What Matters: AUC-Driven Learning for Robust Neural Retrieval
- arxiv url: http://arxiv.org/abs/2510.00137v1
- Date: Tue, 30 Sep 2025 18:14:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-03 16:59:20.188815
- Title: Optimizing What Matters: AUC-Driven Learning for Robust Neural Retrieval
- Title(参考訳): 重要なことの最適化:ロバストなニューラル検索のためのAUC駆動学習
- Authors: Nima Sheikholeslami, Erfan Hosseini, Patrice Bechard, Srivatsava Daruru, Sai Rajeswar,
- Abstract要約: ROC曲線(AUC)下の領域と数学的に等価なマン・ホイットニーU統計を最大化する新たなトレーニング目標を導入する。
MW損失はContrastive Lossよりも経験的に優れていることを示し、RAGのような高収率アプリケーションに対して、より良い校正とより差別的なレトリバーが得られることを示した。
- 参考スコア(独自算出の注目度): 4.846917163619174
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Dual-encoder retrievers depend on the principle that relevant documents should score higher than irrelevant ones for a given query. Yet the dominant Noise Contrastive Estimation (NCE) objective, which underpins Contrastive Loss, optimizes a softened ranking surrogate that we rigorously prove is fundamentally oblivious to score separation quality and unrelated to AUC. This mismatch leads to poor calibration and suboptimal performance in downstream tasks like retrieval-augmented generation (RAG). To address this fundamental limitation, we introduce the MW loss, a new training objective that maximizes the Mann-Whitney U statistic, which is mathematically equivalent to the Area under the ROC Curve (AUC). MW loss encourages each positive-negative pair to be correctly ranked by minimizing binary cross entropy over score differences. We provide theoretical guarantees that MW loss directly upper-bounds the AoC, better aligning optimization with retrieval goals. We further promote ROC curves and AUC as natural threshold free diagnostics for evaluating retriever calibration and ranking quality. Empirically, retrievers trained with MW loss consistently outperform contrastive counterparts in AUC and standard retrieval metrics. Our experiments show that MW loss is an empirically superior alternative to Contrastive Loss, yielding better-calibrated and more discriminative retrievers for high-stakes applications like RAG.
- Abstract(参考訳): デュアルエンコーダレトリバーは、関連するドキュメントが、あるクエリに対して無関係なドキュメントよりも高いスコアを持つべきだという原則に依存している。
しかし、ノイズコントラスト推定(NCE)の目的は、コントラスト損失の根底にあるもので、私たちが厳格に証明しているソフト化ランキングサロゲートを最適化することで、分離品質のスコア付けが不可能であり、AUCとは無関係である。
このミスマッチは、検索強化生成(RAG)のような下流タスクにおいて、キャリブレーションの低下と最適以下のパフォーマンスをもたらす。
この基本的限界に対処するため,マン・ホイットニーU統計を最大化する新たな訓練目標であるMW損失を導入する。
MW損失は、各正負対をスコア差よりも二項交叉エントロピーを最小化することで正しくランク付けすることを奨励する。
我々は,MW損失がAoCを上界に直結させることを理論的に保証し,最適化と検索目標との整合性を向上する。
さらに,レトリバーの校正とランキング品質を評価するために,自然しきい値のない診断法としてROC曲線とAUCを推し進める。
実験的に、MW損失の訓練を受けたレトリバーは、AUCおよび標準検索指標において、コントラストに優れていた。
実験の結果, MW損失はContrastive Lossよりも経験的に優れており, RAGのような高収率アプリケーションに対して, より校正され, より差別的なレトリバーが得られることがわかった。
関連論文リスト
- Benefits of Online Tilted Empirical Risk Minimization: A Case Study of Outlier Detection and Robust Regression [7.238889207632064]
経験的リスク最小化(Empirical Risk Minimization、ERM)は、教師付き学習の基礎となるフレームワークである。
データが一度に1つのサンプルに到達するオンラインまたはストリーミング設定では、古典的なTERMは標準ERMに縮退する。
本稿では,従来の目的から対数を取り除き,新たな計算やメモリオーバーヘッドを伴わずに傾き効果を保存するオンラインTERMを提案する。
論文 参考訳(メタデータ) (2025-09-18T16:51:23Z) - Towards Competitive Search Relevance For Inference-Free Learned Sparse Retrievers [7.976154147999298]
推測のないスパースモデルは 検索の関連という点で はるかに遅れています スパースモデルと密集したサイムズモデルの両方と比較して
性能改善のための2つのアプローチを提案する。
まず,IDFトークンの寄与を抑えるマッチング関数に対するIDF対応ペナルティを提案する。
第2に,シロイヌナズナと疎水性レトリーバーを組み合わせたヘテロジニアスアンサンブル知識蒸留フレームワークを提案する。
論文 参考訳(メタデータ) (2024-11-07T03:46:43Z) - Lower-Left Partial AUC: An Effective and Efficient Optimization Metric
for Recommendation [52.45394284415614]
我々は,AUCのように計算効率が良く,Top-Kランキングの指標と強く相関する新しい最適化指標であるLLPAUCを提案する。
LLPAUCはローワーレフト角のROC曲線の下の部分領域のみを考慮し、最適化はトップKに焦点をあてる。
論文 参考訳(メタデータ) (2024-02-29T13:58:33Z) - Robust Long-Tailed Learning via Label-Aware Bounded CVaR [36.26100472960534]
そこで本研究では,長期学習の性能向上のための2つの新しい手法を提案する。
具体的には,従来のCVaRの悲観的な結果を克服するために,ラベル認識境界CVaRの損失を導入する。
また,最適化プロセスの安定化を図るため,ロジット調整付きLAB-CVaRを提案する。
論文 参考訳(メタデータ) (2023-08-29T16:07:18Z) - Fine-grained Correlation Loss for Regression [20.175415393263037]
本稿では, 従来の回帰課題を再考し, 微粒化相関損失を直接最適化する手法を提案する。
本手法は,画像品質評価とバイオメトリック計測を含む2つの典型的な超音波画像回帰タスクに対して広範囲に検証する。
論文 参考訳(メタデータ) (2022-07-01T11:25:50Z) - Optimizing Two-way Partial AUC with an End-to-end Framework [154.47590401735323]
ROC曲線のエリア(AUC)は、機械学習にとって重要な指標である。
最近の研究は、TPAUCが既存のPartial AUCメトリクスと本質的に矛盾していることを示している。
本論文では,この新指標を最適化するための最初の試行について述べる。
論文 参考訳(メタデータ) (2022-06-23T12:21:30Z) - False Correlation Reduction for Offline Reinforcement Learning [115.11954432080749]
本稿では,実効的かつ理論的に証明可能なアルゴリズムであるオフラインRLに対するfalSe Correlation Reduction (SCORE)を提案する。
SCOREは、標準ベンチマーク(D4RL)において、様々なタスクにおいて3.1倍の高速化でSoTA性能を達成することを実証的に示す。
論文 参考訳(メタデータ) (2021-10-24T15:34:03Z) - Learning with Multiclass AUC: Theory and Algorithms [141.63211412386283]
ROC曲線 (AUC) の下の領域は、不均衡学習やレコメンダシステムといった問題に対するよく知られたランキング基準である。
本稿では,マルチクラスAUCメトリクスを最適化することで,多クラススコアリング関数を学習する問題について検討する。
論文 参考訳(メタデータ) (2021-07-28T05:18:10Z) - Risk Minimization from Adaptively Collected Data: Guarantees for
Supervised and Policy Learning [57.88785630755165]
経験的リスク最小化(Empirical Risk Minimization, ERM)は、機械学習のワークホースであるが、適応的に収集されたデータを使用すると、そのモデルに依存しない保証が失敗する可能性がある。
本研究では,仮説クラス上での損失関数の平均値を最小限に抑えるため,適応的に収集したデータを用いた一般的な重み付きERMアルゴリズムについて検討する。
政策学習では、探索がゼロになるたびに既存の文献のオープンギャップを埋める率-最適後悔保証を提供する。
論文 参考訳(メタデータ) (2021-06-03T09:50:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。