論文の概要: Training Dense Retrievers with Multiple Positive Passages
- arxiv url: http://arxiv.org/abs/2602.12727v1
- Date: Fri, 13 Feb 2026 08:56:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-16 23:37:53.896655
- Title: Training Dense Retrievers with Multiple Positive Passages
- Title(参考訳): 多能性パッセージを用いたDense Retrieverの訓練
- Authors: Benben Wang, Minghao Tang, Hengran Zhang, Jiafeng Guo, Keping Bi,
- Abstract要約: 本稿では,検索学習における多値最適化の目的を体系的に検討する。
また,JointLH(JointLH),SumMargLH(Summed Marginal Likelihood),LSEPairwise(Log-Sum-Exp Pairwise)を含む代表的目標を統一した。
この結果から,LSEPairは,設定毎に優れた堅牢性と性能が得られることがわかった。
- 参考スコア(独自算出の注目度): 36.92346009805258
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Modern knowledge-intensive systems, such as retrieval-augmented generation (RAG), rely on effective retrievers to establish the performance ceiling for downstream modules. However, retriever training has been bottlenecked by sparse, single-positive annotations, which lead to false-negative noise and suboptimal supervision. While the advent of large language models (LLMs) makes it feasible to collect comprehensive multi-positive relevance labels at scale, the optimal strategy for incorporating these dense signals into training remains poorly understood. In this paper, we present a systematic study of multi-positive optimization objectives for retriever training. We unify representative objectives, including Joint Likelihood (JointLH), Summed Marginal Likelihood (SumMargLH), and Log-Sum-Exp Pairwise (LSEPair) loss, under a shared contrastive learning framework. Our theoretical analysis characterizes their distinct gradient behaviors, revealing how each allocates probability mass across positive document sets. Empirically, we conduct extensive evaluations on Natural Questions, MS MARCO, and the BEIR benchmark across two realistic regimes: homogeneous LLM-annotated data and heterogeneous mixtures of human and LLM labels. Our results show that LSEPair consistently achieves superior robustness and performance across settings, while JointLH and SumMargLH exhibit high sensitivity to the quality of positives. Furthermore, we find that the simple strategy of random sampling (Rand1LH) serves as a reliable baseline. By aligning theoretical insights with empirical findings, we provide practical design principles for leveraging dense, LLM-augmented supervision to enhance retriever effectiveness.
- Abstract(参考訳): 検索強化生成(RAG)のような現代の知識集約システムは、下流モジュールのパフォーマンス天井を確立するのに有効なレトリバーに依存している。
しかし、レトリバーのトレーニングは、偽陰性ノイズや準最適監督につながる、希少で単一陽性のアノテーションによってボトルネックにされている。
大規模言語モデル (LLMs) の出現により、大規模な多陽性関連ラベルの収集が可能になったが、これらの密接な信号をトレーニングに組み込むための最適な戦略は、まだ理解されていない。
本稿では,検索学習における多値最適化の目的を体系的に検討する。
比較学習の枠組みとして,JointLH(JointLH),SumMargLH(Summed Marginal Likelihood),LSEPairwise(Log-Sum-Exp Pairwise)といった代表的目標を統一する。
我々の理論解析では, それぞれが正の文書集合にまたがる確率質量をどのように割り当てるかを明らかにすることによって, それぞれの異なる勾配挙動を特徴づける。
実験により,同種LSM注釈データとヒトおよびLSMラベルの異種混合物の2つの現実的状況において,Natural Questions,MS MARCO,BEIRベンチマークを広範囲に評価した。
LSEPair は, コンジョイントLH と SumMargLH は高い感度を呈し, 良好なロバスト性, 性能が得られた。
さらに,ランダムサンプリング(Rand1LH)の簡単な戦略が,信頼性の高いベースラインとして機能することを発見した。
理論的知見と経験的知見とを整合させることにより,高密度LLM強化監視を応用し,レトリバーの有効性を高めるための実用的な設計原則を提供する。
関連論文リスト
- Data-Centric Interpretability for LLM-based Multi-Agent Reinforcement Learning [39.84288631342219]
フルストレス外交の高度環境から大規模強化学習訓練を実施する。
本稿では,SAE特徴をトレーニング力学に関する解釈可能な仮説にグループ化するメタオートインタプリタを紹介する。
私たちは、主観的に興味深く、一見有用なSAE機能でさえ、人間にとって役に立たないよりも悪いかもしれないことに気付きました。
論文 参考訳(メタデータ) (2026-02-05T01:21:22Z) - Discovering Process-Outcome Credit in Multi-Step LLM Reasoning [3.584086358722852]
強化学習(RL)は、大規模言語モデル(LLM)における推論能力を高めるための強力なパラダイムとして機能する。
本稿では,連続的な報酬信号を提供するための新しいフレームワークを提案する。
本モデルでは, 予測できない, 難解な推論タスクに対して, ゼロショット転送能力を実証し, より優れた配当性を示す。
論文 参考訳(メタデータ) (2026-02-01T05:44:09Z) - Omni-Thinker: Scaling Multi-Task RL in LLMs with Hybrid Reward and Task Scheduling [66.0871543682453]
我々はOmni-Thinkerについて紹介する。Omni-Thinkerは多種多様なタスクにわたって大きな言語モデルをスケールする統合強化学習フレームワークである。
我々のスケジューラは,BWTに基づいてタスクを順序付けし,マルチタスク性能を向上する。
論文 参考訳(メタデータ) (2025-07-20T01:50:16Z) - LTRR: Learning To Rank Retrievers for LLMs [53.285436927963865]
ルーティングベースのRAGシステムは、単一リトリバーベースのシステムよりも優れていることを示す。
パフォーマンス向上は、特にAnswer Correctness(AC)メトリックでトレーニングされたモデルで顕著である。
SIGIR 2025 LiveRAG チャレンジの一環として,提案システムを用いて提案手法の有効性を実証した。
論文 参考訳(メタデータ) (2025-06-16T17:53:18Z) - Direct Retrieval-augmented Optimization: Synergizing Knowledge Selection and Language Models [83.8639566087953]
本稿では,2つの主要コンポーネントのエンドツーエンドトレーニングを可能にするDROという,直接検索拡張最適化フレームワークを提案する。
DROは、 (i) 文書置換推定と (ii) 再重み付けされ、段階的に改善されたRAGコンポーネントの2つのフェーズの間で交代する。
理論解析により,DROは強化学習における政策段階的な手法に類似していることが明らかとなった。
論文 参考訳(メタデータ) (2025-05-05T23:54:53Z) - Fine-Grained Guidance for Retrievers: Leveraging LLMs' Feedback in Retrieval-Augmented Generation [20.420575358183687]
Retrieval-Augmented Generation (RAG)は、大規模言語モデル(LLM)に固有の幻覚を緩和する有効な方法であることが証明されている。
従来のアプローチでは、通常、RAGの最適化に欠けるセマンティックな類似性に基づいて、レトリバーをトレーニングする。
我々は,LLMの言語機能を活用して,より粒度の細かい情報中心の視点からサンプルを構築する新しいフレームワークFiGRetを提案する。
論文 参考訳(メタデータ) (2024-11-06T14:42:39Z) - Preference-Based Multi-Agent Reinforcement Learning: Data Coverage and Algorithmic Techniques [65.55451717632317]
PbMARL(Preference-based Multi-Agent Reinforcement Learning)について検討する。
一般ゲームにおける嗜好のみのオフラインデータセットからナッシュ平衡を同定する。
以上の結果から,PbMARLの多面的アプローチが示唆された。
論文 参考訳(メタデータ) (2024-09-01T13:14:41Z) - Uncertainty Aware Learning for Language Model Alignment [97.36361196793929]
異なるタスクシナリオのモデルアライメントを改善するために,不確実性認識学習(UAL)を提案する。
トレーニングのラベルの平滑化値を個々のサンプルの不確実性に応じて適応的に設定する。
広く使われているベンチマーク実験では、我々のUALは標準教師あり微調整よりも著しく優れています。
論文 参考訳(メタデータ) (2024-06-07T11:37:45Z) - Why So Pessimistic? Estimating Uncertainties for Offline RL through
Ensembles, and Why Their Independence Matters [35.17151863463472]
オフライン強化学習(RL)における悲観主義の根源として、Q$関数のアンサンブルをどのように活用できるかを、再検討する。
我々は、完全に独立したネットワークに基づいて、独立に計算されたターゲットと$Q$関数のアンサンブルを訓練する実用的なオフラインRLアルゴリズムMSGを提案する。
D4RL と RL Unplugged のオフライン RL ベンチマーク実験により,深いアンサンブルを持つMSG が高度に調整された最先端の手法を広いマージンで超えることを示した。
論文 参考訳(メタデータ) (2022-05-27T01:30:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。