論文の概要: Mind the Gap: Structure-Aware Consistency in Preference Learning
- arxiv url: http://arxiv.org/abs/2604.27733v1
- Date: Thu, 30 Apr 2026 11:24:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-01 16:31:54.064174
- Title: Mind the Gap: Structure-Aware Consistency in Preference Learning
- Title(参考訳): マインド・ザ・ギャップ(Mind the Gap) - 優先度学習における構造意識の整合性
- Authors: Mehryar Mohri, Yutao Zhong,
- Abstract要約: 嗜好学習は、大規模言語モデルと人間の意図との整合の基礎となっている。
ニューラルネットワークに典型的な等連続仮説集合に対して、標準代理は理論的に矛盾することを示す。
分離マージンの強制に依存する厳格な$H$一貫性境界を導出する。
我々はこれをStructure-Aware $H$-consistencyに拡張し、同義語とハードペアを扱うための応答間の意味的距離に基づいてマージンを適応する新しい目的(SA-DPO)を導入する。
- 参考スコア(独自算出の注目度): 42.67092904252001
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Preference learning has become the foundation of aligning Large Language Models (LLMs) with human intent. Popular methods, such as Direct Preference Optimization (DPO), minimize surrogate losses as proxies for the intractable pairwise ranking loss. However, we demonstrate that for the equicontinuous hypothesis sets typical of neural networks, these standard surrogates are theoretically inconsistent, yielding vacuous generalization guarantees. To resolve this, we formulate LLM alignment within a margin-shifted ranking framework. We derive rigorous $H$-consistency bounds that depend on enforcing a separation margin $γ$. Crucially, we extend this to Structure-Aware $H$-consistency, introducing a novel objective (SA-DPO) that adapts the margin based on the semantic distance between responses to handle synonyms and hard pairs. Finally, we analyze the trade-off between consistency and model limitations via the Margin-Capacity Profile, proving that heavy-tailed surrogates (such as the Polynomial Hinge family) offer superior consistency guarantees for capacity-bounded models compared to the standard logistic loss used in DPO.
- Abstract(参考訳): 優先度学習は、大規模言語モデル(LLM)と人間の意図との整合の基礎となっている。
直接選好最適化(DPO)のような一般的な手法では、サロゲート損失を、難解なペアワイズランキング損失のプロキシとして最小化する。
しかし、ニューラルネットワークの典型的な等連続仮説集合に対して、これらの標準代理は理論的に矛盾し、空の一般化を保証することを実証する。
これを解決するために、マージンシフトしたランキングフレームワーク内でLLMアライメントを定式化する。
厳密な$H$-一貫性境界を導出し、分離マージンを$γ$とする。
重要なことに、我々はこれをStructure-Aware $H$-consistencyに拡張し、同義語とハードペアを扱うための応答間の意味的距離に基づいてマージンを適応する新しい目的(SA-DPO)を導入する。
最後に、Margin-Capacity Profileを介して、一貫性とモデル制限の間のトレードオフを分析し、重い尾を持つサロゲート(例えばポリノミアルヒンジファミリー)がDPOで使用される標準的なロジスティック損失と比較してキャパシティバウンドモデルに対して優れた一貫性を保証することを証明した。
関連論文リスト
- Too Correct to Learn: Reinforcement Learning on Saturated Reasoning Data [55.84428098924793]
構造保存探索を行うためのパラメータ自由復号法である Constrained Uniform Top-K Smpling (CUTS) を提案する。
グループ内の利点分散を増幅するために、エクスプロイトと探索的なロールアウトを相乗化するためのトレーニングフレームワークであるMixed-CUTSに統合する。
特にMixed-CUTSは、AIME25ベンチマークのPass@1の精度を標準のGRPOよりも15.1%向上している。
論文 参考訳(メタデータ) (2026-04-20T16:43:28Z) - Fundamental Novel Consistency Theory: $H$-Consistency Bounds [19.493449206135296]
機械学習では、トレーニング中に最適化された損失関数は、タスクのパフォーマンスを定義するターゲット損失とは異なることが多い。
本稿では,サロゲート損失推定誤差に対する目標損失推定誤差について詳細に検討する。
私たちの分析では、$H$-一貫性境界が導かれ、これは仮説セットの$H$に対する説明が保証される。
論文 参考訳(メタデータ) (2025-12-28T11:02:20Z) - NDCG-Consistent Softmax Approximation with Accelerated Convergence [67.10365329542365]
本稿では,ランキングの指標と直接一致した新たな損失定式化を提案する。
提案したRG損失を高効率な Alternating Least Squares (ALS) 最適化手法と統合する。
実世界のデータセットに対する実証的な評価は、我々のアプローチが同等または上位のパフォーマンスを達成することを示す。
論文 参考訳(メタデータ) (2025-06-11T06:59:17Z) - Supervised Optimism Correction: Be Confident When LLMs Are Sure [91.7459076316849]
教師付き微調整とオフライン強化学習の間には,新たな理論的関係が確立されている。
広く使われているビームサーチ法は、許容できない過度な最適化に悩まされていることを示す。
本稿では,トークンレベル$Q$-value推定のための簡易かつ効果的な補助的損失を導入したSupervised Optimism Correctionを提案する。
論文 参考訳(メタデータ) (2025-04-10T07:50:03Z) - $i$REPO: $i$mplicit Reward Pairwise Difference based Empirical Preference Optimization [12.266207199002604]
大規模言語モデル(LLM)は、人間の期待から外れた出力を生成することがある。
経験的選好最適化に暗黙的逆差分回帰を利用する,$i$REPO という新しいフレームワークを提案する。
i$REPOは, ソフトラベル, 自己生成応答, 経験的AIアノテータのロジットを用いて, 効果的に自己アライメントを実現することを示す。
論文 参考訳(メタデータ) (2024-05-24T05:42:11Z) - Distributional Robustness and Regularization in Reinforcement Learning [62.23012916708608]
経験値関数の新しい正規化器を導入し、ワッサーシュタイン分布のロバストな値関数を下限とすることを示す。
強化学習における$textitexternalな不確実性に対処するための実用的なツールとして正規化を使用することを提案する。
論文 参考訳(メタデータ) (2020-03-05T19:56:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。