論文の概要: Not All Preferences Are Created Equal: Stability-Aware and Gradient-Efficient Alignment for Reasoning Models
- arxiv url: http://arxiv.org/abs/2602.01207v1
- Date: Sun, 01 Feb 2026 12:56:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-03 19:28:33.661763
- Title: Not All Preferences Are Created Equal: Stability-Aware and Gradient-Efficient Alignment for Reasoning Models
- Title(参考訳): すべての選好が等しく作成されるわけではない:共振モデルに対する安定性認識とグラディエント・効率的なアライメント
- Authors: Hui Wu, Hengyi Cai, Jinman Zhao, Xinran Chen, Ziheng Li, Zhejun Zhao, Shuaiqiang Wang, Yuchen Li, Dawei Yin,
- Abstract要約: ポリシー更新の信号対雑音比を最大化することにより、アライメントの信頼性を高めるために設計された動的フレームワークを提案する。
SAGE(Stability-Aware Gradient Efficiency)は、モデル能力に基づいて候補プールをリフレッシュする粗いきめ細かいカリキュラムメカニズムを統合する。
複数の数学的推論ベンチマークの実験により、SAGEは収束を著しく加速し、静的ベースラインを上回っていることが示された。
- 参考スコア(独自算出の注目度): 52.48582333951919
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Preference-based alignment is pivotal for training large reasoning models; however, standard methods like Direct Preference Optimization (DPO) typically treat all preference pairs uniformly, overlooking the evolving utility of training instances. This static approach often leads to inefficient or unstable optimization, as it wastes computation on trivial pairs with negligible gradients and suffers from noise induced by samples near uncertain decision boundaries. Facing these challenges, we propose SAGE (Stability-Aware Gradient Efficiency), a dynamic framework designed to enhance alignment reliability by maximizing the Signal-to-Noise Ratio of policy updates. Concretely, SAGE integrates a coarse-grained curriculum mechanism that refreshes candidate pools based on model competence with a fine-grained, stability-aware scoring function that prioritizes informative, confident errors while filtering out unstable samples. Experiments on multiple mathematical reasoning benchmarks demonstrate that SAGE significantly accelerates convergence and outperforms static baselines, highlighting the critical role of policy-aware, stability-conscious data selection in reasoning alignment.
- Abstract(参考訳): しかし、DPO(Direct Preference Optimization)のような標準的な手法は、訓練インスタンスの進化する実用性を見越して、すべての選好ペアを均一に扱うのが一般的である。
この静的アプローチは、無視できる勾配を持つ自明なペアの計算を無駄にし、不確実な決定境界付近でサンプルによって誘導されるノイズに悩まされるため、しばしば非効率または不安定な最適化をもたらす。
これらの課題に直面したSAGE(Stability-Aware Gradient efficiency)は、ポリシー更新の信号対雑音比を最大化することにより、アライメントの信頼性を高めるために設計された動的フレームワークである。
具体的には、モデル能力に基づいて候補プールをリフレッシュする粗いカリキュラム機構と、不安定なサンプルをフィルタリングしながら、情報的かつ確実なエラーを優先する、きめ細かな安定性を考慮したスコアリング機能を統合する。
複数の数学的推論ベンチマークの実験により、SAGEは収束を著しく加速し、静的ベースラインを上回り、推論アライメントにおけるポリシー意識、安定性に配慮したデータ選択の重要な役割を強調している。
関連論文リスト
- A Step Back: Prefix Importance Ratio Stabilizes Policy Optimization [58.116300485427764]
強化学習のポストトレーニングは、大きな言語モデルにおける推論の振る舞いを引き出すことができる。
トークンレベルの補正は、オフポリシーネスの度合いが大きい場合、不安定なトレーニングダイナミクスにつながることが多い。
我々は,最小固定率 (MinPRO) を簡易かつ効果的に提案する。
論文 参考訳(メタデータ) (2026-01-30T08:47:19Z) - ADARL: Adaptive Low-Rank Structures for Robust Policy Learning under Uncertainty [28.291179179647795]
我々は、ロバスト性を改善する二段階最適化フレームワークであるtextbfAdaptive Rank Representation (AdaRL) を提案する。
下位レベルでは、AdaRLは、センチュロイドモデルの周りにあるワッサーシュタイン球からサンプリングされた力学を用いて、固定ランク制約の下でポリシー最適化を行う。
上層では、偏微分トレードオフのバランスをとるためにランクを適応的に調整し、ポリシーパラメータを低階多様体に投影する。
論文 参考訳(メタデータ) (2025-10-13T20:05:34Z) - Bi-level Meta-Policy Control for Dynamic Uncertainty Calibration in Evidential Deep Learning [11.953394478206581]
最適不確実性モデリングのためのKL分散係数とディリクレ事前強度を調整する動的メタ学習フレームワークであるMeta-Policy Controller (MPC)を提案する。
MPCはモデル予測の信頼性とキャリブレーションを大幅に向上させ、信頼性に基づくサンプル拒絶後の不確実性校正、予測精度、性能保持を改善する。
論文 参考訳(メタデータ) (2025-10-10T02:39:26Z) - Stabilizing Policy Gradients for Sample-Efficient Reinforcement Learning in LLM Reasoning [77.92320830700797]
強化学習は、大規模言語モデルの推論機能を実現する上で中心的な役割を果たしてきた。
本稿では,ポリシー更新時の曲率情報を追跡し,活用するトラクタブルな計算フレームワークを提案する。
アルゴリズムであるCurvature-Aware Policy Optimization (CAPO)は、不安定な更新に寄与するサンプルを特定し、それらをマスクアウトする。
論文 参考訳(メタデータ) (2025-10-01T12:29:32Z) - ACPO: Adaptive Curriculum Policy Optimization for Aligning Vision-Language Models in Complex Reasoning [17.928214942495412]
ACPOは、安定的で、準政治的な探索段階から、効率的で、非政治的な搾取段階へ、原則的な移行を編成する動的カリキュラムを採用している。
我々は、MathVista、LogicVista、MMMU-Proなど、挑戦的なマルチモーダル推論ベンチマークのスイートで広範な実験を行う。
その結果,ACPOはDAPOやPAPOなどの強いベースラインを一貫して上回り,最先端性能,収束の促進,訓練安定性の向上を実現している。
論文 参考訳(メタデータ) (2025-10-01T09:11:27Z) - ConfPO: Exploiting Policy Model Confidence for Critical Token Selection in Preference Optimization [48.50761200321113]
大型言語モデル(LLM)における嗜好学習手法ConfPOを紹介する。
補助モデルや計算を必要とせずに、トレーニングポリシの信頼性のみに基づいて、優先クリティカルトークンを特定し、最適化する。
AlpacaEval 2 や Arena-Hard などのアライメントベンチマークの実験結果は、ConfPO が一様DAA を一貫して上回っていることを示している。
論文 参考訳(メタデータ) (2025-06-10T11:54:22Z) - Efficient Safety Alignment of Large Language Models via Preference Re-ranking and Representation-based Reward Modeling [84.00480999255628]
大規模言語モデル(LLM)の安全性アライメントのための強化学習アルゴリズムは,分散シフトの課題に直面している。
現在のアプローチでは、ターゲットポリシーからのオンラインサンプリングを通じてこの問題に対処するのが一般的である。
モデル固有の安全判断能力を活用して報酬信号を抽出する新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2025-03-13T06:40:34Z) - Large Continual Instruction Assistant [59.585544987096974]
CIT(Continuous Instruction Tuning)は、大規模モデルにデータによる人間の意図データに従うよう指示するために用いられる。
既存の更新勾配は、CITプロセス中に前のデータセットのパフォーマンスを著しく損なうことになる。
本稿では,この課題に対処する汎用的な連続的命令チューニングフレームワークを提案する。
論文 参考訳(メタデータ) (2024-10-08T11:24:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。