論文の概要: From Noisy Traces to Stable Gradients: Bias-Variance Optimized Preference Optimization for Aligning Large Reasoning Models
- arxiv url: http://arxiv.org/abs/2510.05095v1
- Date: Mon, 06 Oct 2025 17:58:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-07 16:53:00.048275
- Title: From Noisy Traces to Stable Gradients: Bias-Variance Optimized Preference Optimization for Aligning Large Reasoning Models
- Title(参考訳): 雑音のトレースから安定な勾配へ:大規模共振モデルに対するバイアス分散最適化優先最適化
- Authors: Mingkang Zhu, Xi Chen, Bei Yu, Hengshuang Zhao, Jiaya Jia,
- Abstract要約: 大規模推論モデルは最終回答を生成する前に中間的推論トレースを生成する。
LRMと人間の好みの整合性は、モデルデプロイメントにとって重要な前提条件であり、まだ過小評価されていない。
共通の回避策は1つのサンプル軌道を最適化し、トレースサンプリングからかなり勾配のばらつきをもたらす。
- 参考スコア(独自算出の注目度): 90.45197506653341
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large reasoning models (LRMs) generate intermediate reasoning traces before producing final answers, yielding strong gains on multi-step and mathematical tasks. Yet aligning LRMs with human preferences, a crucial prerequisite for model deployment, remains underexplored. The statistically correct objective for preference alignment requires marginalizing over reasoning traces, but this computation is intractable in practice. A common workaround optimizes a single sampled trajectory, which introduces substantial gradient variance from stochastic trace sampling. To address this challenge, we frame preference optimization for LRMs through the lens of the bias--variance trade-off and propose Bias--Variance Optimized Preference Optimization (BVPO), a simple, drop-in method that mixes two gradient estimators: a high-variance trace-based estimator and a low-variance empty-trace estimator obtained by disabling reasoning trace generation. Our theory shows that BVPO strictly reduces trace-induced variance for any nontrivial mixture, provides a closed-form choice of the mixing weight that minimizes mean-squared error relative to the true marginal gradient, and under standard smoothness and step-size conditions, tightens classical convergence bounds for stochastic gradient descent. Empirically, BVPO improves alignment over the best baseline by up to 7.8 points on AlpacaEval~2 and 6.8 points on Arena-Hard. Despite being trained only on general conversational data, BVPO also boosts reasoning performance for base models by up to 4.0 points on the average of six math reasoning benchmarks. These results identify variance from trace sampling as a key bottleneck and demonstrate that directly optimizing the bias--variance trade-off yields more stable training and stronger overall performance.
- Abstract(参考訳): 大規模推論モデル(LRMs)は、最終回答を生成する前に中間的推論トレースを生成し、多段階および数学的タスクに対して強い利得をもたらす。
しかし、モデル展開において重要な前提条件である人間の嗜好とLRMの整合性は未解明のままである。
選好アライメントの統計的に正しい目的は、推論トレースよりも限界化を必要とするが、実際にはこの計算は難解である。
共通の回避策は1つのサンプル軌道を最適化し、確率的トレースサンプリングからかなり勾配のばらつきをもたらす。
この課題に対処するため, バイアス分散トレードオフのレンズを用いてLEMの選好最適化を行い, 高分散トレースベース推定器と低分散空トレース推定器の2つの勾配推定器を混合したシンプルなドロップイン手法であるバイアス分散最適化最適化(BVPO)を提案する。
我々の理論は、BVPOが任意の非自明な混合に対するトレース誘起分散を厳密に低減し、真の辺勾配に対する平均二乗誤差を最小化する混合重みの閉形式選択を提供し、標準の滑らかさとステップサイズ条件の下では、確率勾配勾配に対する古典収束境界を締め付けることを示している。
経験的に、BVPOはアルパカ・エバルで7.8ポイント、アリーナ・ハードで6.8ポイントのアライメントを改善する。
BVPOは一般的な会話データのみに基づいて訓練されているにもかかわらず、基礎モデルの推論性能を6つの数学推論ベンチマークの平均で最大4.0ポイント向上させる。
これらの結果は, トレースサンプリングからの分散を重要なボトルネックとして認識し, バイアス分散トレードオフを直接最適化することで, より安定したトレーニングと全体的な性能が向上することを示した。
関連論文リスト
- Unbiased Dynamic Pruning for Efficient Group-Based Policy Optimization [60.87651283510059]
Group Relative Policy Optimization (GRPO) はLLM推論を効果的にスケールするが、計算コストは禁じている。
本研究では,非バイアス勾配推定を保ちながら動的プルーニングを可能にする動的プルーニングポリシー最適化(DPPO)を提案する。
刈り込みによって引き起こされるデータの空間性を軽減するため,ウィンドウベースの欲求戦略であるDense Prompt Packingを導入する。
論文 参考訳(メタデータ) (2026-03-04T14:48:53Z) - AMaPO: Adaptive Margin-attached Preference Optimization for Language Model Alignment [25.526336903358757]
オフライン優先最適化は、言語モデルを調整するためのRLHFのよりシンプルでより安定した代替手段を提供する。
本稿では,単純なアルゴリズムであるAdaptive Margin-attached Preference Optimization (AMaPO)を提案する。
AMaPOは、Z正規化と指数的スケーリングによって洗練され、不正なサンプルの勾配を増幅し、それらを正しいものに抑えることによって、学習の取り組みを動的に再配置する。
論文 参考訳(メタデータ) (2025-11-12T14:51:59Z) - Reliable Optimization Under Noise in Quantum Variational Algorithms [0.05219568203653522]
有限ショットサンプリングノイズにより,変分量子固有解法が困難であることを示す。
適応的メタヒューリスティックスは最も効果的でレジリエントな戦略である。
論文 参考訳(メタデータ) (2025-11-11T14:21:43Z) - On the Optimal Construction of Unbiased Gradient Estimators for Zeroth-Order Optimization [57.179679246370114]
既存の手法の潜在的な制限は、ステップサイズが提案されない限り、ほとんどの摂動推定器に固有のバイアスである。
本稿では, 良好な構成を維持しつつ, バイアスを排除した非バイアス勾配スケーリング推定器のファミリーを提案する。
論文 参考訳(メタデータ) (2025-10-22T18:25:43Z) - Margin Adaptive DPO: Leveraging Reward Model for Granular Control in Preference Optimization [0.0]
Margin-Adaptive Direct Preference Optimizationは、安定的で、データ保存、インスタンスレベルのソリューションを提供する。
我々は、MADPOが優れた最適化環境を持っていることを証明し、包括的な理論的解析を行う。
ハイクオリティデータでは+33.3%、低クオリティデータでは+10.5%というパフォーマンス向上を実現している。
論文 参考訳(メタデータ) (2025-10-06T20:09:37Z) - Gradient Extrapolation for Debiased Representation Learning [7.183424522250937]
GERNE(Gradient Extrapolation for Debiased Representation Learning)は、未知の属性トレーニングケースと未知の属性トレーニングケースの両方において、バイアス付き表現を学習するように設計されている。
解析の結果,外挿した勾配がバッチ勾配に向けられた場合,緩やかな相関が小さくなると,脱バイアスモデルを学ぶためのトレーニングを効果的に導くことが示唆された。
論文 参考訳(メタデータ) (2025-03-17T14:48:57Z) - Multi-Preference Optimization: Generalizing DPO via Set-Level Contrasts [17.243429150450886]
応答集合全体の最適化のために,$textbfMulti-Preference Optimization (MPO)を提案する。
MPOは偏差に基づく重み付けを採用しており、平均的な報酬から最も逸脱する外れ値の応答を強調している。
理論的には、MPOはクエリ毎のレスポンス数に対して$mathcalOleft(frac1sqrtnright)$でアライメントバイアスを低減する。
論文 参考訳(メタデータ) (2024-12-05T21:50:22Z) - Uncertainty-Penalized Direct Preference Optimization [52.387088396044206]
我々は、優先不確実性ペナル化スキームを導入し、DPOの悲観的な枠組みを開発する。
ペナル化は、不確実なサンプルの損失勾配を減衰させる損失の補正として機能する。
我々は,バニラDPOと比較して全体的な性能が向上し,高い不確実性選択/拒絶反応によるプロンプトの完成度も向上した。
論文 参考訳(メタデータ) (2024-10-26T14:24:37Z) - Geometric-Averaged Preference Optimization for Soft Preference Labels [78.2746007085333]
LLMを人間の嗜好と整合させる多くのアルゴリズムは、人間の嗜好は二進的かつ決定論的であると仮定する。
本研究では,分散ソフトな選好ラベルを導入し,損失関数におけるLLM出力確率の重み付き幾何平均を用いて直接選好最適化(DPO)を改善する。
論文 参考訳(メタデータ) (2024-09-10T17:54:28Z) - Provably Mitigating Overoptimization in RLHF: Your SFT Loss is Implicitly an Adversarial Regularizer [52.09480867526656]
人間の嗜好を学習する際の分布変化と不確実性の一形態として,不一致の原因を同定する。
過度な最適化を緩和するために、まず、逆選択された報酬モデルに最適なポリシーを選択する理論アルゴリズムを提案する。
報奨モデルとそれに対応する最適ポリシーの等価性を用いて、優先最適化損失と教師付き学習損失を組み合わせた単純な目的を特徴とする。
論文 参考訳(メタデータ) (2024-05-26T05:38:50Z) - Reliable Categorical Variational Inference with Mixture of Discrete
Normalizing Flows [10.406659081400354]
変分近似は、サンプリングによって推定される予測の勾配に基づく最適化に基づいている。
カテゴリー分布のGumbel-Softmaxのような連続緩和は勾配に基づく最適化を可能にするが、離散的な観測のために有効な確率質量を定義しない。
実際には、緩和の量を選択することは困難であり、望ましいものと一致しない目的を最適化する必要がある。
論文 参考訳(メタデータ) (2020-06-28T10:39:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。