論文の概要: Orthogonalized Policy Optimization:Decoupling Sampling Geometry from Optimization Geometry in RLHF
- arxiv url: http://arxiv.org/abs/2601.12415v2
- Date: Wed, 21 Jan 2026 14:54:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-22 14:57:00.07729
- Title: Orthogonalized Policy Optimization:Decoupling Sampling Geometry from Optimization Geometry in RLHF
- Title(参考訳): オルソゴン化政策最適化:RLHFにおける最適化幾何からのサンプリング幾何の分離
- Authors: Wang Zixian,
- Abstract要約: 大規模言語モデルアライメントの目的はしばしば、PPO、DPO、IPO、およびそれらの変種といった、異なるアルゴリズムの集合として提示される。
この研究において、この多様性はより単純な基盤構造を曖昧にしていると論じる。
この絡み合いは、単にモデリングの利便性ではなく、体系的な不安定性の源であることを示す。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language model alignment objectives are often presented as a collection of distinct algorithms, such as PPO, DPO, IPO, and their variants, each motivated by different derivations. In this work, we argue that this diversity obscures a simpler underlying structure. At a fundamental level, alignment objectives involve two independent design choices: (i) how training signals are sampled and weighted, and (ii) how deviations from a reference policy are geometrically penalized. Existing methods typically entangle these choices through a single divergence, most commonly the Kullback-Leibler divergence. We show that this entanglement is not merely a modeling convenience but a source of systematic instability. When the same divergence simultaneously determines sample weighting and optimization curvature, adjusting one aspect, such as exploration strength, inevitably alters the other, such as gradient geometry. This coupling is particularly problematic in preference-based reinforcement learning, where advantage signals are unbounded and high-confidence regimes are common. We propose a simple but structural remedy by formulating alignment as an orthogonal mirror descent problem, in which sampling geometry enters only as a linear driving force, while optimization geometry is determined independently by a mirror map. This perspective leads to a new alignment objective called Orthogonalized Policy Optimization (OPO), obtained by choosing a Euclidean mirror map in likelihood ratio space. The resulting objective admits a closed-form solution, linear and non-saturating gradient dynamics, and a well-conditioned trust region, while remaining fully compatible with standard large language model training pipelines.
- Abstract(参考訳): 大規模言語モデルアライメントの目的はしばしば、PPO、DPO、IPO、およびそれらの変種などの異なるアルゴリズムの集合として示され、それぞれが異なる派生によって動機付けられている。
この研究において、この多様性はより単純な基盤構造を曖昧にしていると論じる。
基本的なレベルでは、アライメントの目的は2つの独立した設計選択を含む。
一 トレーニング信号のサンプリング及び重み付け方法、及び
(II)参照ポリシーからの逸脱が幾何的に罰せられるか。
既存の方法は通常、これらの選択を単一の発散(最も一般的にはクルバック・リーバー発散)を通じて絡み合わせる。
この絡み合いは、単にモデリングの利便性ではなく、体系的な不安定性の源であることを示す。
同じばらつきがサンプル重み付けと最適化曲率を同時に決定し、探索強度などの一つの側面を調整すると、勾配幾何学のような他の側面は必然的に変更される。
この結合は、有利な信号が非有界であり、高信頼の体制が一般的である優先に基づく強化学習において特に問題となる。
直交ミラー降下問題としてアライメントを定式化し, サンプリング幾何は線形駆動力としてのみ現れるが, 最適化幾何はミラーマップによって独立に決定される。
この観点は、ユークリッドミラーマップを比例空間で選択することで得られる、オルソゴン化政策最適化(OPO)と呼ばれる新たなアライメント目標へと導かれる。
結果として得られた目的は、クローズドフォームのソリューション、線形および非飽和勾配力学、および十分に条件付けられた信頼領域を認めながら、標準の大規模言語モデルのトレーニングパイプラインと完全互換を維持している。
関連論文リスト
- Parallel Diffusion Solver via Residual Dirichlet Policy Optimization [88.7827307535107]
拡散モデル(DM)は、最先端の生成性能を達成したが、シーケンシャルなデノナイジング特性のため、高いサンプリング遅延に悩まされている。
既存のソルバベースの加速度法では、低次元の予算で画像品質が著しく低下することが多い。
本研究では,各ステップに複数の勾配並列評価を組み込んだ新しいODE解法であるEnsemble Parallel Directionsolvr(EPD-EPr)を提案する。
論文 参考訳(メタデータ) (2025-12-28T05:48:55Z) - Neural Optimal Transport Meets Multivariate Conformal Prediction [58.43397908730771]
条件付きベクトル回帰(CVQR)のためのフレームワークを提案する。
CVQRは、ニューラルネットワークの最適輸送と量子化された最適化を組み合わせて、予測に適用する。
論文 参考訳(メタデータ) (2025-09-29T19:50:19Z) - Generalized Gradient Norm Clipping & Non-Euclidean $(L_0,L_1)$-Smoothness [51.302674884611335]
本研究は、急勾配と条件勾配のアプローチを組み合わせることでノルムクリッピングを一般化するハイブリッド非ユークリッド最適化手法を提案する。
本稿では、ディープラーニングのためのアルゴリズムのインスタンス化について論じ、画像分類と言語モデリングにおけるそれらの特性を実証する。
論文 参考訳(メタデータ) (2025-06-02T17:34:29Z) - Differentially Private Optimization with Sparse Gradients [60.853074897282625]
微分プライベート(DP)最適化問題を個人勾配の空間性の下で検討する。
これに基づいて、スパース勾配の凸最適化にほぼ最適な速度で純粋および近似DPアルゴリズムを得る。
論文 参考訳(メタデータ) (2024-04-16T20:01:10Z) - Geometry-Aware Normalizing Wasserstein Flows for Optimal Causal
Inference [0.0]
本稿では,パラメトリックサブモデルと連続正規化フローを統合することにより,因果推論に対する画期的なアプローチを提案する。
我々は、最適輸送とワッサーシュタイン勾配流を利用して、有限サンプル設定における最小分散の因果推論手法を開発する。
予備実験では, 従来の流れに比べて平均二乗誤差が低い。
論文 参考訳(メタデータ) (2023-11-30T18:59:05Z) - Adaptive Zeroth-Order Optimisation of Nonconvex Composite Objectives [1.7640556247739623]
ゼロ階エントロピー合成目的のためのアルゴリズムを解析し,次元依存性に着目した。
これは、ミラー降下法と推定類似関数を用いて、決定セットの低次元構造を利用して達成される。
勾配を改善するため、Rademacherに基づく古典的なサンプリング法を置き換え、ミニバッチ法が非ユークリ幾何学に対処することを示す。
論文 参考訳(メタデータ) (2022-08-09T07:36:25Z) - On the Convergence Rate of Projected Gradient Descent for a
Back-Projection based Objective [58.33065918353532]
我々は、最小二乗(LS)の代替として、バックプロジェクションに基づく忠実度項を考える。
LS項ではなくBP項を用いることで最適化アルゴリズムの繰り返しを少なくすることを示す。
論文 参考訳(メタデータ) (2020-05-03T00:58:23Z) - Geometry, Computation, and Optimality in Stochastic Optimization [24.154336772159745]
問題幾何学の計算および統計的結果とオンライン最適化について検討する。
制約集合と勾配幾何学に焦点をあてて、どの次法と適応次法が最適(minimax)であるかという問題族を特徴づける。
論文 参考訳(メタデータ) (2019-09-23T16:14:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。