論文の概要: Orthogonalized Policy Optimization:Decoupling Sampling Geometry from Optimization Geometry in RLHF
- arxiv url: http://arxiv.org/abs/2601.12415v1
- Date: Sun, 18 Jan 2026 13:57:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-21 22:47:22.620435
- Title: Orthogonalized Policy Optimization:Decoupling Sampling Geometry from Optimization Geometry in RLHF
- Title(参考訳): オルソゴン化政策最適化:RLHFにおける最適化幾何からのサンプリング幾何の分離
- Authors: Wang Zixian,
- Abstract要約: 大規模言語モデルの最近のアライメント手法は、しばしば異なるアルゴリズムとして提示される。
多くのアプローチが2つの基本的および独立的な設計選択を暗黙的に説明していることを示す。
最適化幾何からサンプリング幾何を明示的に分離するフレームワークであるオルソゴン化政策最適化(OPO)を提案する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent alignment methods for large language models, including PPO, DPO, and IPO, are often presented as distinct algorithms. In this work, we show that many of these approaches implicitly conflate two fundamental and independent design choices: (i) the sampling geometry, which determines which samples dominate the gradient signal, and (ii) the optimization geometry, which determines how deviations in value are penalized. We formalize this observation by expressing alignment as the minimization of a generalized distance between policy energy and target energy, parameterized by an alpha-divergence-based sampling weight and a Bregman-divergence-based value metric. We demonstrate that the commonly used KL divergence induces an exponential penalty on unbounded value signals, leading to numerical instability and vanishing gradients in high-confidence regimes. To address this issue, we propose Orthogonalized Policy Optimization (OPO), a framework that explicitly decouples sampling geometry from optimization geometry. By combining alpha-weighted importance sampling with a chi-square-induced quadratic regularization in ratio coordinates, OPO yields a simple and well-conditioned objective with linear gradient dynamics. This formulation maintains stable optimization while preserving peak-seeking behavior and avoids gradient saturation even when model confidence is high. Our analysis positions OPO as a unifying perspective on existing alignment methods and provides a principled foundation for robust reasoning-oriented training.
- Abstract(参考訳): PPO、DPO、IPOを含む最近の大規模言語モデルのアライメント手法は、しばしば異なるアルゴリズムとして提示される。
本研究では,これらのアプローチの多くは,2つの基本的かつ独立した設計選択を暗黙的に説明している。
(i)どの試料が勾配信号を支配しているかを決定するサンプリング幾何学、及び
(2) 値の偏差がいかにペナルティ化されるかを決定する最適化幾何。
政策エネルギーと目標エネルギーの一般化距離の最小化としてアライメントを表現し、α偏差に基づくサンプリング重量とブレグマン偏差に基づく値メートル法でパラメータ化することにより、この観測を定式化する。
一般に使われているKL分散は、非有界な値信号に対して指数的なペナルティを誘導し、数値不安定性と高信頼状態における勾配を消失させることを示した。
この問題に対処するため,最適化幾何からサンプリング幾何を明示的に分離するフレームワークであるOrthogonalized Policy Optimization (OPO)を提案する。
比座標におけるα重み付き重み付けサンプリングと2次正則化を組み合わせることで、OPOは線形勾配力学による単純で良条件の目的を導出する。
この定式化は、ピーク探索動作を保ちながら安定した最適化を維持し、モデル信頼度が高い場合でも勾配飽和を回避する。
我々は,OPOを既存のアライメント手法の統一的視点として位置づけ,ロバスト推論指向トレーニングの原則的基盤を提供する。
関連論文リスト
- Parallel Diffusion Solver via Residual Dirichlet Policy Optimization [88.7827307535107]
拡散モデル(DM)は、最先端の生成性能を達成したが、シーケンシャルなデノナイジング特性のため、高いサンプリング遅延に悩まされている。
既存のソルバベースの加速度法では、低次元の予算で画像品質が著しく低下することが多い。
本研究では,各ステップに複数の勾配並列評価を組み込んだ新しいODE解法であるEnsemble Parallel Directionsolvr(EPD-EPr)を提案する。
論文 参考訳(メタデータ) (2025-12-28T05:48:55Z) - Neural Optimal Transport Meets Multivariate Conformal Prediction [58.43397908730771]
条件付きベクトル回帰(CVQR)のためのフレームワークを提案する。
CVQRは、ニューラルネットワークの最適輸送と量子化された最適化を組み合わせて、予測に適用する。
論文 参考訳(メタデータ) (2025-09-29T19:50:19Z) - Generalized Gradient Norm Clipping & Non-Euclidean $(L_0,L_1)$-Smoothness [51.302674884611335]
本研究は、急勾配と条件勾配のアプローチを組み合わせることでノルムクリッピングを一般化するハイブリッド非ユークリッド最適化手法を提案する。
本稿では、ディープラーニングのためのアルゴリズムのインスタンス化について論じ、画像分類と言語モデリングにおけるそれらの特性を実証する。
論文 参考訳(メタデータ) (2025-06-02T17:34:29Z) - Differentially Private Optimization with Sparse Gradients [60.853074897282625]
微分プライベート(DP)最適化問題を個人勾配の空間性の下で検討する。
これに基づいて、スパース勾配の凸最適化にほぼ最適な速度で純粋および近似DPアルゴリズムを得る。
論文 参考訳(メタデータ) (2024-04-16T20:01:10Z) - Geometry-Aware Normalizing Wasserstein Flows for Optimal Causal
Inference [0.0]
本稿では,パラメトリックサブモデルと連続正規化フローを統合することにより,因果推論に対する画期的なアプローチを提案する。
我々は、最適輸送とワッサーシュタイン勾配流を利用して、有限サンプル設定における最小分散の因果推論手法を開発する。
予備実験では, 従来の流れに比べて平均二乗誤差が低い。
論文 参考訳(メタデータ) (2023-11-30T18:59:05Z) - Adaptive Zeroth-Order Optimisation of Nonconvex Composite Objectives [1.7640556247739623]
ゼロ階エントロピー合成目的のためのアルゴリズムを解析し,次元依存性に着目した。
これは、ミラー降下法と推定類似関数を用いて、決定セットの低次元構造を利用して達成される。
勾配を改善するため、Rademacherに基づく古典的なサンプリング法を置き換え、ミニバッチ法が非ユークリ幾何学に対処することを示す。
論文 参考訳(メタデータ) (2022-08-09T07:36:25Z) - On the Convergence Rate of Projected Gradient Descent for a
Back-Projection based Objective [58.33065918353532]
我々は、最小二乗(LS)の代替として、バックプロジェクションに基づく忠実度項を考える。
LS項ではなくBP項を用いることで最適化アルゴリズムの繰り返しを少なくすることを示す。
論文 参考訳(メタデータ) (2020-05-03T00:58:23Z) - Geometry, Computation, and Optimality in Stochastic Optimization [24.154336772159745]
問題幾何学の計算および統計的結果とオンライン最適化について検討する。
制約集合と勾配幾何学に焦点をあてて、どの次法と適応次法が最適(minimax)であるかという問題族を特徴づける。
論文 参考訳(メタデータ) (2019-09-23T16:14:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。