論文の概要: Orthogonalized Policy Optimization:Decoupling Sampling Geometry from Optimization Geometry in RLHF
- arxiv url: http://arxiv.org/abs/2601.12415v1
- Date: Sun, 18 Jan 2026 13:57:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-21 22:47:22.620435
- Title: Orthogonalized Policy Optimization:Decoupling Sampling Geometry from Optimization Geometry in RLHF
- Title(参考訳): オルソゴン化政策最適化:RLHFにおける最適化幾何からのサンプリング幾何の分離
- Authors: Wang Zixian,
- Abstract要約: 大規模言語モデルの最近のアライメント手法は、しばしば異なるアルゴリズムとして提示される。
多くのアプローチが2つの基本的および独立的な設計選択を暗黙的に説明していることを示す。
最適化幾何からサンプリング幾何を明示的に分離するフレームワークであるオルソゴン化政策最適化(OPO)を提案する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent alignment methods for large language models, including PPO, DPO, and IPO, are often presented as distinct algorithms. In this work, we show that many of these approaches implicitly conflate two fundamental and independent design choices: (i) the sampling geometry, which determines which samples dominate the gradient signal, and (ii) the optimization geometry, which determines how deviations in value are penalized. We formalize this observation by expressing alignment as the minimization of a generalized distance between policy energy and target energy, parameterized by an alpha-divergence-based sampling weight and a Bregman-divergence-based value metric. We demonstrate that the commonly used KL divergence induces an exponential penalty on unbounded value signals, leading to numerical instability and vanishing gradients in high-confidence regimes. To address this issue, we propose Orthogonalized Policy Optimization (OPO), a framework that explicitly decouples sampling geometry from optimization geometry. By combining alpha-weighted importance sampling with a chi-square-induced quadratic regularization in ratio coordinates, OPO yields a simple and well-conditioned objective with linear gradient dynamics. This formulation maintains stable optimization while preserving peak-seeking behavior and avoids gradient saturation even when model confidence is high. Our analysis positions OPO as a unifying perspective on existing alignment methods and provides a principled foundation for robust reasoning-oriented training.
- Abstract(参考訳): PPO、DPO、IPOを含む最近の大規模言語モデルのアライメント手法は、しばしば異なるアルゴリズムとして提示される。
本研究では,これらのアプローチの多くは,2つの基本的かつ独立した設計選択を暗黙的に説明している。
(i)どの試料が勾配信号を支配しているかを決定するサンプリング幾何学、及び
(2) 値の偏差がいかにペナルティ化されるかを決定する最適化幾何。
政策エネルギーと目標エネルギーの一般化距離の最小化としてアライメントを表現し、α偏差に基づくサンプリング重量とブレグマン偏差に基づく値メートル法でパラメータ化することにより、この観測を定式化する。
一般に使われているKL分散は、非有界な値信号に対して指数的なペナルティを誘導し、数値不安定性と高信頼状態における勾配を消失させることを示した。
この問題に対処するため,最適化幾何からサンプリング幾何を明示的に分離するフレームワークであるOrthogonalized Policy Optimization (OPO)を提案する。
比座標におけるα重み付き重み付けサンプリングと2次正則化を組み合わせることで、OPOは線形勾配力学による単純で良条件の目的を導出する。
この定式化は、ピーク探索動作を保ちながら安定した最適化を維持し、モデル信頼度が高い場合でも勾配飽和を回避する。
我々は,OPOを既存のアライメント手法の統一的視点として位置づけ,ロバスト推論指向トレーニングの原則的基盤を提供する。
関連論文リスト
- Why Deep Jacobian Spectra Separate: Depth-Induced Scaling and Singular-Vector Alignment [10.515277266852838]
本研究では, 深層ジャコビアンの研究において, 順序特異値の指数的スケーリングと強いスペクトル分離が可能であることを示す。
さらに、行列積における特異ベクトルアライメントが十分に強い分離力を持つことを示し、中間ヤコビアンに対してほぼ共有の特異基底を与える。
固定ゲート設定の実験は、予測スケーリング、アライメント、そして結果のダイナミクスを検証する。
論文 参考訳(メタデータ) (2026-02-12T20:27:59Z) - ARGUS: Adaptive Rotation-Invariant Geometric Unsupervised System [0.0]
本稿では,データ多様体の固定空間分割上での局所統計追跡としてドリフト検出を再現するフレームワークであるArgusを紹介する。
正準正則フレーム上のボロノイテッセルレーションは変換に不変なドリフト計量をもたらす。
孤立摂動からコヒーレントな分布シフトを区別するドリフト伝播のグラフ理論的特徴付けを開発した。
論文 参考訳(メタデータ) (2026-01-03T22:39:20Z) - Parallel Diffusion Solver via Residual Dirichlet Policy Optimization [88.7827307535107]
拡散モデル(DM)は、最先端の生成性能を達成したが、シーケンシャルなデノナイジング特性のため、高いサンプリング遅延に悩まされている。
既存のソルバベースの加速度法では、低次元の予算で画像品質が著しく低下することが多い。
本研究では,各ステップに複数の勾配並列評価を組み込んだ新しいODE解法であるEnsemble Parallel Directionsolvr(EPD-EPr)を提案する。
論文 参考訳(メタデータ) (2025-12-28T05:48:55Z) - Learning Geometry: A Framework for Building Adaptive Manifold Models through Metric Optimization [8.201374511929538]
本稿では,従来のパラメータ最適化を超越した機械学習のパラダイムを提案する。
既定位相を持つ多様体上の計量テンソル場を最適化することにより、モデル空間の幾何学的構造を動的に形成する。
この研究は、その幾何学とトポロジーを自律的に進化させることができる完全にダイナミックな「メタ・ラーナー」を構築するための確固たる基礎を築いた。
論文 参考訳(メタデータ) (2025-10-30T01:53:32Z) - Preconditioned Norms: A Unified Framework for Steepest Descent, Quasi-Newton and Adaptive Methods [50.070182958880146]
本稿では,事前条件付き行列ノルムの新たな概念を通じて,降下法,準ニュートン法,適応法を一般化する統一的枠組みを提案する。
この枠組みでは、行列パラメータ化設定におけるアフィンとスケール不変性の最初の体系的処理を提供する。
我々は、Muonのスペクトル幾何学とAdamスタイルのプレコンディショニングを組み合わせた、$ttMuAdam$と$texttMuAdam-SANIA$という2つの新しい方法を紹介した。
論文 参考訳(メタデータ) (2025-10-12T19:39:41Z) - Non-Euclidean Broximal Point Method: A Blueprint for Geometry-Aware Optimization [55.002497070656624]
Broximal Point Method(BPM)は、現在の反復を中心にした標準球よりも目的関数を反復的に最小化する、理想的な最適化フレームワークを提供する。
顕著な大域収束保証、線形収束、および正規閉凸函数に対する有限のステップを享受する。
本稿では、BPMの収束理論が、このより一般的な非ユークリッド的な設定に拡張できるかどうかを問う。
論文 参考訳(メタデータ) (2025-10-01T12:32:52Z) - Neural Optimal Transport Meets Multivariate Conformal Prediction [58.43397908730771]
条件付きベクトル回帰(CVQR)のためのフレームワークを提案する。
CVQRは、ニューラルネットワークの最適輸送と量子化された最適化を組み合わせて、予測に適用する。
論文 参考訳(メタデータ) (2025-09-29T19:50:19Z) - Enforcing Latent Euclidean Geometry in Single-Cell VAEs for Manifold Interpolation [79.27003481818413]
離散的様相変分オートエンコーダの潜在多様体をユークリッド幾何学へ正規化する訓練フレームワークであるFlatVIを紹介する。
遅延空間の直線を復号化された単セル多様体上の測地線に近似させることで、FlatVIは下流アプローチとの整合性を高める。
論文 参考訳(メタデータ) (2025-07-15T23:08:14Z) - Generalized Linear Mode Connectivity for Transformers [87.32299363530996]
驚くべき現象はリニアモード接続(LMC)であり、独立に訓練されたモデルを低損失またはゼロ損失の経路で接続することができる。
以前の研究は主に置換によるニューロンの並べ替えに焦点を合わせてきたが、そのようなアプローチは範囲に限られている。
我々は、4つの対称性クラス(置換、半置換、変換、一般可逆写像)をキャプチャする統一的なフレームワークを導入する。
この一般化により、独立に訓練された視覚変換器とGPT-2モデルの間の低障壁とゼロバリア線形経路の発見が可能となった。
論文 参考訳(メタデータ) (2025-06-28T01:46:36Z) - Generalized Gradient Norm Clipping & Non-Euclidean $(L_0,L_1)$-Smoothness [51.302674884611335]
本研究は、急勾配と条件勾配のアプローチを組み合わせることでノルムクリッピングを一般化するハイブリッド非ユークリッド最適化手法を提案する。
本稿では、ディープラーニングのためのアルゴリズムのインスタンス化について論じ、画像分類と言語モデリングにおけるそれらの特性を実証する。
論文 参考訳(メタデータ) (2025-06-02T17:34:29Z) - Generalization Bounds of Surrogate Policies for Combinatorial Optimization Problems [53.03951222945921]
我々はスムーズな(摂動された)ポリシーを解析し、線形オラクルが使用する方向に対して制御されたランダムな摂動を付加する。
我々の主な貢献は、過剰リスクを摂動バイアス、統計的推定誤差、最適化誤差に分解する一般化境界である。
車両のスケジューリングやスムーズ化がトラクタブルトレーニングと制御された一般化の両方を可能にしていることを示す。
論文 参考訳(メタデータ) (2024-07-24T12:00:30Z) - Differentially Private Optimization with Sparse Gradients [60.853074897282625]
微分プライベート(DP)最適化問題を個人勾配の空間性の下で検討する。
これに基づいて、スパース勾配の凸最適化にほぼ最適な速度で純粋および近似DPアルゴリズムを得る。
論文 参考訳(メタデータ) (2024-04-16T20:01:10Z) - Geometry-Aware Normalizing Wasserstein Flows for Optimal Causal
Inference [0.0]
本稿では,パラメトリックサブモデルと連続正規化フローを統合することにより,因果推論に対する画期的なアプローチを提案する。
我々は、最適輸送とワッサーシュタイン勾配流を利用して、有限サンプル設定における最小分散の因果推論手法を開発する。
予備実験では, 従来の流れに比べて平均二乗誤差が低い。
論文 参考訳(メタデータ) (2023-11-30T18:59:05Z) - Adaptive Zeroth-Order Optimisation of Nonconvex Composite Objectives [1.7640556247739623]
ゼロ階エントロピー合成目的のためのアルゴリズムを解析し,次元依存性に着目した。
これは、ミラー降下法と推定類似関数を用いて、決定セットの低次元構造を利用して達成される。
勾配を改善するため、Rademacherに基づく古典的なサンプリング法を置き換え、ミニバッチ法が非ユークリ幾何学に対処することを示す。
論文 参考訳(メタデータ) (2022-08-09T07:36:25Z) - Parametric Generative Schemes with Geometric Constraints for Encoding
and Synthesizing Airfoils [25.546237636065182]
特定の制約を満たしつつ,設計空間の複雑さを捉えるために,ディープラーニングに基づく2つの生成スキームを提案する。
ソフト制約スキームは、予想される幾何学的制約からわずかにずれた翼を生成するが、それでも基準翼に収束する。
制約の厳しいスキームは、幾何学的制約に厳密に固執しつつ、より広い範囲の幾何学的多様性を持つ翼を生産する。
論文 参考訳(メタデータ) (2022-05-05T05:58:08Z) - GELATO: Geometrically Enriched Latent Model for Offline Reinforcement
Learning [54.291331971813364]
オフライン強化学習アプローチは、近近法と不確実性認識法に分けられる。
本研究では,この2つを潜在変動モデルに組み合わせることのメリットを実証する。
提案したメトリクスは、分布サンプルのアウトの品質と、データ内のサンプルの不一致の両方を測定します。
論文 参考訳(メタデータ) (2021-02-22T19:42:40Z) - On the Convergence Rate of Projected Gradient Descent for a
Back-Projection based Objective [58.33065918353532]
我々は、最小二乗(LS)の代替として、バックプロジェクションに基づく忠実度項を考える。
LS項ではなくBP項を用いることで最適化アルゴリズムの繰り返しを少なくすることを示す。
論文 参考訳(メタデータ) (2020-05-03T00:58:23Z) - Geometry, Computation, and Optimality in Stochastic Optimization [24.154336772159745]
問題幾何学の計算および統計的結果とオンライン最適化について検討する。
制約集合と勾配幾何学に焦点をあてて、どの次法と適応次法が最適(minimax)であるかという問題族を特徴づける。
論文 参考訳(メタデータ) (2019-09-23T16:14:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。