Fugu-MT 論文翻訳(概要): Orthogonalized Policy Optimization:Decoupling Sampling Geometry from Optimization Geometry in RLHF

論文の概要: Orthogonalized Policy Optimization:Decoupling Sampling Geometry from Optimization Geometry in RLHF

arxiv url: http://arxiv.org/abs/2601.12415v2
Date: Wed, 21 Jan 2026 14:54:54 GMT
ステータス: 翻訳完了
システム内更新日: 2026-01-22 14:57:00.07729
Title: Orthogonalized Policy Optimization:Decoupling Sampling Geometry from Optimization Geometry in RLHF
Title（参考訳）: オルソゴン化政策最適化:RLHFにおける最適化幾何からのサンプリング幾何の分離
Authors: Wang Zixian,
Abstract要約: 大規模言語モデルアライメントの目的はしばしば、PPO、DPO、IPO、およびそれらの変種といった、異なるアルゴリズムの集合として提示される。この研究において、この多様性はより単純な基盤構造を曖昧にしていると論じる。この絡み合いは、単にモデリングの利便性ではなく、体系的な不安定性の源であることを示す。
参考スコア（独自算出の注目度）: 0.0
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Large language model alignment objectives are often presented as a collection of distinct algorithms, such as PPO, DPO, IPO, and their variants, each motivated by different derivations. In this work, we argue that this diversity obscures a simpler underlying structure. At a fundamental level, alignment objectives involve two independent design choices: (i) how training signals are sampled and weighted, and (ii) how deviations from a reference policy are geometrically penalized. Existing methods typically entangle these choices through a single divergence, most commonly the Kullback-Leibler divergence. We show that this entanglement is not merely a modeling convenience but a source of systematic instability. When the same divergence simultaneously determines sample weighting and optimization curvature, adjusting one aspect, such as exploration strength, inevitably alters the other, such as gradient geometry. This coupling is particularly problematic in preference-based reinforcement learning, where advantage signals are unbounded and high-confidence regimes are common. We propose a simple but structural remedy by formulating alignment as an orthogonal mirror descent problem, in which sampling geometry enters only as a linear driving force, while optimization geometry is determined independently by a mirror map. This perspective leads to a new alignment objective called Orthogonalized Policy Optimization (OPO), obtained by choosing a Euclidean mirror map in likelihood ratio space. The resulting objective admits a closed-form solution, linear and non-saturating gradient dynamics, and a well-conditioned trust region, while remaining fully compatible with standard large language model training pipelines.
Abstract（参考訳）: 大規模言語モデルアライメントの目的はしばしば、PPO、DPO、IPO、およびそれらの変種などの異なるアルゴリズムの集合として示され、それぞれが異なる派生によって動機付けられている。この研究において、この多様性はより単純な基盤構造を曖昧にしていると論じる。基本的なレベルでは、アライメントの目的は2つの独立した設計選択を含む。一トレーニング信号のサンプリング及び重み付け方法、及び (II)参照ポリシーからの逸脱が幾何的に罰せられるか。既存の方法は通常、これらの選択を単一の発散(最も一般的にはクルバック・リーバー発散)を通じて絡み合わせる。この絡み合いは、単にモデリングの利便性ではなく、体系的な不安定性の源であることを示す。同じばらつきがサンプル重み付けと最適化曲率を同時に決定し、探索強度などの一つの側面を調整すると、勾配幾何学のような他の側面は必然的に変更される。この結合は、有利な信号が非有界であり、高信頼の体制が一般的である優先に基づく強化学習において特に問題となる。直交ミラー降下問題としてアライメントを定式化し, サンプリング幾何は線形駆動力としてのみ現れるが, 最適化幾何はミラーマップによって独立に決定される。この観点は、ユークリッドミラーマップを比例空間で選択することで得られる、オルソゴン化政策最適化(OPO)と呼ばれる新たなアライメント目標へと導かれる。結果として得られた目的は、クローズドフォームのソリューション、線形および非飽和勾配力学、および十分に条件付けられた信頼領域を認めながら、標準の大規模言語モデルのトレーニングパイプラインと完全互換を維持している。

関連論文リスト

Why Deep Jacobian Spectra Separate: Depth-Induced Scaling and Singular-Vector Alignment [10.515277266852838]
本研究では, 深層ジャコビアンの研究において, 順序特異値の指数的スケーリングと強いスペクトル分離が可能であることを示す。さらに、行列積における特異ベクトルアライメントが十分に強い分離力を持つことを示し、中間ヤコビアンに対してほぼ共有の特異基底を与える。固定ゲート設定の実験は、予測スケーリング、アライメント、そして結果のダイナミクスを検証する。
論文参考訳（メタデータ） (2026-02-12T20:27:59Z)
ARGUS: Adaptive Rotation-Invariant Geometric Unsupervised System [0.0]
本稿では,データ多様体の固定空間分割上での局所統計追跡としてドリフト検出を再現するフレームワークであるArgusを紹介する。正準正則フレーム上のボロノイテッセルレーションは変換に不変なドリフト計量をもたらす。孤立摂動からコヒーレントな分布シフトを区別するドリフト伝播のグラフ理論的特徴付けを開発した。
論文参考訳（メタデータ） (2026-01-03T22:39:20Z)
Parallel Diffusion Solver via Residual Dirichlet Policy Optimization [88.7827307535107]
拡散モデル(DM)は、最先端の生成性能を達成したが、シーケンシャルなデノナイジング特性のため、高いサンプリング遅延に悩まされている。既存のソルバベースの加速度法では、低次元の予算で画像品質が著しく低下することが多い。本研究では,各ステップに複数の勾配並列評価を組み込んだ新しいODE解法であるEnsemble Parallel Directionsolvr(EPD-EPr)を提案する。
論文参考訳（メタデータ） (2025-12-28T05:48:55Z)
Learning Geometry: A Framework for Building Adaptive Manifold Models through Metric Optimization [8.201374511929538]
本稿では,従来のパラメータ最適化を超越した機械学習のパラダイムを提案する。既定位相を持つ多様体上の計量テンソル場を最適化することにより、モデル空間の幾何学的構造を動的に形成する。この研究は、その幾何学とトポロジーを自律的に進化させることができる完全にダイナミックな「メタ・ラーナー」を構築するための確固たる基礎を築いた。
論文参考訳（メタデータ） (2025-10-30T01:53:32Z)
Preconditioned Norms: A Unified Framework for Steepest Descent, Quasi-Newton and Adaptive Methods [50.070182958880146]
本稿では,事前条件付き行列ノルムの新たな概念を通じて,降下法,準ニュートン法,適応法を一般化する統一的枠組みを提案する。この枠組みでは、行列パラメータ化設定におけるアフィンとスケール不変性の最初の体系的処理を提供する。我々は、Muonのスペクトル幾何学とAdamスタイルのプレコンディショニングを組み合わせた、$ttMuAdam$と$texttMuAdam-SANIA$という2つの新しい方法を紹介した。
論文参考訳（メタデータ） (2025-10-12T19:39:41Z)
Non-Euclidean Broximal Point Method: A Blueprint for Geometry-Aware Optimization [55.002497070656624]
Broximal Point Method(BPM)は、現在の反復を中心にした標準球よりも目的関数を反復的に最小化する、理想的な最適化フレームワークを提供する。顕著な大域収束保証、線形収束、および正規閉凸函数に対する有限のステップを享受する。本稿では、BPMの収束理論が、このより一般的な非ユークリッド的な設定に拡張できるかどうかを問う。
論文参考訳（メタデータ） (2025-10-01T12:32:52Z)
Neural Optimal Transport Meets Multivariate Conformal Prediction [58.43397908730771]
条件付きベクトル回帰(CVQR)のためのフレームワークを提案する。 CVQRは、ニューラルネットワークの最適輸送と量子化された最適化を組み合わせて、予測に適用する。
論文参考訳（メタデータ） (2025-09-29T19:50:19Z)
Enforcing Latent Euclidean Geometry in Single-Cell VAEs for Manifold Interpolation [79.27003481818413]
離散的様相変分オートエンコーダの潜在多様体をユークリッド幾何学へ正規化する訓練フレームワークであるFlatVIを紹介する。遅延空間の直線を復号化された単セル多様体上の測地線に近似させることで、FlatVIは下流アプローチとの整合性を高める。
論文参考訳（メタデータ） (2025-07-15T23:08:14Z)
Generalized Linear Mode Connectivity for Transformers [87.32299363530996]
驚くべき現象はリニアモード接続(LMC)であり、独立に訓練されたモデルを低損失またはゼロ損失の経路で接続することができる。以前の研究は主に置換によるニューロンの並べ替えに焦点を合わせてきたが、そのようなアプローチは範囲に限られている。我々は、4つの対称性クラス(置換、半置換、変換、一般可逆写像)をキャプチャする統一的なフレームワークを導入する。この一般化により、独立に訓練された視覚変換器とGPT-2モデルの間の低障壁とゼロバリア線形経路の発見が可能となった。
論文参考訳（メタデータ） (2025-06-28T01:46:36Z)
Generalized Gradient Norm Clipping & Non-Euclidean $(L_0,L_1)$-Smoothness [51.302674884611335]
本研究は、急勾配と条件勾配のアプローチを組み合わせることでノルムクリッピングを一般化するハイブリッド非ユークリッド最適化手法を提案する。本稿では、ディープラーニングのためのアルゴリズムのインスタンス化について論じ、画像分類と言語モデリングにおけるそれらの特性を実証する。
論文参考訳（メタデータ） (2025-06-02T17:34:29Z)
Generalization Bounds of Surrogate Policies for Combinatorial Optimization Problems [53.03951222945921]
我々はスムーズな(摂動された)ポリシーを解析し、線形オラクルが使用する方向に対して制御されたランダムな摂動を付加する。我々の主な貢献は、過剰リスクを摂動バイアス、統計的推定誤差、最適化誤差に分解する一般化境界である。車両のスケジューリングやスムーズ化がトラクタブルトレーニングと制御された一般化の両方を可能にしていることを示す。
論文参考訳（メタデータ） (2024-07-24T12:00:30Z)
Differentially Private Optimization with Sparse Gradients [60.853074897282625]
微分プライベート(DP)最適化問題を個人勾配の空間性の下で検討する。これに基づいて、スパース勾配の凸最適化にほぼ最適な速度で純粋および近似DPアルゴリズムを得る。
論文参考訳（メタデータ） (2024-04-16T20:01:10Z)
Geometry-Aware Normalizing Wasserstein Flows for Optimal Causal Inference [0.0]
本稿では,パラメトリックサブモデルと連続正規化フローを統合することにより,因果推論に対する画期的なアプローチを提案する。我々は、最適輸送とワッサーシュタイン勾配流を利用して、有限サンプル設定における最小分散の因果推論手法を開発する。予備実験では, 従来の流れに比べて平均二乗誤差が低い。
論文参考訳（メタデータ） (2023-11-30T18:59:05Z)
Adaptive Zeroth-Order Optimisation of Nonconvex Composite Objectives [1.7640556247739623]
ゼロ階エントロピー合成目的のためのアルゴリズムを解析し,次元依存性に着目した。これは、ミラー降下法と推定類似関数を用いて、決定セットの低次元構造を利用して達成される。勾配を改善するため、Rademacherに基づく古典的なサンプリング法を置き換え、ミニバッチ法が非ユークリ幾何学に対処することを示す。
論文参考訳（メタデータ） (2022-08-09T07:36:25Z)
Parametric Generative Schemes with Geometric Constraints for Encoding and Synthesizing Airfoils [25.546237636065182]
特定の制約を満たしつつ,設計空間の複雑さを捉えるために,ディープラーニングに基づく2つの生成スキームを提案する。ソフト制約スキームは、予想される幾何学的制約からわずかにずれた翼を生成するが、それでも基準翼に収束する。制約の厳しいスキームは、幾何学的制約に厳密に固執しつつ、より広い範囲の幾何学的多様性を持つ翼を生産する。
論文参考訳（メタデータ） (2022-05-05T05:58:08Z)
GELATO: Geometrically Enriched Latent Model for Offline Reinforcement Learning [54.291331971813364]
オフライン強化学習アプローチは、近近法と不確実性認識法に分けられる。本研究では,この2つを潜在変動モデルに組み合わせることのメリットを実証する。提案したメトリクスは、分布サンプルのアウトの品質と、データ内のサンプルの不一致の両方を測定します。
論文参考訳（メタデータ） (2021-02-22T19:42:40Z)
On the Convergence Rate of Projected Gradient Descent for a Back-Projection based Objective [58.33065918353532]
我々は、最小二乗(LS)の代替として、バックプロジェクションに基づく忠実度項を考える。 LS項ではなくBP項を用いることで最適化アルゴリズムの繰り返しを少なくすることを示す。
論文参考訳（メタデータ） (2020-05-03T00:58:23Z)
Geometry, Computation, and Optimality in Stochastic Optimization [24.154336772159745]
問題幾何学の計算および統計的結果とオンライン最適化について検討する。制約集合と勾配幾何学に焦点をあてて、どの次法と適応次法が最適(minimax)であるかという問題族を特徴づける。
論文参考訳（メタデータ） (2019-09-23T16:14:26Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。