論文の概要: Group Orthogonalized Policy Optimization:Group Policy Optimization as Orthogonal Projection in Hilbert Space
- arxiv url: http://arxiv.org/abs/2602.21269v1
- Date: Tue, 24 Feb 2026 12:59:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-26 18:19:16.566515
- Title: Group Orthogonalized Policy Optimization:Group Policy Optimization as Orthogonal Projection in Hilbert Space
- Title(参考訳): グループ直交型政策最適化:ヒルベルト空間における直交射影としてのグループ政策最適化
- Authors: Wang Zixian,
- Abstract要約: ヒルベルト関数空間の幾何から導かれる大言語モデルに対する新しいアライメントアルゴリズムを提案する。
GOPO は2乗可積分函数のヒルベルト空間 L2(pi_k) にアライメントを持ち上げる。
群正規化の利点はゼロに等しいので、確率保存を強制するラグランジュ乗算器は正確に消滅する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present Group Orthogonalized Policy Optimization (GOPO), a new alignment algorithm for large language models derived from the geometry of Hilbert function spaces. Instead of optimizing on the probability simplex and inheriting the exponential curvature of Kullback-Leibler divergence, GOPO lifts alignment into the Hilbert space L2(pi_k) of square-integrable functions with respect to the reference policy. Within this space, the simplex constraint reduces to a linear orthogonality condition <v, 1> = 0, defining a codimension-one subspace H0. Minimizing distance to an unconstrained target u_star yields the work-dissipation functional J(v) = <g, v> - (mu / 2) ||v||^2, whose maximizer follows directly from the Hilbert projection theorem. Enforcing the boundary v >= -1 produces a bounded Hilbert projection that induces exact sparsity, assigning zero probability to catastrophically poor actions through a closed-form threshold. To connect this functional theory with practice, GOPO projects from infinite-dimensional L2(pi_k) to a finite empirical subspace induced by group sampling. Because group-normalized advantages sum to zero, the Lagrange multiplier enforcing probability conservation vanishes exactly, reducing the constrained projection to an unconstrained empirical loss. The resulting objective has constant Hessian curvature mu I, non-saturating linear gradients, and an intrinsic dead-zone mechanism without heuristic clipping. Experiments on mathematical reasoning benchmarks show that GOPO achieves competitive generalization while maintaining stable gradient dynamics and entropy preservation in regimes where clipping-based methods plateau.
- Abstract(参考訳): ヒルベルト関数空間の幾何から導かれる大規模言語モデルに対する新しいアライメントアルゴリズムである群オルソゴン化政策最適化(GOPO)を提案する。
GOPO は確率単純度を最適化し、クルバック・リーバー微分の指数曲率を継承する代わりに、基準ポリシーに関して二乗可積分函数のヒルベルト空間 L2(pi_k) にアライメントを持ち上げる。
この空間内では、単純制約は線型直交条件 <v, 1> = 0 に還元され、余次元 1 の部分空間 H0 が定義される。
制約のない対象 u_star への距離を最小化すると、作業散逸関数 J(v) = <g, v> - (mu / 2) ||v||^2 が得られる。
境界 v >= -1 を強制すると、有界ヒルベルト射影(英語版)(bounded Hilbert projection)が生成され、これは正確な間隔を誘導し、閉形式しきい値によって破滅的に貧弱な作用にゼロ確率を割り当てる。
この函数論を実践と結びつけるため、GOPO は無限次元 L2(pi_k) から群サンプリングによって誘導される有限経験部分空間に射影する。
群正規化の利点はゼロに等しいので、確率保存を強制するラグランジュ乗算器は正確に消滅し、制約された射影を制約のない経験的損失に還元する。
その結果, Hessian curvature mu I, non-saturating linear gradients, and an intrinsic dead-zone mechanism without heuristic cutping。
数学的推論ベンチマーク実験により, GOPO は安定な勾配力学とエントロピー保存を維持しつつ, 競争一般化を達成することが示された。
関連論文リスト
- Unregularized Linear Convergence in Zero-Sum Game from Preference Feedback [50.89125374999765]
NLHFにおける最適乗算重み更新(mathtOMWU$)に対する最初の収束保証を提供する。
本分析では, 稀に発生する行動の確率が指数関数的に小さい値から指数関数的に増大する新たな限界収束挙動を同定する。
論文 参考訳(メタデータ) (2025-12-31T12:08:29Z) - Random Gradient-Free Optimization in Infinite Dimensional Spaces [3.8031924942083517]
無限次元ヒルベルト空間におけるランダム勾配のない最適化法を提案する。
我々のフレームワークは、方向微分の計算とヒルベルト空間領域の事前基底のみを必要とする。
本稿では,ニューラルネットワークを用いた偏微分方程式の解法について紹介する。
論文 参考訳(メタデータ) (2025-12-23T18:09:49Z) - Non-Euclidean Broximal Point Method: A Blueprint for Geometry-Aware Optimization [55.002497070656624]
Broximal Point Method(BPM)は、現在の反復を中心にした標準球よりも目的関数を反復的に最小化する、理想的な最適化フレームワークを提供する。
顕著な大域収束保証、線形収束、および正規閉凸函数に対する有限のステップを享受する。
本稿では、BPMの収束理論が、このより一般的な非ユークリッド的な設定に拡張できるかどうかを問う。
論文 参考訳(メタデータ) (2025-10-01T12:32:52Z) - Graph-based Clustering Revisited: A Relaxation of Kernel $k$-Means Perspective [73.18641268511318]
本稿では,クラスタリング結果を導出するための正規制約のみを緩和するグラフベースのクラスタリングアルゴリズムを提案する。
二重制約を勾配に変換するために、非負の制約をクラス確率パラメータに変換する。
論文 参考訳(メタデータ) (2025-09-23T09:14:39Z) - Learning with Norm Constrained, Over-parameterized, Two-layer Neural Networks [54.177130905659155]
近年の研究では、再生カーネルヒルベルト空間(RKHS)がニューラルネットワークによる関数のモデル化に適した空間ではないことが示されている。
本稿では,有界ノルムを持つオーバーパラメータ化された2層ニューラルネットワークに適した関数空間について検討する。
論文 参考訳(メタデータ) (2024-04-29T15:04:07Z) - Revisiting Subgradient Method: Complexity and Convergence Beyond Lipschitz Continuity [24.45688490844496]
次進法は非滑らかな最適化のための最も基本的なアルゴリズムスキームの1つである。
本研究では、まず、非Lipschitz凸と弱凸最小化をカバーするために、下次法の典型的な反復複雑性結果を拡張する。
論文 参考訳(メタデータ) (2023-05-23T15:26:36Z) - Hessian Based Smoothing Splines for Manifold Learning [0.228438857884398]
多様体学習における多次元平滑化スプラインアルゴリズムを提案する。
平らな多様体のソボレフ空間上の二次形式に、薄板スプラインの曲げエネルギーペナルティを一般化する。
解の存在と一意性は、ヒルベルト空間を再現する理論を適用することによって示される。
論文 参考訳(メタデータ) (2023-02-10T02:49:05Z) - Kernel-based off-policy estimation without overlap: Instance optimality
beyond semiparametric efficiency [53.90687548731265]
本研究では,観測データに基づいて線形関数を推定するための最適手順について検討する。
任意の凸および対称函数クラス $mathcalF$ に対して、平均二乗誤差で有界な非漸近局所ミニマックスを導出する。
論文 参考訳(メタデータ) (2023-01-16T02:57:37Z) - Convergence rate of the (1+1)-evolution strategy on locally strongly convex functions with lipschitz continuous gradient [10.31411804947731]
進化戦略 (ES) はブラックボックス連続最適化のためのアルゴリズムの有望なクラスの一つである。
本研究では,局所$L$-強凸関数上の (1+1)-ES の線型収束率の上界と下界を$U$-Lipschitz連続勾配で導出した。
論文 参考訳(メタデータ) (2022-09-26T07:16:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。