論文の概要: Optimize Wider, Not Deeper: Consensus Aggregation for Policy Optimization
- arxiv url: http://arxiv.org/abs/2603.12596v1
- Date: Fri, 13 Mar 2026 03:02:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-16 17:38:11.863023
- Title: Optimize Wider, Not Deeper: Consensus Aggregation for Policy Optimization
- Title(参考訳): より広く、より深くないよう最適化する - 政策最適化のための合意の集約
- Authors: Zelal Su, Mustafaoglu, Sungyoung Lee, Eshan Balachandar, Risto Miikkulainen, Keshav Pingali,
- Abstract要約: 近ポリシー最適化は、クリッピングされたSGDの複数のエポックを用いた信頼領域更新を近似する。
ユークリッドパラメータ空間とポリシー分布の自然なパラメータ空間の2つの空間におけるアグリゲーションについて検討する。
CAPOは、追加の環境相互作用を伴わずに、より深く、より広い範囲で最適化することで、ポリシーの最適化を改善することができることを示した。
- 参考スコア(独自算出の注目度): 8.093146587950573
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Proximal policy optimization (PPO) approximates the trust region update using multiple epochs of clipped SGD. Each epoch may drift further from the natural gradient direction, creating path-dependent noise. To understand this drift, we can use Fisher information geometry to decompose policy updates into signal (the natural gradient projection) and waste (the Fisher-orthogonal residual that consumes trust region budget without first-order surrogate improvement). Empirically, signal saturates but waste grows with additional epochs, creating an optimization-depth dilemma. We propose Consensus Aggregation for Policy Optimization (CAPO), which redirects compute from depth to width: $K$ PPO replicates are optimized on the same batch, differing only in minibatch shuffling order, and then aggregated into a consensus. We study aggregation in two spaces: Euclidean parameter space, and the natural parameter space of the policy distribution via the logarithmic opinion pool. In natural parameter space, the consensus provably achieves higher KL-penalized surrogate and tighter trust region compliance than the mean expert; parameter averaging inherits these guarantees approximately. On continuous control tasks, CAPO outperforms PPO and compute-matched deeper baselines under fixed sample budgets by up to 8.6x. CAPO demonstrates that policy optimization can be improved by optimizing wider, rather than deeper, without additional environment interactions.
- Abstract(参考訳): Proximal Policy Optimization (PPO) は、クリッピングされたSGDの複数のエポックを用いて、信頼領域の更新を近似する。
それぞれのエポックは自然勾配方向からさらに流れ出し、経路依存ノイズを生み出す。
このドリフトを理解するために、フィッシャー情報幾何を用いて、ポリシー更新を信号(自然勾配予測)と廃棄物(一階のサロゲート改善なしに信頼地域予算を消費するフィッシャー・オルソゴン残差)に分解することができる。
経験的に、信号は飽和するが、無駄は追加のエポックとともに成長し、最適化深度ジレンマを生成する。
本稿では,計算を深さから幅にリダイレクトするConsensus Aggregation for Policy Optimization (CAPO)を提案する。
ユークリッドパラメータ空間と対数的意見プールによる政策分布の自然なパラメータ空間の2つの空間における集約について検討する。
自然パラメータ空間において、コンセンサスは平均的専門家よりも高いKL-ペナル化サロゲートと厳密な信頼領域コンプライアンスを確実に達成し、パラメータ平均化はこれらの保証をほぼ継承する。
連続制御タスクでは、CAPO は PPO を上回り、固定サンプル予算で最大8.6倍の計算整合ベースラインを上回ります。
CAPOは、追加の環境相互作用を伴わずに、より深く、より広い範囲で最適化することで、ポリシーの最適化を改善することができることを示した。
関連論文リスト
- Unbiased Dynamic Pruning for Efficient Group-Based Policy Optimization [60.87651283510059]
Group Relative Policy Optimization (GRPO) はLLM推論を効果的にスケールするが、計算コストは禁じている。
本研究では,非バイアス勾配推定を保ちながら動的プルーニングを可能にする動的プルーニングポリシー最適化(DPPO)を提案する。
刈り込みによって引き起こされるデータの空間性を軽減するため,ウィンドウベースの欲求戦略であるDense Prompt Packingを導入する。
論文 参考訳(メタデータ) (2026-03-04T14:48:53Z) - Coverage Improvement and Fast Convergence of On-policy Preference Learning [67.36750525893514]
言語モデルアライメントのためのオンラインのオンラインプライオリティ学習アルゴリズムは、オフラインのアルゴリズムよりも大幅に優れている。
我々は,サンプリング政策の包括的範囲が政治訓練を通じてどのように進展するかを分析する。
一般機能クラス設定における報奨蒸留のための原則的オンライン方式を開発した。
論文 参考訳(メタデータ) (2026-01-13T10:46:06Z) - Sequential Bayesian Optimal Experimental Design in Infinite Dimensions via Policy Gradient Reinforcement Learning [3.2580743227673694]
高忠実性アプローチでは、ネストしたベイズ反転と設計ループの中で、繰り返し前方および随伴したPDEが解かれる。
我々は、SBOEDを有限水平マルコフ決定プロセスとして定式化し、ポリシー段階の強化学習を通じて、償却設計ポリシーを学習する。
汚染源追跡のための逐次マルチセンサ配置に関する数値実験は、高忠実度有限要素法よりも約100倍のスピードアップを示す。
論文 参考訳(メタデータ) (2026-01-09T15:44:49Z) - Beyond the Boundaries of Proximal Policy Optimization [17.577317574595206]
この研究は、更新ベクトルのインナーループ推定に分解されるPPOの別の視点を提供する。
本稿では,これらの更新ベクトルを任意の勾配勾配を用いて適用するフレームワークとして,外部近似ポリシー最適化(outer-PPO)を提案する。
方法はBrax, Jumanji, MinAtar環境上で積極的に調整されたPPOベースラインに対して評価される。
論文 参考訳(メタデータ) (2024-11-01T15:29:10Z) - Towards Efficient Exact Optimization of Language Model Alignment [93.39181634597877]
嗜好データから直接ポリシーを最適化するために、直接選好最適化(DPO)が提案された。
問題の最適解に基づいて導出されたDPOが,現実の最適解の妥協平均探索近似に繋がることを示す。
本稿では、アライメント目的の効率的な精度最適化(EXO)を提案する。
論文 参考訳(メタデータ) (2024-02-01T18:51:54Z) - Simple Policy Optimization [15.66748378216631]
信頼地域政策最適化(Trust Region Policy Optimization, TRPO)は、信頼領域内の保守的な更新を通じて単調な政策改善を保証することで知られている。
PPO(Proximal Policy Optimization)は、TRPOのアプローチを単純化し、効率を向上するが、理論的な堅牢性を犠牲にすることで、この問題に対処する。
どちらの方法の長所を組み合わせられるだろうか?
本稿では,制約のない新しい1次アルゴリズムであるSimple Policy Optimization (SPO)を紹介する。
論文 参考訳(メタデータ) (2024-01-29T10:17:54Z) - Last-Iterate Convergent Policy Gradient Primal-Dual Methods for
Constrained MDPs [107.28031292946774]
無限水平割引マルコフ決定過程(拘束型MDP)の最適ポリシの計算問題について検討する。
我々は, 最適制約付きポリシーに反復的に対応し, 非漸近収束性を持つ2つの単一スケールポリシーに基づく原始双対アルゴリズムを開発した。
我々の知る限り、この研究は制約付きMDPにおける単一時間スケールアルゴリズムの非漸近的な最後の収束結果となる。
論文 参考訳(メタデータ) (2023-06-20T17:27:31Z) - Proximal Policy Optimization with Adaptive Threshold for Symmetric
Relative Density Ratio [8.071506311915396]
一般的な方法、いわゆるポリシ最適化(PPO)とその変種は、密度比が与えられた閾値を超える場合に、最新のポリシーとベースラインポリシーの密度比を制約する。
本稿では,相対的ピアソン(RPE)偏差を用いた新しいPPO(PPO-RPE)を提案し,その閾値を適応的に設計する。
論文 参考訳(メタデータ) (2022-03-18T09:13:13Z) - Optimistic Policy Optimization is Provably Efficient in Non-stationary MDPs [113.8752163061151]
非定常線形カーネルマルコフ決定過程(MDP)におけるエピソード強化学習(RL)の研究
線形最適化アンダーライン最適化アルゴリズム(PROPO)を提案する。
PROPOはスライディングウィンドウベースのポリシー評価と周期的リスタートベースのポリシー改善の2つのメカニズムを特徴としている。
論文 参考訳(メタデータ) (2021-10-18T02:33:20Z) - Near Optimal Policy Optimization via REPS [33.992374484681704]
emphrelative entropy policy search (reps) は多くのシミュレーションと実世界のロボットドメインでポリシー学習に成功した。
勾配に基づく解法を用いる場合、REPSの性能には保証がない。
最適規則化ポリシーに好適な収束を維持するためのパラメータ更新を計算するために,基礎となる決定プロセスへの表現的アクセスを利用する手法を提案する。
論文 参考訳(メタデータ) (2021-03-17T16:22:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。