論文の概要: PPO in the Fisher-Rao geometry
- arxiv url: http://arxiv.org/abs/2506.03757v1
- Date: Wed, 04 Jun 2025 09:23:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-05 21:20:14.260168
- Title: PPO in the Fisher-Rao geometry
- Title(参考訳): フィッシャー・ラオ幾何学におけるPPO
- Authors: Razvan-Andrei Lascu, David Šiška, Łukasz Szpruch,
- Abstract要約: PPO(Proximal Policy Optimization)は、強化学習のアルゴリズムとして広く採用されている。
その人気にもかかわらず、PPOは政策改善と収束に関する正式な理論的保証を欠いている。
本稿では,フィッシャー・ラオ幾何におけるより強いサロゲートを導出し,新しい変種であるフィッシャー・ラオPPO(FR-PPO)を導出する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Proximal Policy Optimization (PPO) has become a widely adopted algorithm for reinforcement learning, offering a practical policy gradient method with strong empirical performance. Despite its popularity, PPO lacks formal theoretical guarantees for policy improvement and convergence. PPO is motivated by Trust Region Policy Optimization (TRPO) that utilizes a surrogate loss with a KL divergence penalty, which arises from linearizing the value function within a flat geometric space. In this paper, we derive a tighter surrogate in the Fisher-Rao (FR) geometry, yielding a novel variant, Fisher-Rao PPO (FR-PPO). Our proposed scheme provides strong theoretical guarantees, including monotonic policy improvement. Furthermore, in the tabular setting, we demonstrate that FR-PPO achieves sub-linear convergence without any dependence on the dimensionality of the action or state spaces, marking a significant step toward establishing formal convergence results for PPO-based algorithms.
- Abstract(参考訳): PPO(Proximal Policy Optimization)が強化学習のアルゴリズムとして広く採用され、経験的性能の強い実用的な政策勾配法が提案されている。
その人気にもかかわらず、PPOは政策改善と収束に関する正式な理論的保証を欠いている。
PPOは、平面幾何学空間における値関数の線形化から生じるKL発散ペナルティによる代理損失を利用するトラスト領域ポリシー最適化(TRPO)によって動機付けられている。
本稿では、フィッシャー・ラオ(FR)幾何においてより強いサロゲートを導出し、新しい変種であるフィッシャー・ラオPPO(FR-PPO)を導出する。
提案手法は, 単調な政策改善を含む理論上の確固たる保証を提供する。
さらに, 表形式では, FR-PPOが動作空間や状態空間の次元に依存することなく, 線形収束を達成できることが示され, PPOアルゴリズムの形式収束結果の確立に向けた重要な一歩となった。
関連論文リスト
- Convergence of Policy Mirror Descent Beyond Compatible Function Approximation [66.4260157478436]
我々は,より弱い変動支配を前提とした理論的PMD一般政策クラスを開発し,最良クラス政策への収束を得る。
我々の主観念は、占有度-勾配測度によって誘導される局所ノルムによって誘導される新しい概念を活用する。
論文 参考訳(メタデータ) (2025-02-16T08:05:46Z) - Understanding Reference Policies in Direct Preference Optimization [50.67309013764383]
DPO(Direct Preference Optimization)は、大規模言語モデル(LLM)の微調整のための訓練手法として広く使われている。
この研究は、参照モデルやポリシーに依存しているDPOの未検討の側面を探求する。
論文 参考訳(メタデータ) (2024-07-18T17:08:10Z) - Transductive Off-policy Proximal Policy Optimization [27.954910833441705]
本稿では,従来のPPO法(Transductive Off-policy PPO (ToPPO))と命名された新しいオフポリシー拡張を提案する。
我々の貢献には、非政治データから導かれる将来的な政策に対する政策改善の低い境界の新たな定式化が含まれます。
ToPPOの有望な性能を裏付ける6つの代表的なタスクの総合的な実験結果。
論文 参考訳(メタデータ) (2024-06-06T09:29:40Z) - Dropout Strategy in Reinforcement Learning: Limiting the Surrogate
Objective Variance in Policy Optimization Methods [0.0]
政策に基づく強化学習アルゴリズムは様々な分野で広く利用されている。
これらのアルゴリズムは、ポリシー反復に重要サンプリングを導入する。
これにより、サロゲートの目的の分散度が高くなり、アルゴリズムの安定性と収束度に間接的に影響を及ぼす。
論文 参考訳(メタデータ) (2023-10-31T11:38:26Z) - Local Optimization Achieves Global Optimality in Multi-Agent
Reinforcement Learning [139.53668999720605]
本稿では,各エージェントのローカルポリシーをバニラPPOと同様に更新するマルチエージェントPPOアルゴリズムを提案する。
マルコフゲームにおける標準正則条件と問題依存量により、我々のアルゴリズムはサブリニアレートで大域的最適ポリシーに収束することを示す。
論文 参考訳(メタデータ) (2023-05-08T16:20:03Z) - Monotonic Improvement Guarantees under Non-stationarity for
Decentralized PPO [66.5384483339413]
我々は,MARL(Multi-Agent Reinforcement Learning)における分散政策の最適化のための新しい単調改善保証を提案する。
本研究では,訓練中のエージェント数に基づいて,独立した比率を限定することにより,信頼領域の制約を原則的に効果的に実施可能であることを示す。
論文 参考訳(メタデータ) (2022-01-31T20:39:48Z) - Hinge Policy Optimization: Rethinking Policy Improvement and
Reinterpreting PPO [6.33198867705718]
政策最適化は強化学習アルゴリズムを設計するための基本原理である。
優れた経験的性能にもかかわらず、PPO-clipは今まで理論的な証明によって正当化されていない。
PPO-クリップの変種に対する最適ポリシーへの大域収束を証明できるのはこれが初めてである。
論文 参考訳(メタデータ) (2021-10-26T15:56:57Z) - Proximal Policy Optimization with Relative Pearson Divergence [8.071506311915396]
PPOは、最新ポリシーとベースラインポリシーの密度比を閾値でクリップするが、最小化ターゲットは不明確である。
本稿では、相対ピアソン分散(RPE)の正規化問題(いわゆるPPO-RPE)を考慮し、PPOの新しい変種を提案する。
4つのベンチマークタスクを通じて,PPO-RPEは学習方針によるタスク性能の点で従来の手法と同等以上の性能を示した。
論文 参考訳(メタデータ) (2020-10-07T09:11:22Z) - Stable Policy Optimization via Off-Policy Divergence Regularization [50.98542111236381]
信頼地域政策最適化(TRPO)とPPO(Pximal Policy Optimization)は、深層強化学習(RL)において最も成功した政策勾配アプローチの一つである。
本稿では, 連続的な政策によって引き起こされる割引状態-行動訪問分布を, 近接項で抑制し, 政策改善を安定化させる新しいアルゴリズムを提案する。
提案手法は, ベンチマーク高次元制御タスクの安定性と最終的な性能向上に有効である。
論文 参考訳(メタデータ) (2020-03-09T13:05:47Z) - Neural Proximal/Trust Region Policy Optimization Attains Globally
Optimal Policy [119.12515258771302]
オーバーパラメトリゼーションを備えたPPOOの変種が,グローバルな最適ネットワークに収束することを示す。
我々の分析の鍵は、1次元の単調性の概念の下で無限勾配の反復であり、そこでは勾配はネットワークによって瞬く。
論文 参考訳(メタデータ) (2019-06-25T03:20:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。