論文の概要: A note on convergence of Wasserstein policy optimization
- arxiv url: http://arxiv.org/abs/2605.22622v1
- Date: Thu, 21 May 2026 15:32:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-22 20:14:18.596022
- Title: A note on convergence of Wasserstein policy optimization
- Title(参考訳): ワッサーシュタイン政策最適化の収束に関する一考察
- Authors: David Šiška, Yufei Zhang,
- Abstract要約: Wasserstein Policy Optimization (WPO) は、連続的な行動空間におけるポリシーを最適化するためにWassersteinの勾配流を利用する強化学習アルゴリズムである。
エントロピー規則化されたマルコフ決定過程の枠組みにおけるWPOは線形に収束する。
- 参考スコア(独自算出の注目度): 1.4576165959001435
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Wasserstein Policy Optimization (WPO) is a recently proposed reinforcement learning algorithm that leverages Wasserstein gradient flows to optimize stochastic policies in continuous action spaces. Despite its empirical success, the theoretical convergence properties of WPO in environments with continuous state and action spaces have yet to be fully established. In this note, we argue that WPO within the framework of entropy-regularised Markov Decision Processes converges linearly. This is done by leveraging recent advances in mean-field analysis for convergence of gradient flows using log-Sobole inequalities. Assuming existence of sufficiently regular solution to the gradient flow equation we demonstrate monotonic energy dissipation along the flow and establish a local log-Sobolev inequality. Ultimately, these properties allow us to argue that the value function should converge linearly to the global optimum.
- Abstract(参考訳): Wasserstein Policy Optimization (WPO) は、連続的な作用空間における確率的ポリシーを最適化するために、Wassersteinの勾配流を利用する強化学習アルゴリズムである。
経験的成功にもかかわらず、連続状態と作用空間を持つ環境でのWPOの理論的収束性は、まだ完全には確立されていない。
本稿では、エントロピー規則化されたマルコフ決定過程の枠組み内のWPOが線形に収束することを論じる。
これは、対数ソボ不等式を用いた勾配流の収束に対する平均場解析の最近の進歩を利用する。
勾配流方程式に十分な正則解が存在すると仮定すると、流れに沿った単調エネルギー散逸を示し、局所対数ソボレフ不等式を確立する。
最終的に、これらの性質は、値関数が大域的最適値に線形に収束すべきであると主張することができる。
関連論文リスト
- Q-Flow: Stable and Expressive Reinforcement Learning with Flow-Based Policy [51.31164293751206]
Q-Flowは、フローダイナミクスの決定論的性質を利用して、ポリシーによって引き起こされるフローに沿って遅延状態を明確に伝播するフレームワークである。
OGBenchスイートのオフライン学習環境でのQ-Flowの評価では,最先端のベースラインを平均10.6ポイント上回っている。
論文 参考訳(メタデータ) (2026-05-13T12:31:02Z) - Achieve Performatively Optimal Policy for Performative Reinforcement Learning [55.983627302691424]
本研究は,0階次FrankWolfe- (0FW) アルゴリズムを提案する。
実験結果から, 所望のPOポリシを求める場合, 既存の近似よりも0FWの方が有効であることが示唆された。
論文 参考訳(メタデータ) (2025-10-06T01:56:31Z) - Remarks on the Polyak-Lojasiewicz inequality and the convergence of gradient systems [0.3277163122167434]
この研究は、ポリアック・ロジャシエヴィチ不等式(PLI)の一般化を探求する。
この研究は、より弱い条件は、コスト関数の臨界点の集合に対する大域収束と最適性に十分である一方で、勾配流解の「顕著」は、どの不等式の不等式がどのコストを満たすかによって大きく変化することを示した。
論文 参考訳(メタデータ) (2025-03-31T00:59:56Z) - Entropy annealing for policy mirror descent in continuous time and space [2.8255028200738455]
本研究では,エントロピー正則化が出口時間制御問題に対する政策手法の収束に及ぼす影響について検討する。
本稿では,真の勾配であっても,エントロピー正則化が政策最適化をどのように改善するかを説明する。
論文 参考訳(メタデータ) (2024-05-30T17:02:18Z) - On the Global Convergence of Policy Gradient in Average Reward Markov
Decision Processes [50.68789924454235]
我々は、平均報酬マルコフ決定過程(MDP)の文脈における政策勾配の最初の有限時間大域収束解析を示す。
我々の分析によると、ポリシー勾配は、$Oleft(frac1Tright)$のサブリニアレートで最適ポリシーに収束し、$Oleft(log(T)right)$ regretに変換され、$T$は反復数を表す。
論文 参考訳(メタデータ) (2024-03-11T15:25:03Z) - A Fisher-Rao gradient flow for entropy-regularised Markov decision processes in Polish spaces [10.045995853506222]
無限水平エントロピー規則化マルコフ決定過程に対するフィッシャー・ラオ政策勾配流のポーランド状態と行動空間による大域収束について検討する。
勾配流の大域的健全性を確立し,その指数収束性を示す。
論文 参考訳(メタデータ) (2023-10-04T16:41:36Z) - Convergence of Adam Under Relaxed Assumptions [72.24779199744954]
我々は、アダムがより現実的な条件下で、$O(epsilon-4)$勾配複雑性で$epsilon$-定常点に収束することを示している。
また、Adamの分散還元版を$O(epsilon-3)$の加速勾配複雑性で提案する。
論文 参考訳(メタデータ) (2023-04-27T06:27:37Z) - Global Convergence of Over-parameterized Deep Equilibrium Models [52.65330015267245]
ディープ均衡モデル(Deep equilibrium model, DEQ)は、入射を伴う無限深度重み付きモデルの平衡点を通して暗黙的に定義される。
無限の計算の代わりに、ルートフィンディングで直接平衡点を解き、暗黙の微分で勾配を計算する。
本稿では,無限深度重み付きモデルの非漸近解析における技術的困難を克服する新しい確率的枠組みを提案する。
論文 参考訳(メタデータ) (2022-05-27T08:00:13Z) - On the Convergence of Stochastic Extragradient for Bilinear Games with
Restarted Iteration Averaging [96.13485146617322]
本稿では, ステップサイズが一定であるSEG法の解析を行い, 良好な収束をもたらす手法のバリエーションを示す。
平均化で拡張した場合、SEGはナッシュ平衡に確実に収束し、スケジュールされた再起動手順を組み込むことで、その速度が確実に加速されることを証明した。
論文 参考訳(メタデータ) (2021-06-30T17:51:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。