論文の概要: Policy Gradient for Continuous-Time Robust Markov Decision Processes
- arxiv url: http://arxiv.org/abs/2606.04335v2
- Date: Thu, 04 Jun 2026 10:50:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-05 19:21:33.294791
- Title: Policy Gradient for Continuous-Time Robust Markov Decision Processes
- Title(参考訳): 連続的ロバストマルコフ決定プロセスのためのポリシーグラディエント
- Authors: Tanya Veeravalli, David M. Bossens, Atsushi Nitanda,
- Abstract要約: 本稿では,マルコフ決定プロセスフレームワークにおけるポリシーアルゴリズムについて検討する。
ポリシー勾配と逆勾配は、パスワイズ式と随伴式を用いて導出される。
平均場オプティマイザを$tildemathcalO(frac1K)$ Oracle-based convergence rateおよび$tildemathcalO(fracN2)$ sample complexity under $N$- Particle approximationとして提案する。
- 参考スコア(独自算出の注目度): 11.595126166975854
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The framework of robust Markov decision processes (RMDPs) allows the design of reinforcement learning agents that satisfy performance guarantees under worst-case transition dynamics. Traditional RMDPs consider discrete-time dynamics and recently, sample-efficient policy gradient algorithms have been considered in this context. This paper investigates policy gradient algorithms within a continuous-time RMDP framework. Policy gradients and adversarial gradients are derived using pathwise and adjoint-based formulas for stochastic and ordinary differential equations. We propose double-loop optimisers to obtain linear convergence in the oracle-based setting and an $\tilde{\mathcal{O}}(\frac{1}{ε^2})$ sample complexity in the sample-based setting in an analysis which also derives novel tools for the framework of undiscounted total cost MDPs. Additionally, we propose mean-field optimisers as distributional optimisers with an $\tilde{\mathcal{O}}(\frac{1}{K})$ oracle-based convergence rate and an $\tilde{\mathcal{O}}(\frac{N^2}ε)$ sample complexity under $N$-particle approximation. The effectiveness of continuous-time policy gradient algorithms is confirmed for both optimisers on continuous-time RMDPs with neural ordinary differential equation dynamics.
- Abstract(参考訳): 堅牢なマルコフ決定プロセス(RMDP)の枠組みは、最悪の遷移力学の下での性能保証を満たす強化学習エージェントの設計を可能にする。
従来のRMDPは離散時間力学を考慮し、近年ではこの文脈でサンプル効率の政策勾配アルゴリズムが検討されている。
本稿では,連続時間RMDPフレームワークにおけるポリシー勾配アルゴリズムについて検討する。
ポリシー勾配と逆勾配は、確率微分方程式と常微分方程式の経路式および随伴式を用いて導出される。
そこで本研究では,両ループオプティマイザを用いて,オラクル系設定における線形収束とサンプルベース設定における$\tilde{\mathcal{O}}(\frac{1}{ε^2})$サンプル複雑性を求める。
さらに、平均場オプティマイザを$\tilde{\mathcal{O}}(\frac{1}{K})$ oracle-based convergence rate と $\tilde{\mathcal{O}}(\frac{N^2}ε)$サンプル複雑性を$N$粒子近似で表す。
ニューラル常微分方程式を用いた連続時間RMDPにおける両オプティマイザの有効性を確認した。
関連論文リスト
- Optimal Posterior Sampling for Policy Identification in Tabular Markov Decision Processes [3.2959629354399484]
有限水平エピソードマルコフ決定における$(varepsilon, )$PAC-PACポリシー識別問題について検討する。
本稿では,後続サンプリングとオンライン学習アルゴリズムを組み合わせてMDPを誘導する,最適ポリシー識別のためのランダムで効率的なアルゴリズムを提案する。
論文 参考訳(メタデータ) (2026-05-05T16:16:57Z) - Provably Efficient Algorithms for S- and Non-Rectangular Robust MDPs with General Parameterization [85.91302339486673]
我々は、s-正方形および非正方形不確実性集合の下で、一般的な政策パラメータ化を伴うロバストマルコフ決定過程(RMDP)について検討する。
無限状態空間に拡張する一般政策パラメタライゼーションに対する新しいリプシッツ・リプシッツ・スムースネス特性を証明した。
本研究では,S-正方形不確かさに対する勾配降下アルゴリズムと非正方形不確かさに対するFrank-Wolfeアルゴリズムを設計する。
論文 参考訳(メタデータ) (2026-02-11T21:44:20Z) - Parallel Diffusion Solver via Residual Dirichlet Policy Optimization [88.7827307535107]
拡散モデル(DM)は、最先端の生成性能を達成したが、シーケンシャルなデノナイジング特性のため、高いサンプリング遅延に悩まされている。
既存のソルバベースの加速度法では、低次元の予算で画像品質が著しく低下することが多い。
本研究では,各ステップに複数の勾配並列評価を組み込んだ新しいODE解法であるEnsemble Parallel Directionsolvr(EPD-EPr)を提案する。
論文 参考訳(メタデータ) (2025-12-28T05:48:55Z) - Decentralized Nonconvex Composite Federated Learning with Gradient Tracking and Momentum [78.27945336558987]
分散サーバ(DFL)はクライアント・クライアント・アーキテクチャへの依存をなくす。
非滑らかな正規化はしばしば機械学習タスクに組み込まれる。
本稿では,これらの問題を解決する新しいDNCFLアルゴリズムを提案する。
論文 参考訳(メタデータ) (2025-04-17T08:32:25Z) - FastPart: Over-Parameterized Stochastic Gradient Descent for Sparse optimisation on Measures [3.377298662011438]
本稿では,コニックパーティクルグラディエントDescent(CPGD)のスケーラビリティを高めるために,ランダム特徴と協調してグラディエントDescent戦略を利用する新しいアルゴリズムを提案する。
以下の重要な結果を示す厳密な数学的証明を提供する: $mathrm(i)$ 降下軌道に沿った解測度の総変動ノルムは有界であり、安定性を確保し、望ましくない発散を防ぐ。$mathrm(ii)$ 収束率$O(log(K)/sqrtK)$$$$$K以上の大域収束保証を確立する。
論文 参考訳(メタデータ) (2023-12-10T20:41:43Z) - Stochastic first-order methods for average-reward Markov decision processes [10.023632561462712]
平均回帰マルコフ決定過程(AMDP)について検討し,政策最適化と政策評価の両面において理論的確証が強い新しい一階法を開発した。
政策評価と政策最適化の部分を組み合わせることで、生成的およびマルコフ的ノイズモデルの両方の下で、AMDPを解くためのサンプル複雑性結果を確立する。
論文 参考訳(メタデータ) (2022-05-11T23:02:46Z) - MDPGT: Momentum-based Decentralized Policy Gradient Tracking [29.22173174168708]
マルチエージェント強化学習のための運動量に基づく分散型ポリシー勾配追跡(MDPGT)を提案する。
MDPGTは、グローバル平均の$N$ローカルパフォーマンス関数の$epsilon-stationaryポイントに収束するために$mathcalO(N-1epsilon-3)$の最良のサンプル複雑性を実現する。
これは、分散モデルレス強化学習における最先端のサンプル複雑さよりも優れています。
論文 参考訳(メタデータ) (2021-12-06T06:55:51Z) - Momentum Accelerates the Convergence of Stochastic AUPRC Maximization [80.8226518642952]
高精度リコール曲線(AUPRC)に基づく領域の最適化について検討し,不均衡なタスクに広く利用されている。
我々は、$O (1/epsilon4)$のより優れた反復による、$epsilon$定常解を見つけるための新しい運動量法を開発する。
また,O(1/epsilon4)$と同じ複雑さを持つ適応手法の新たなファミリを設計し,実際により高速な収束を享受する。
論文 参考訳(メタデータ) (2021-07-02T16:21:52Z) - Cautiously Optimistic Policy Optimization and Exploration with Linear
Function Approximation [48.744735294559824]
政策最適化手法は、その漸進的かつ政治的性質が価値に基づくアルゴリズムよりも安定しているため、一般的な強化学習アルゴリズムである。
本稿では,PCPGのサンプル複雑性問題を克服し,モデルのミスセグメンテーションに頑健さを保ちながら,新しいアルゴリズムCOPOEを提案する。
その結果、PCPGの$widetildeO (1/epsilon11)$からPCPGの$widetildeO (1/epsilon3)$まで、サンプルの複雑さが改善され、値ベースの技術とのギャップがほぼ埋められます。
論文 参考訳(メタデータ) (2021-03-24T01:42:59Z) - Is Temporal Difference Learning Optimal? An Instance-Dependent Analysis [102.29671176698373]
我々は、割引決定過程における政策評価の問題に対処し、生成モデルの下で、ll_infty$errorに対するマルコフに依存した保証を提供する。
我々は、ポリシー評価のために、局所ミニマックス下限の両漸近バージョンと非漸近バージョンを確立し、アルゴリズムを比較するためのインスタンス依存ベースラインを提供する。
論文 参考訳(メタデータ) (2020-03-16T17:15:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。