論文の概要: On Convergence and Rate of Convergence of Policy Improvement Algorithms
- arxiv url: http://arxiv.org/abs/2406.10959v2
- Date: Thu, 20 Jun 2024 04:47:42 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-22 01:07:15.361505
- Title: On Convergence and Rate of Convergence of Policy Improvement Algorithms
- Title(参考訳): 政策改善アルゴリズムの収束率と収束率について
- Authors: Jin Ma, Gaozhan Wang, Jianfeng Zhang,
- Abstract要約: 本稿では、連続時間エントロピー規則化制御問題に対する政策改善アルゴリズム(PIA)の収束をスクラッチから証明する。
提案手法はPDEとその微分の解に対するFeynman-Kac型確率表現式に基づいている。
- 参考スコア(独自算出の注目度): 19.742628365680353
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper we provide a simple proof from scratch for the convergence of Policy Improvement Algorithm (PIA) for a continuous time entropy-regularized stochastic control problem. Such convergence has been established by Huang-Wang-Zhou(2023) by using sophisticated PDE estimates for the iterative PDEs involved in the PIA. Our approach builds on some Feynman-Kac type probabilistic representation formulae for solutions of PDEs and their derivatives. Moreover, in the infinite horizon model with a large discount factor and in the finite horizon model, we obtain the exponential rate of convergence with similar arguments. Finally, in the one dimensional setting, we extend the convergence result to the diffusion control case.
- Abstract(参考訳): 本稿では、連続時間エントロピー規則化確率制御問題に対して、政策改善アルゴリズム(PIA)の収束のためのスクラッチからの簡単な証明を提供する。
そのような収束は、PIA に関わる反復 PDE に対する洗練された PDE 推定を用いて、Huang-Wang-Zhou (2023) によって確立されている。
提案手法はPDEとその微分の解に対するFeynman-Kac型確率表現式に基づいている。
さらに、大きな割引係数を持つ無限地平線モデルと有限地平線モデルでは、同様の議論を伴う収束の指数率を得る。
最後に、1次元の設定では、収束結果を拡散制御ケースに拡張する。
関連論文リスト
- Beyond Derivative Pathology of PINNs: Variable Splitting Strategy with Convergence Analysis [6.468495781611434]
物理インフォームドニューラルネットワーク(PINN)は、様々な問題において偏微分方程式(PDE)を解く効果的な方法として登場した。
本研究では,PINNが前提が無効であるという根本的な問題に直面していることを証明する。
本稿では,解の勾配を補助変数としてパラメータ化することで,この問題に対処するテキスト可変分割戦略を提案する。
論文 参考訳(メタデータ) (2024-09-30T15:20:10Z) - Last-Iterate Global Convergence of Policy Gradients for Constrained Reinforcement Learning [62.81324245896717]
我々はC-PGと呼ばれる探索非依存のアルゴリズムを導入し、このアルゴリズムは(弱)勾配支配仮定の下でのグローバルな最終点収束を保証する。
制約付き制御問題に対して,我々のアルゴリズムを数値的に検証し,それらを最先端のベースラインと比較する。
論文 参考訳(メタデータ) (2024-07-15T14:54:57Z) - A Unified Theory of Stochastic Proximal Point Methods without Smoothness [52.30944052987393]
近点法はその数値的安定性と不完全なチューニングに対する頑健性からかなりの関心を集めている。
本稿では,近位点法(SPPM)の幅広いバリエーションの包括的解析について述べる。
論文 参考訳(メタデータ) (2024-05-24T21:09:19Z) - Generalization Bounds for Heavy-Tailed SDEs through the Fractional Fokker-Planck Equation [1.8416014644193066]
重み付きSDEに対して、非自明な情報理論項を伴わない高確率境界一般化を証明した。
以上の結果から,重尾は問題構造によって有益か有害かのどちらかである可能性が示唆された。
論文 参考訳(メタデータ) (2024-02-12T15:35:32Z) - Model-Based Epistemic Variance of Values for Risk-Aware Policy Optimization [59.758009422067]
モデルベース強化学習における累積報酬に対する不確実性を定量化する問題を考察する。
我々は、解が値の真後分散に収束する新しい不確実性ベルマン方程式(UBE)を提案する。
本稿では,リスク・サーキングとリスク・アバース・ポリシー最適化のいずれにも適用可能な汎用ポリシー最適化アルゴリズムQ-Uncertainty Soft Actor-Critic (QU-SAC)を導入する。
論文 参考訳(メタデータ) (2023-12-07T15:55:58Z) - A PDE approach for regret bounds under partial monitoring [8.277466108000203]
予測器が部分的な情報を観測する学習問題について検討する。
本研究では, 適切なスムーズなサブ/スーパーサーボ解を求めることで, 後悔境界と効率的なアルゴリズムを得るという課題に取り組むことができることを示す。
論文 参考訳(メタデータ) (2022-09-02T20:04:30Z) - DiffNet: Neural Field Solutions of Parametric Partial Differential
Equations [30.80582606420882]
我々は、ニューラルネットワークをトレーニングし、PDEに対するソリューションのフィールド予測を生成するメッシュベースのアプローチを検討する。
パラメトリック楕円PDE上の有限要素法(FEM)に基づく重み付きガレルキン損失関数を用いる。
PDE に対する有限要素解に展開されたメッシュ収束解析に類似した,理論的に検証し,実験により考察する。
論文 参考訳(メタデータ) (2021-10-04T17:59:18Z) - A general sample complexity analysis of vanilla policy gradient [101.16957584135767]
政策勾配(PG)は、最も一般的な強化学習(RL)問題の1つである。
PG軌道の「バニラ」理論的理解は、RL問題を解く最も一般的な方法の1つである。
論文 参考訳(メタデータ) (2021-07-23T19:38:17Z) - Nonparametric estimation of continuous DPPs with kernel methods [0.0]
パラメトリックおよび非パラメトリック推論法は、有限の場合、すなわち、点パターンが有限の基底集合に存在する場合において提案されている。
我々は、この最大可能性(MLE)問題の制限バージョンが、RKHSにおける非負関数に対する最近の表現定理の範囲内にあることを示す。
この有限次元問題を解くための固定点アルゴリズムを提案し,解析し,実証する。
論文 参考訳(メタデータ) (2021-06-27T11:57:14Z) - Stein Variational Model Predictive Control [130.60527864489168]
不確実性の下での意思決定は、現実の自律システムにとって極めて重要である。
モデル予測制御 (MPC) 法は, 複雑な分布を扱う場合, 適用範囲が限られている。
この枠組みが、挑戦的で非最適な制御問題における計画の成功に繋がることを示す。
論文 参考訳(メタデータ) (2020-11-15T22:36:59Z) - Implicit Distributional Reinforcement Learning [61.166030238490634]
2つのディープジェネレータネットワーク(DGN)上に構築された暗黙の分布型アクター批判(IDAC)
半単純アクター (SIA) は、フレキシブルなポリシー分布を利用する。
我々は,代表的OpenAI Gym環境において,IDACが最先端のアルゴリズムより優れていることを観察する。
論文 参考訳(メタデータ) (2020-07-13T02:52:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。