論文の概要: On Convergence and Rate of Convergence of Policy Improvement Algorithms
- arxiv url: http://arxiv.org/abs/2406.10959v2
- Date: Thu, 20 Jun 2024 04:47:42 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-22 01:07:15.361505
- Title: On Convergence and Rate of Convergence of Policy Improvement Algorithms
- Title(参考訳): 政策改善アルゴリズムの収束率と収束率について
- Authors: Jin Ma, Gaozhan Wang, Jianfeng Zhang,
- Abstract要約: 本稿では、連続時間エントロピー規則化制御問題に対する政策改善アルゴリズム(PIA)の収束をスクラッチから証明する。
提案手法はPDEとその微分の解に対するFeynman-Kac型確率表現式に基づいている。
- 参考スコア(独自算出の注目度): 19.742628365680353
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper we provide a simple proof from scratch for the convergence of Policy Improvement Algorithm (PIA) for a continuous time entropy-regularized stochastic control problem. Such convergence has been established by Huang-Wang-Zhou(2023) by using sophisticated PDE estimates for the iterative PDEs involved in the PIA. Our approach builds on some Feynman-Kac type probabilistic representation formulae for solutions of PDEs and their derivatives. Moreover, in the infinite horizon model with a large discount factor and in the finite horizon model, we obtain the exponential rate of convergence with similar arguments. Finally, in the one dimensional setting, we extend the convergence result to the diffusion control case.
- Abstract(参考訳): 本稿では、連続時間エントロピー規則化確率制御問題に対して、政策改善アルゴリズム(PIA)の収束のためのスクラッチからの簡単な証明を提供する。
そのような収束は、PIA に関わる反復 PDE に対する洗練された PDE 推定を用いて、Huang-Wang-Zhou (2023) によって確立されている。
提案手法はPDEとその微分の解に対するFeynman-Kac型確率表現式に基づいている。
さらに、大きな割引係数を持つ無限地平線モデルと有限地平線モデルでは、同様の議論を伴う収束の指数率を得る。
最後に、1次元の設定では、収束結果を拡散制御ケースに拡張する。
関連論文リスト
- A Unified Theory of Stochastic Proximal Point Methods without Smoothness [52.30944052987393]
近点法はその数値的安定性と不完全なチューニングに対する頑健性からかなりの関心を集めている。
本稿では,近位点法(SPPM)の幅広いバリエーションの包括的解析について述べる。
論文 参考訳(メタデータ) (2024-05-24T21:09:19Z) - Plug-and-Play Algorithm Convergence Analysis From The Standpoint of Stochastic Differential Equation [3.7550827441501844]
リプシッツ・デノイザー測度関数は、それ以前のリプシッツ・デノイザー条件よりも、その保証に十分であることを示す。
論文 参考訳(メタデータ) (2024-04-22T04:31:09Z) - Generalization Bounds for Heavy-Tailed SDEs through the Fractional Fokker-Planck Equation [1.8416014644193066]
重み付きSDEに対して、非自明な情報理論項を伴わない高確率境界一般化を証明した。
以上の結果から,重尾は問題構造によって有益か有害かのどちらかである可能性が示唆された。
論文 参考訳(メタデータ) (2024-02-12T15:35:32Z) - Closure Discovery for Coarse-Grained Partial Differential Equations Using Grid-based Reinforcement Learning [2.9611509639584304]
本稿では,グリッドベース強化学習を用いて,未解決PDEにおけるクロージャの同定のための体系的アプローチを提案する。
我々は, 対流方程式とバーガース方程式の数値解を用いて, フレームワークの機能と限界を実証する。
論文 参考訳(メタデータ) (2024-02-01T19:41:04Z) - Model-Based Epistemic Variance of Values for Risk-Aware Policy
Optimization [63.32053223422317]
モデルベース強化学習における累積報酬に対する不確実性を定量化する問題を考察する。
特に、MDP上の分布によって誘導される値の分散を特徴付けることに焦点をあてる。
我々は、解が値の真後分散に収束する新しい不確実性ベルマン方程式(UBE)を提案する。
論文 参考訳(メタデータ) (2023-12-07T15:55:58Z) - Last-Iterate Convergent Policy Gradient Primal-Dual Methods for
Constrained MDPs [107.28031292946774]
無限水平割引マルコフ決定過程(拘束型MDP)の最適ポリシの計算問題について検討する。
我々は, 最適制約付きポリシーに反復的に対応し, 非漸近収束性を持つ2つの単一スケールポリシーに基づく原始双対アルゴリズムを開発した。
我々の知る限り、この研究は制約付きMDPにおける単一時間スケールアルゴリズムの非漸近的な最後の収束結果となる。
論文 参考訳(メタデータ) (2023-06-20T17:27:31Z) - DiffNet: Neural Field Solutions of Parametric Partial Differential
Equations [30.80582606420882]
我々は、ニューラルネットワークをトレーニングし、PDEに対するソリューションのフィールド予測を生成するメッシュベースのアプローチを検討する。
パラメトリック楕円PDE上の有限要素法(FEM)に基づく重み付きガレルキン損失関数を用いる。
PDE に対する有限要素解に展開されたメッシュ収束解析に類似した,理論的に検証し,実験により考察する。
論文 参考訳(メタデータ) (2021-10-04T17:59:18Z) - On the Convergence of Stochastic Extragradient for Bilinear Games with
Restarted Iteration Averaging [96.13485146617322]
本稿では, ステップサイズが一定であるSEG法の解析を行い, 良好な収束をもたらす手法のバリエーションを示す。
平均化で拡張した場合、SEGはナッシュ平衡に確実に収束し、スケジュールされた再起動手順を組み込むことで、その速度が確実に加速されることを証明した。
論文 参考訳(メタデータ) (2021-06-30T17:51:36Z) - A Deep Learning approach to Reduced Order Modelling of Parameter
Dependent Partial Differential Equations [0.2148535041822524]
パラメーター対解写像の効率的な近似法として,Deep Neural Networks に基づく構築的アプローチを開発した。
特に, パラメタライズド・アドベクション拡散PDEについて検討し, 強輸送場の存在下で方法論を検証した。
論文 参考訳(メタデータ) (2021-03-10T17:01:42Z) - Probabilistic Circuits for Variational Inference in Discrete Graphical
Models [101.28528515775842]
変分法による離散的グラフィカルモデルの推論は困難である。
エビデンス・ロウアーバウンド(ELBO)を推定するためのサンプリングに基づく多くの手法が提案されている。
Sum Product Networks (SPN) のような確率的回路モデルのトラクタビリティを活用する新しい手法を提案する。
選択的SPNが表現的変動分布として適していることを示し、対象モデルの対数密度が重み付けされた場合、対応するELBOを解析的に計算可能であることを示す。
論文 参考訳(メタデータ) (2020-10-22T05:04:38Z) - Implicit Distributional Reinforcement Learning [61.166030238490634]
2つのディープジェネレータネットワーク(DGN)上に構築された暗黙の分布型アクター批判(IDAC)
半単純アクター (SIA) は、フレキシブルなポリシー分布を利用する。
我々は,代表的OpenAI Gym環境において,IDACが最先端のアルゴリズムより優れていることを観察する。
論文 参考訳(メタデータ) (2020-07-13T02:52:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。