Fugu-MT 論文翻訳(概要): On Convergence and Rate of Convergence of Policy Improvement Algorithms

論文の概要: On Convergence and Rate of Convergence of Policy Improvement Algorithms

arxiv url: http://arxiv.org/abs/2406.10959v2
Date: Thu, 20 Jun 2024 04:47:42 GMT
ステータス: 翻訳完了
システム内更新日: 2024-06-22 01:07:15.361505
Title: On Convergence and Rate of Convergence of Policy Improvement Algorithms
Title（参考訳）: 政策改善アルゴリズムの収束率と収束率について
Authors: Jin Ma, Gaozhan Wang, Jianfeng Zhang,
Abstract要約: 本稿では、連続時間エントロピー規則化制御問題に対する政策改善アルゴリズム(PIA)の収束をスクラッチから証明する。提案手法はPDEとその微分の解に対するFeynman-Kac型確率表現式に基づいている。
参考スコア（独自算出の注目度）: 19.742628365680353
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: In this paper we provide a simple proof from scratch for the convergence of Policy Improvement Algorithm (PIA) for a continuous time entropy-regularized stochastic control problem. Such convergence has been established by Huang-Wang-Zhou(2023) by using sophisticated PDE estimates for the iterative PDEs involved in the PIA. Our approach builds on some Feynman-Kac type probabilistic representation formulae for solutions of PDEs and their derivatives. Moreover, in the infinite horizon model with a large discount factor and in the finite horizon model, we obtain the exponential rate of convergence with similar arguments. Finally, in the one dimensional setting, we extend the convergence result to the diffusion control case.
Abstract（参考訳）: 本稿では、連続時間エントロピー規則化確率制御問題に対して、政策改善アルゴリズム(PIA)の収束のためのスクラッチからの簡単な証明を提供する。そのような収束は、PIA に関わる反復 PDE に対する洗練された PDE 推定を用いて、Huang-Wang-Zhou (2023) によって確立されている。提案手法はPDEとその微分の解に対するFeynman-Kac型確率表現式に基づいている。さらに、大きな割引係数を持つ無限地平線モデルと有限地平線モデルでは、同様の議論を伴う収束の指数率を得る。最後に、1次元の設定では、収束結果を拡散制御ケースに拡張する。

関連論文リスト

Guided Diffusion Sampling on Function Spaces with Applications to PDEs [111.87523128566781]
PDEに基づく逆問題における条件付きサンプリングのための一般的なフレームワークを提案する。これは、関数空間拡散モデルと条件付けのためのプラグアンドプレイガイダンスによって達成される。提案手法は,最先端の固定解像度拡散ベースラインに対して平均32%の精度向上を実現する。
論文参考訳（メタデータ） (2025-05-22T17:58:12Z)
Entropic Mirror Descent for Linear Systems: Polyak's Stepsize and Implicit Bias [55.72269695392027]
本稿では,線形系を解くためにエントロピックミラー降下を適用することに焦点を当てる。収束解析の主な課題は、領域の非有界性に起因する。制限的な仮定を課さずにこれを克服するために、Polyak型階段の変種を導入する。
論文参考訳（メタデータ） (2025-05-05T12:33:18Z)
Convergence of Score-Based Discrete Diffusion Models: A Discrete-Time Analysis [56.442307356162864]
連続時間マルコフ連鎖(CTMC)に基づくスコアベース離散拡散モデルの理論的側面について検討する。本稿では,事前定義された時間点におけるスコア推定値を利用する離散時間サンプリングアルゴリズムを一般状態空間$[S]d$に導入する。我々の収束解析はジルサノフ法を用いて離散スコア関数の重要な性質を確立する。
論文参考訳（メタデータ） (2024-10-03T09:07:13Z)
Beyond Derivative Pathology of PINNs: Variable Splitting Strategy with Convergence Analysis [6.468495781611434]
物理インフォームドニューラルネットワーク(PINN)は、様々な問題において偏微分方程式(PDE)を解く効果的な方法として登場した。本研究では,PINNが前提が無効であるという根本的な問題に直面していることを証明する。本稿では,解の勾配を補助変数としてパラメータ化することで,この問題に対処するテキスト可変分割戦略を提案する。
論文参考訳（メタデータ） (2024-09-30T15:20:10Z)
Last-Iterate Global Convergence of Policy Gradients for Constrained Reinforcement Learning [62.81324245896717]
我々はC-PGと呼ばれる探索非依存のアルゴリズムを導入し、このアルゴリズムは(弱)勾配支配仮定の下でのグローバルな最終点収束を保証する。制約付き制御問題に対して,我々のアルゴリズムを数値的に検証し,それらを最先端のベースラインと比較する。
論文参考訳（メタデータ） (2024-07-15T14:54:57Z)
A Unified Theory of Stochastic Proximal Point Methods without Smoothness [52.30944052987393]
近点法はその数値的安定性と不完全なチューニングに対する頑健性からかなりの関心を集めている。本稿では,近位点法(SPPM)の幅広いバリエーションの包括的解析について述べる。
論文参考訳（メタデータ） (2024-05-24T21:09:19Z)
Plug-and-Play Algorithm Convergence Analysis From The Standpoint of Stochastic Differential Equation [3.7550827441501844]
リプシッツ・デノイザー測度関数は、それ以前のリプシッツ・デノイザー条件よりも、その保証に十分であることを示す。
論文参考訳（メタデータ） (2024-04-22T04:31:09Z)
Generalization Bounds for Heavy-Tailed SDEs through the Fractional Fokker-Planck Equation [1.8416014644193066]
重み付きSDEに対して、非自明な情報理論項を伴わない高確率境界一般化を証明した。以上の結果から,重尾は問題構造によって有益か有害かのどちらかである可能性が示唆された。
論文参考訳（メタデータ） (2024-02-12T15:35:32Z)
FastPart: Over-Parameterized Stochastic Gradient Descent for Sparse optimisation on Measures [1.9950682531209156]
本稿では,コニックパーティクルグラディエントDescent(CPGD)のスケーラビリティを高めるために,ランダム特徴と協調してグラディエントDescent戦略を利用する新しいアルゴリズムを提案する。 i) 降下軌道に沿った解の総変動規範は、安定を保ち、望ましくないばらつきを防止し、 (ii) 収率$mathcalO(log(K)/sqrtK)$$$K以上の大域収束保証を確立し、アルゴリズムの効率と有効性を示す; (iii) さらに、分析と確立を行う。
論文参考訳（メタデータ） (2023-12-10T20:41:43Z)
Model-Based Epistemic Variance of Values for Risk-Aware Policy Optimization [59.758009422067]
モデルベース強化学習における累積報酬に対する不確実性を定量化する問題を考察する。我々は、解が値の真後分散に収束する新しい不確実性ベルマン方程式(UBE)を提案する。本稿では,リスク・サーキングとリスク・アバース・ポリシー最適化のいずれにも適用可能な汎用ポリシー最適化アルゴリズムQ-Uncertainty Soft Actor-Critic (QU-SAC)を導入する。
論文参考訳（メタデータ） (2023-12-07T15:55:58Z)
A PDE approach for regret bounds under partial monitoring [8.277466108000203]
予測器が部分的な情報を観測する学習問題について検討する。本研究では, 適切なスムーズなサブ/スーパーサーボ解を求めることで, 後悔境界と効率的なアルゴリズムを得るという課題に取り組むことができることを示す。
論文参考訳（メタデータ） (2022-09-02T20:04:30Z)
Optimal variance-reduced stochastic approximation in Banach spaces [114.8734960258221]
可分バナッハ空間上で定義された収縮作用素の定点を推定する問題について検討する。演算子欠陥と推定誤差の両方に対して漸近的でない境界を確立する。
論文参考訳（メタデータ） (2022-01-21T02:46:57Z)
Nonconvex Stochastic Scaled-Gradient Descent and Generalized Eigenvector Problems [98.34292831923335]
オンライン相関解析の問題から,emphStochastic Scaled-Gradient Descent (SSD)アルゴリズムを提案する。我々はこれらのアイデアをオンライン相関解析に適用し、局所収束率を正規性に比例した最適な1時間スケールのアルゴリズムを初めて導いた。
論文参考訳（メタデータ） (2021-12-29T18:46:52Z)
Faster Algorithm and Sharper Analysis for Constrained Markov Decision Process [56.55075925645864]
制約付き意思決定プロセス (CMDP) の問題点について検討し, エージェントは, 複数の制約を条件として, 期待される累積割引報酬を最大化することを目的とする。新しいユーティリティ・デュアル凸法は、正規化ポリシー、双対正則化、ネステロフの勾配降下双対という3つの要素の新たな統合によって提案される。これは、凸制約を受ける全ての複雑性最適化に対して、非凸CMDP問題が$mathcal O (1/epsilon)$の低い境界に達する最初の実演である。
論文参考訳（メタデータ） (2021-10-20T02:57:21Z)
A Dual Approach to Constrained Markov Decision Processes with Entropy Regularization [7.483040617090451]
本研究では,ソフトマックスパラメータ化の下で,エントロピー規則化制約付きマルコフ決定過程(CMDP)について検討する。我々の理論的解析は、ラグランジアン双対函数は滑らかであり、ラグランジアン双対性ギャップは原始性ギャップと制約違反に分解できることを示している。
論文参考訳（メタデータ） (2021-10-17T21:26:40Z)
DiffNet: Neural Field Solutions of Parametric Partial Differential Equations [30.80582606420882]
我々は、ニューラルネットワークをトレーニングし、PDEに対するソリューションのフィールド予測を生成するメッシュベースのアプローチを検討する。パラメトリック楕円PDE上の有限要素法(FEM)に基づく重み付きガレルキン損失関数を用いる。 PDE に対する有限要素解に展開されたメッシュ収束解析に類似した,理論的に検証し,実験により考察する。
論文参考訳（メタデータ） (2021-10-04T17:59:18Z)
A general sample complexity analysis of vanilla policy gradient [101.16957584135767]
政策勾配(PG)は、最も一般的な強化学習(RL)問題の1つである。 PG軌道の「バニラ」理論的理解は、RL問題を解く最も一般的な方法の1つである。
論文参考訳（メタデータ） (2021-07-23T19:38:17Z)
Nonparametric estimation of continuous DPPs with kernel methods [0.0]
パラメトリックおよび非パラメトリック推論法は、有限の場合、すなわち、点パターンが有限の基底集合に存在する場合において提案されている。我々は、この最大可能性(MLE)問題の制限バージョンが、RKHSにおける非負関数に対する最近の表現定理の範囲内にあることを示す。この有限次元問題を解くための固定点アルゴリズムを提案し,解析し,実証する。
論文参考訳（メタデータ） (2021-06-27T11:57:14Z)
Stein Variational Model Predictive Control [130.60527864489168]
不確実性の下での意思決定は、現実の自律システムにとって極めて重要である。モデル予測制御 (MPC) 法は, 複雑な分布を扱う場合, 適用範囲が限られている。この枠組みが、挑戦的で非最適な制御問題における計画の成功に繋がることを示す。
論文参考訳（メタデータ） (2020-11-15T22:36:59Z)
Implicit Distributional Reinforcement Learning [61.166030238490634]
2つのディープジェネレータネットワーク(DGN)上に構築された暗黙の分布型アクター批判(IDAC) 半単純アクター (SIA) は、フレキシブルなポリシー分布を利用する。我々は,代表的OpenAI Gym環境において,IDACが最先端のアルゴリズムより優れていることを観察する。
論文参考訳（メタデータ） (2020-07-13T02:52:18Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。