Fugu-MT 論文翻訳(概要): A Policy Gradient Framework for Stochastic Optimal Control Problems with Global Convergence Guarantee

論文の概要: A Policy Gradient Framework for Stochastic Optimal Control Problems with Global Convergence Guarantee

arxiv url: http://arxiv.org/abs/2302.05816v2
Date: Sat, 22 Apr 2023 17:22:47 GMT
ステータス: 翻訳完了
システム内更新日: 2023-04-25 21:08:00.482996
Title: A Policy Gradient Framework for Stochastic Optimal Control Problems with Global Convergence Guarantee
Title（参考訳）: グローバル収束保証を伴う確率的最適制御問題に対するポリシー勾配フレームワーク
Authors: Mo Zhou, Jianfeng Lu
Abstract要約: 最適制御問題に対するポリシー勾配法を連続的に検討する。勾配流のグローバル収束を証明し、一定の正則性仮定の下で収束率を確立する。
参考スコア（独自算出の注目度）: 12.884132885360907
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: We consider policy gradient methods for stochastic optimal control problem in continuous time. In particular, we analyze the gradient flow for the control, viewed as a continuous time limit of the policy gradient method. We prove the global convergence of the gradient flow and establish a convergence rate under some regularity assumptions. The main novelty in the analysis is the notion of local optimal control function, which is introduced to characterize the local optimality of the iterate.
Abstract（参考訳）: 確率的最適制御問題に対するポリシー勾配法を連続的に検討する。特に, 方針勾配法の連続時間限界として, 制御のための勾配流れを解析した。勾配流のグローバル収束を証明し、一定の正則性仮定の下で収束率を確立する。解析における主な新規性は局所最適制御関数の概念であり、イテレートの局所最適性を特徴付けるために導入された。

関連論文リスト

Continuous Policy and Value Iteration for Stochastic Control Problems and Its Convergence [8.65436459753278]
本稿では,制御問題の値関数と最適制御の近似をLangevin型力学を用いて同時に更新する連続ポリシー反復アルゴリズムを提案する。
論文参考訳（メタデータ） (2025-06-09T18:20:21Z)
Learning Deterministic Policies with Policy Gradients in Constrained Markov Decision Processes [59.27926064817273]
我々はC-PGと呼ばれる探索非依存のアルゴリズムを導入し,支配的仮定の下でのグローバルな最終点収束保証を享受する。制約制御タスクにおいて,アクションベース(C-PGAE)とパラメータベース(C-PGPE)の両方を実証的に検証する。
論文参考訳（メタデータ） (2025-06-06T10:29:05Z)
Small steps no more: Global convergence of stochastic gradient bandits for arbitrary learning rates [61.091122503406304]
勾配帯域幅アルゴリズムは, 経験的定値学習率を用いて, ほぼ確実にグローバルな最適ポリシーに収束することを示す。この結果は、標準の滑らかさと騒音制御の仮定が崩壊するシナリオにおいても、勾配アルゴリズムが適切な探索と利用のバランスを保ち続けていることを証明している。
論文参考訳（メタデータ） (2025-02-11T00:12:04Z)
Deterministic Policy Gradient Primal-Dual Methods for Continuous-Space Constrained MDPs [82.34567890576423]
我々は,非漸近収束を伴う最適決定主義政策を求めるための決定主義的政策勾配原始双対法を開発した。 D-PGPDの一次-双対反復は、最適正則化原始-双対にサブ線形速度で収束することが証明された。我々の知る限り、これは連続空間制約型MDPに対する決定論的ポリシー探索法を提案する最初の研究であると思われる。
論文参考訳（メタデータ） (2024-08-19T14:11:04Z)
Full error analysis of policy gradient learning algorithms for exploratory linear quadratic mean-field control problem in continuous time with common noise [0.0]
政策勾配学習(PG)について検討し,まずモデルベース環境での収束を実証する。モデルフリー環境では,2点勾配推定を用いたPGアルゴリズムの線形収束とサンプル複雑性を大域的に証明する。この設定では、パラメータ化された最適ポリシーは、状態と人口分布のサンプルから学習される。
論文参考訳（メタデータ） (2024-08-05T14:11:51Z)
Last-Iterate Global Convergence of Policy Gradients for Constrained Reinforcement Learning [62.81324245896717]
我々はC-PGと呼ばれる探索非依存のアルゴリズムを導入し、このアルゴリズムは(弱)勾配支配仮定の下でのグローバルな最終点収束を保証する。制約付き制御問題に対して,我々のアルゴリズムを数値的に検証し,それらを最先端のベースラインと比較する。
論文参考訳（メタデータ） (2024-07-15T14:54:57Z)
Learning Optimal Deterministic Policies with Stochastic Policy Gradients [62.81324245896716]
政策勾配法(PG法)は連続強化学習(RL法)問題に対処する手法として成功している。一般的には、収束(ハイパー)政治は、決定論的バージョンをデプロイするためにのみ学習される。本稿では,サンプルの複雑性とデプロイされた決定論的ポリシのパフォーマンスのトレードオフを最適化するために,学習に使用する探索レベルの調整方法を示す。
論文参考訳（メタデータ） (2024-05-03T16:45:15Z)
Local Optimization Achieves Global Optimality in Multi-Agent Reinforcement Learning [139.53668999720605]
本稿では,各エージェントのローカルポリシーをバニラPPOと同様に更新するマルチエージェントPPOアルゴリズムを提案する。マルコフゲームにおける標準正則条件と問題依存量により、我々のアルゴリズムはサブリニアレートで大域的最適ポリシーに収束することを示す。
論文参考訳（メタデータ） (2023-05-08T16:20:03Z)
Linear convergence of a policy gradient method for finite horizon continuous time stochastic control problems [3.7971225066055765]
本稿では,一般連続時空制御問題に対する確率収束勾配法を提案する。アルゴリズムは制御点に線形に収束し、ステップごとのポリシーに対して安定であることを示す。
論文参考訳（メタデータ） (2022-03-22T14:17:53Z)
Convergence and Optimality of Policy Gradient Methods in Weakly Smooth Settings [17.437408088239142]
我々は不透明な条件に頼らずに政策勾配法の明確な収束率を確立する。また, ニアリニアMDPのエルゴディディディティに対する十分条件を特徴付ける。収束政策の最適性に関する条件と分析を提供する。
論文参考訳（メタデータ） (2021-10-30T06:31:01Z)
On the Convergence of Stochastic Extragradient for Bilinear Games with Restarted Iteration Averaging [96.13485146617322]
本稿では, ステップサイズが一定であるSEG法の解析を行い, 良好な収束をもたらす手法のバリエーションを示す。平均化で拡張した場合、SEGはナッシュ平衡に確実に収束し、スケジュールされた再起動手順を組み込むことで、その速度が確実に加速されることを証明した。
論文参考訳（メタデータ） (2021-06-30T17:51:36Z)
Improper Learning with Gradient-based Policy Optimization [62.50997487685586]
未知のマルコフ決定過程に対して学習者がmベースコントローラを与えられる不適切な強化学習設定を考える。制御器の不適切な混合のクラス上で動作する勾配に基づくアプローチを提案する。
論文参考訳（メタデータ） (2021-02-16T14:53:55Z)
Policy Optimization for Markovian Jump Linear Quadratic Control: Gradient-Based Methods and Global Convergence [3.3343656101775365]
3種類のポリシー最適化手法が勾配でMJLSの最適状態コントローラに収束していることを示します。コントローラーでは、ジャンプジャンプジャンプジャンプジャンプジャンプジャンプジャンプジャンプジャンプジャンプジャンプジャンプジャンプジャンプジャンプジャンプジャンプジャンプジャンプジャンプジャンプジャンプジャンプジャンプジャンプジャンプジャンプジャンプジャンプジャンプジャンプジャンプジャンプジャンプジャンプジャンプジャンプジャンプジャンプジャンプジャンプジャンプジャンプジャンプジャンプジャンプジャンプジャンプジャンプジャンプジャンプジャンプジャンプジャンプジャンプジャンプジャンプジャンプジャンプジャンプジャンプジャンプジャンプジャンプジャンプジャンプジャンプジャンプジャンプジャンプジャンプジャンプジャンプジャンプジャンプジャンプジャンプジャンプジャンプジャンプジャンプジャンプジャンプジャンプジャンプジャンプジャンプジャンプジャンプジャンプジャンプジャンプジャンプジャンプジャンプジャンプジャンプジャンプジャンプジャンプジャンプジャンプジャンプジャンプジャンプジャンプジャンプジャンプジャンプジャンプジャンプジャンプジャンプジャンプジャンプジャンプジャンプジャンプジャンプジャンプジャンプジャンプジャンプジャンプジャンプジャンプジャンプジャンプジャンプジャンプジャンプジャンプジャンプジャンプジャンプジャンプジャンプジャンプジャンプジャンプジャンプジャンプジャンプジャンプジャンプジャンプジャンプジャンプジャンプジャンプジャンプジャンプジャンプジャンプジャンプジャンプジャンプジャンプジャンプジャンプジャンプジャンプジャンプジャンプジャンプジャンプジャンプジャンプジャンプジャンプジャンプジャンプジャンプジャンプジャンプジャンプジャンプ
論文参考訳（メタデータ） (2020-11-24T02:39:38Z)
Convergence Guarantees of Policy Optimization Methods for Markovian Jump Linear Systems [3.3343656101775365]
ガウスニュートン法は, 閉ループ力学を平均的に安定化させる制御器において, 線形速度で MJLS の最適状態フィードバック制御器に収束することを示す。我々の理論を支持する一例を示す。
論文参考訳（メタデータ） (2020-02-10T21:13:42Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。