論文の概要: Global Convergence of Two-timescale Actor-Critic for Solving Linear
Quadratic Regulator
- arxiv url: http://arxiv.org/abs/2208.08744v1
- Date: Thu, 18 Aug 2022 09:57:03 GMT
- ステータス: 処理完了
- システム内更新日: 2022-08-19 13:50:08.989482
- Title: Global Convergence of Two-timescale Actor-Critic for Solving Linear
Quadratic Regulator
- Title(参考訳): 線形二次レギュレータの解法における2時間アクタ臨界のグローバル収束
- Authors: Xuyang Chen, Jingliang Duan, Yingbin Liang, Lin Zhao
- Abstract要約: 我々は、$epsilon$-optimal Solutionへのグローバル収束を確立するための新しい分析フレームワークを開発する。
これは、LQRを大域的最適で解くための単一のサンプル2時間スケールACに対する最初の有限時間収束解析である。
- 参考スコア(独自算出の注目度): 43.13238243240668
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The actor-critic (AC) reinforcement learning algorithms have been the
powerhouse behind many challenging applications. Nevertheless, its convergence
is fragile in general. To study its instability, existing works mostly consider
the uncommon double-loop variant or basic models with finite state and action
space. We investigate the more practical single-sample two-timescale AC for
solving the canonical linear quadratic regulator (LQR) problem, where the actor
and the critic update only once with a single sample in each iteration on an
unbounded continuous state and action space. Existing analysis cannot conclude
the convergence for such a challenging case. We develop a new analysis
framework that allows establishing the global convergence to an
$\epsilon$-optimal solution with at most an
$\tilde{\mathcal{O}}(\epsilon^{-2.5})$ sample complexity. To our knowledge,
this is the first finite-time convergence analysis for the single sample
two-timescale AC for solving LQR with global optimality. The sample complexity
improves those of other variants by orders, which sheds light on the practical
wisdom of single sample algorithms. We also further validate our theoretical
findings via comprehensive simulation comparisons.
- Abstract(参考訳): アクター・クリティカル(AC)強化学習アルゴリズムは、多くの挑戦的な応用の原動力となっている。
しかし、その収束は一般に脆弱である。
その不安定性を研究するために、既存の作品は主に有限状態と作用空間を持つ一般的でない二重ループ変種や基本モデルを考える。
そこで, アクターと批評家は, 連続状態と行動空間の反復ごとに1回ずつのサンプルを更新するだけで, 正準線形二次規制 (LQR) 問題を解決するための, より実用的な単サンプル2時間スケールACについて検討する。
既存の分析はそのような挑戦的なケースの収束を結論付けることはできない。
我々は、少なくとも$\tilde{\mathcal{O}}(\epsilon^{-2.5})$サンプル複雑性を持つ$\epsilon$-optimalソリューションへのグローバル収束を確立することができる新しい分析フレームワークを開発する。
我々の知る限り、これはLQRを大域的最適で解くための単一のサンプル2時間ACに対する最初の有限時間収束解析である。
サンプルの複雑さは、他の変種を順序で改善し、単一のサンプルアルゴリズムの実用的な知識に光を当てる。
また, 総合シミュレーションによる解析結果の検証も行った。
関連論文リスト
- Performative Reinforcement Learning with Linear Markov Decision Process [14.75815792682734]
提案手法がマルコフ決定過程の報酬と遷移の両方に影響を及ぼすような表現的強化学習の設定について検討する。
大規模MDPの主要な理論モデルであるEmphlinear Markov決定過程を一般化する。
論文 参考訳(メタデータ) (2024-11-07T23:04:48Z) - Improved Sample Complexity for Global Convergence of Actor-Critic Algorithms [49.19842488693726]
我々は,O(epsilon-3)$のサンプル複雑性を大幅に改善したアクター・クリティック・アルゴリズムのグローバル収束を確立した。
我々の発見は、一定のステップサイズに依存する多くのアルゴリズムに対する理論的支援を提供する。
論文 参考訳(メタデータ) (2024-10-11T14:46:29Z) - Learning Zero-Sum Linear Quadratic Games with Improved Sample Complexity
and Last-Iterate Convergence [19.779044926914704]
Zero-sum Linear Quadratic (LQ) ゲームは最適制御の基本である。
本研究では,より単純な入れ子ゼロ階法 (NPG) アルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-09-08T11:47:31Z) - Finite-Time Analysis of Fully Decentralized Single-Timescale
Actor-Critic [4.94128206910124]
本稿では,アクタ,批評家,グローバル報酬推定器を交互に更新する,完全に分散化されたアクタ・クリティカル(AC)アルゴリズムを提案する。
このアルゴリズムは,Markovian サンプリングにおいて $tildemathcalO(epsilon-2)$ のサンプル複雑性を持つことを示す。
また、我々のアルゴリズムのローカルアクションプライバシ保護バージョンとその分析も提供する。
論文 参考訳(メタデータ) (2022-06-12T13:14:14Z) - Doubly Robust Off-Policy Actor-Critic: Convergence and Optimality [131.45028999325797]
ディスカウント型MDPのための2倍堅牢なオフポリチックAC(DR-Off-PAC)を開発した。
DR-Off-PACは、俳優と批評家の両方が一定のステップで同時に更新される単一のタイムスケール構造を採用しています。
有限時間収束速度を研究し, dr-off-pac のサンプル複雑性を特徴とし, $epsilon$-accurate optimal policy を得る。
論文 参考訳(メタデータ) (2021-02-23T18:56:13Z) - Single-Timescale Stochastic Nonconvex-Concave Optimization for Smooth
Nonlinear TD Learning [145.54544979467872]
本稿では,各ステップごとに1つのデータポイントしか必要としない2つの単一スケールシングルループアルゴリズムを提案する。
本研究の結果は, 同時一次および二重側収束の形で表される。
論文 参考訳(メタデータ) (2020-08-23T20:36:49Z) - Non-asymptotic Convergence Analysis of Two Time-scale (Natural)
Actor-Critic Algorithms [58.57004511121862]
アクタークリティカル(AC)とナチュラルアクタークリティカル(NAC)のアルゴリズムは、最適なポリシーを見つけるために2つの方法で実行されることが多い。
2つの時間スケールACは、$mathcalO(epsilon-2.5log3(epsilon-1))$で、$epsilon$-accurateの定常点に達するために、全体のサンプルの複雑さを必要とすることを示す。
我々は,動的にマルコフサンプリングが変化するため,アクターのバイアス誤差をバウンドする新しい手法を開発した。
論文 参考訳(メタデータ) (2020-05-07T15:42:31Z) - Improving Sample Complexity Bounds for (Natural) Actor-Critic Algorithms [58.57004511121862]
本稿では, マルコフサンプリングにおけるACおよびNACの収束速度とサンプリング複雑性を特徴付ける。
本稿では,ACとNACがPGおよびNPGに対して,批判の組み合わさりにより,無限の地平線下での順に性能改善を実現していることを示す。
論文 参考訳(メタデータ) (2020-04-27T17:11:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。