論文の概要: A Finite Time Analysis of Two Time-Scale Actor Critic Methods
- arxiv url: http://arxiv.org/abs/2005.01350v3
- Date: Mon, 10 Oct 2022 06:43:56 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-07 00:30:50.149160
- Title: A Finite Time Analysis of Two Time-Scale Actor Critic Methods
- Title(参考訳): 2つの時間スケール俳優批判法の有限時間解析
- Authors: Yue Wu and Weitong Zhang and Pan Xu and Quanquan Gu
- Abstract要約: 我々は,2つの時間スケールのアクター批判的手法に対する非漸近的解析を行う。
本研究では,アクター批判法が一階定常点を見つけることが保証されていることを証明した。
有限時間解析とサンプルの複雑さを2つの時間スケールアクター批判的手法に限定した最初の作品である。
- 参考スコア(独自算出の注目度): 87.69128666220016
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Actor-critic (AC) methods have exhibited great empirical success compared
with other reinforcement learning algorithms, where the actor uses the policy
gradient to improve the learning policy and the critic uses temporal difference
learning to estimate the policy gradient. Under the two time-scale learning
rate schedule, the asymptotic convergence of AC has been well studied in the
literature. However, the non-asymptotic convergence and finite sample
complexity of actor-critic methods are largely open. In this work, we provide a
non-asymptotic analysis for two time-scale actor-critic methods under
non-i.i.d. setting. We prove that the actor-critic method is guaranteed to find
a first-order stationary point (i.e., $\|\nabla J(\boldsymbol{\theta})\|_2^2
\le \epsilon$) of the non-concave performance function
$J(\boldsymbol{\theta})$, with $\mathcal{\tilde{O}}(\epsilon^{-2.5})$ sample
complexity. To the best of our knowledge, this is the first work providing
finite-time analysis and sample complexity bound for two time-scale
actor-critic methods.
- Abstract(参考訳): アクター・クリティカル(AC)法は、他の強化学習アルゴリズムと比較して、学習方針を改善するためにアクターがポリシー勾配を用いており、批評家は時間差学習を用いて政策勾配を推定する。
2つの時間スケール学習率スケジュールの下では、交流の漸近収束が文献でよく研究されている。
しかし、非漸近収束とアクター-批判法の有限サンプル複雑性は概ねオープンである。
本研究は,2つの時間スケールのアクター・クリティカルな手法に対する非漸近解析を行う。
アクター-クリティック法は、非コンケーブ性能関数 $j(\boldsymbol{\theta})$ の第一次定常点(すなわち、$\|\nabla j(\boldsymbol{\theta})\|_2^2 \le \epsilon$) を、$\mathcal{\tilde{o}}(\epsilon^{-2.5})$ で求めることが保証されている。
我々の知る限りでは、これは2つの時間スケールアクター批判的手法に限定した有限時間解析とサンプル複雑性を提供する最初の作品である。
関連論文リスト
- Improved Sample Complexity for Global Convergence of Actor-Critic Algorithms [49.19842488693726]
我々は,O(epsilon-3)$のサンプル複雑性を大幅に改善したアクター・クリティック・アルゴリズムのグローバル収束を確立した。
我々の発見は、一定のステップサイズに依存する多くのアルゴリズムに対する理論的支援を提供する。
論文 参考訳(メタデータ) (2024-10-11T14:46:29Z) - Non-Asymptotic Analysis for Single-Loop (Natural) Actor-Critic with Compatible Function Approximation [18.77565744533582]
アクタークリティカル (AC) は、強化学習において最適な政策を学ぶための強力な方法である。
AC は $epsilon +varepsilon_textcritic$ 定常点の近傍に収束する。
本稿では,ACアルゴリズムとNACアルゴリズムのコンバージェンスを,相反する関数近似を用いて解析する。
論文 参考訳(メタデータ) (2024-06-03T20:05:04Z) - Two-Timescale Critic-Actor for Average Reward MDPs with Function Approximation [5.945710235932345]
本稿では,長期平均報酬設定における関数近似を用いた最初の2段階の批評家・アクターアルゴリズムを提案する。
我々の分析の特筆すべき特徴は、最近のシングルタイムスケールアクター批判アルゴリズムとは異なり、我々のスキームの完全な収束解析を提示することである。
論文 参考訳(メタデータ) (2024-02-02T12:48:49Z) - Finite-time analysis of single-timescale actor-critic [8.994243376183658]
アクター批判法は多くの挑戦的なアプリケーションで大きな成功を収めた。
有限時間収束は、最も実践的な単一時間スケールの形ではまだ理解されていない。
より実用的なオンラインシングルタイム・アクター・クリティカル・アルゴリズムを連続状態空間上で検討する。
論文 参考訳(メタデータ) (2022-10-18T15:03:56Z) - Actor-Critic or Critic-Actor? A Tale of Two Time Scales [5.945710235932345]
収束の証明を提供し、この2つを関数近似および無関数近似と経験的に比較する。
提案アルゴリズムは,精度と計算労力の両面で,アクタ・アクタに匹敵する性能を示す。
論文 参考訳(メタデータ) (2022-10-10T07:47:56Z) - A Deeper Look at Discounting Mismatch in Actor-Critic Algorithms [81.01917016753644]
本稿では,表現学習の観点からアクタ・クリティカルなアルゴリズムの実装における割引ミスマッチについて検討する。
理論的には、アクター批判アルゴリズムは通常、アクターと批評家の両方に対して割引される。
しかし、専門家は通常、ディスカウントされた批評家を使用しながら、俳優の割引(ガンマt$)を無視する。
論文 参考訳(メタデータ) (2020-10-02T15:51:48Z) - Finite-Time Analysis for Double Q-learning [50.50058000948908]
二重Q-ラーニングのための非漸近的有限時間解析を初めて提供する。
同期と非同期の二重Q-ラーニングの両方が,グローバル最適化の$epsilon$-accurate近辺に収束することが保証されていることを示す。
論文 参考訳(メタデータ) (2020-09-29T18:48:21Z) - Single-Timescale Actor-Critic Provably Finds Globally Optimal Policy [122.01837436087516]
我々は、強化学習アルゴリズムの最も一般的なファミリーの一つであるアクター批判のグローバル収束とグローバル最適性について研究する。
線形関数近似を用いたシングルタイムスケールアクター批評家の収束率と大域的最適性を確立した。
論文 参考訳(メタデータ) (2020-08-02T14:01:49Z) - Non-asymptotic Convergence Analysis of Two Time-scale (Natural)
Actor-Critic Algorithms [58.57004511121862]
アクタークリティカル(AC)とナチュラルアクタークリティカル(NAC)のアルゴリズムは、最適なポリシーを見つけるために2つの方法で実行されることが多い。
2つの時間スケールACは、$mathcalO(epsilon-2.5log3(epsilon-1))$で、$epsilon$-accurateの定常点に達するために、全体のサンプルの複雑さを必要とすることを示す。
我々は,動的にマルコフサンプリングが変化するため,アクターのバイアス誤差をバウンドする新しい手法を開発した。
論文 参考訳(メタデータ) (2020-05-07T15:42:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。