論文の概要: Finite-time analysis of single-timescale actor-critic
- arxiv url: http://arxiv.org/abs/2210.09921v1
- Date: Tue, 18 Oct 2022 15:03:56 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-19 14:13:19.320243
- Title: Finite-time analysis of single-timescale actor-critic
- Title(参考訳): シングルタイムスケールアクター批判の有限時間解析
- Authors: Xuyang Chen, Lin Zhao
- Abstract要約: 本研究では,アクターと批評家の誤り伝達を体系的に評価し,制御する新しい枠組みを開発する。
これはオンライン・シングル・タイムスケール・アクター・クリティカル法における最初の有限時間解析である。
- 参考スコア(独自算出の注目度): 8.736517209312199
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Despite the great empirical success of actor-critic methods, its finite-time
convergence is still poorly understood in its most practical form. In
particular, the analysis of single-timescale actor-critic presents significant
challenges due to the highly inaccurate critic estimation and the complex error
propagation dynamics over iterations. Existing works on analyzing
single-timescale actor-critic only focus on the i.i.d. sampling or tabular
setting for simplicity, which is rarely the case in practical applications. We
consider the more practical online single-timescale actor-critic algorithm on
continuous state space, where the critic is updated with a single Markovian
sample per actor step. We prove that the online single-timescale actor-critic
method is guaranteed to find an $\epsilon$-approximate stationary point with
$\widetilde{\mathcal{O}}(\epsilon^{-2})$ sample complexity under standard
assumptions, which can be further improved to $\mathcal{O}(\epsilon^{-2})$
under i.i.d. sampling. Our analysis develops a novel framework that evaluates
and controls the error propagation between actor and critic in a systematic
way. To our knowledge, this is the first finite-time analysis for online
single-timescale actor-critic method. Overall, our results compare favorably to
the existing literature on analyzing actor-critic in terms of considering the
most practical settings and requiring weaker assumptions.
- Abstract(参考訳): アクター批判的手法の実証的な成功にもかかわらず、その有限時間収束は依然として最も実践的な形態では理解されていない。
特に、シングルタイムのアクター批判の分析は、高度に不正確な批評家推定と、反復による複雑なエラー伝播のダイナミクスにより、重大な課題を呈している。
既存のシングル・タイム・スケールの俳優・批評家の分析は、単純なサンプリングや表表の設定にのみ焦点をあてている。
我々は,連続状態空間におけるより実用的なオンライン・シングルタイム・アクタ-クリティックアルゴリズムを考える。
オンラインシングルタイムのアクター批判法は、標準仮定の下でのサンプル複雑性を$\widetilde{\mathcal{O}}(\epsilon^{-2})$$で、サンプリング時に$\mathcal{O}(\epsilon^{-2})$でさらに改善できる$\epsilon$-approximate 定常点を見つけることが保証されていることを証明している。
本研究では,アクターと批評家間のエラー伝達を体系的に評価・制御する新しいフレームワークを開発した。
我々の知る限り、これはオンライン・シングル・タイム・アクタ・クリティック法における最初の有限時間解析である。
総じて,最も実践的な設定を考慮し,より弱い仮定を要求できるという点で,既存のアクタ批判の分析文献と比較した。
関連論文リスト
- Critic-Actor for Average Reward MDPs with Function Approximation: A
Finite-Time Analysis [6.682382456607199]
本稿では,関数近似と長期平均報酬設定を併用した最初の批評家・アクターアルゴリズムを提案する。
我々は最適学習率を求め,このアルゴリズムが平均二乗誤差に対して$mathcaltildeO(eps-2.08)$のサンプル複雑性を実現することを証明した。
また、3つのベンチマーク設定に関する数値実験の結果を示し、アクター・アクター・アルゴリズムがアクター・アクター・アクターとよく競合することを示した。
論文 参考訳(メタデータ) (2024-02-02T12:48:49Z) - Global Convergence of Two-timescale Actor-Critic for Solving Linear
Quadratic Regulator [43.13238243240668]
我々は、$epsilon$-optimal Solutionへのグローバル収束を確立するための新しい分析フレームワークを開発する。
これは、LQRを大域的最適で解くための単一のサンプル2時間スケールACに対する最初の有限時間収束解析である。
論文 参考訳(メタデータ) (2022-08-18T09:57:03Z) - A Small Gain Analysis of Single Timescale Actor Critic [16.092248433189816]
本研究では,比例的なステップサイズを用いたアクター・批評家版と,アクター・ステップ毎の静止分布からの1つのサンプルによる1つの批評家更新について検討する。
本研究では,本手法が定常点を見つけるのに有効であることが証明され,結果として得られたサンプルの複雑さがアクター批判手法の精度を向上させることが証明された。
論文 参考訳(メタデータ) (2022-03-04T22:20:34Z) - Towards Sample-Optimal Compressive Phase Retrieval with Sparse and
Generative Priors [59.33977545294148]
O(k log L)$サンプルは振幅に基づく経験損失関数を最小化する任意のベクトルに信号が近いことを保証するのに十分であることを示す。
この結果はスパース位相検索に適応し、基底信号が$s$-sparseおよび$n$-dimensionalである場合、$O(s log n)$サンプルは同様の保証に十分であることを示す。
論文 参考訳(メタデータ) (2021-06-29T12:49:54Z) - Finite Sample Analysis of Two-Time-Scale Natural Actor-Critic Algorithm [21.91930554261688]
アクタークリティカルな2時間スケールのアルゴリズムは強化学習で非常に人気がある。
本論文では,オンライン自然なアクター・クリティカルアルゴリズムのグローバル収束を特徴づける。
十分な探査を確保するために$epsilon$-greedyサンプリングを使用します。
論文 参考訳(メタデータ) (2021-01-26T01:12:07Z) - A Deeper Look at Discounting Mismatch in Actor-Critic Algorithms [81.01917016753644]
本稿では,表現学習の観点からアクタ・クリティカルなアルゴリズムの実装における割引ミスマッチについて検討する。
理論的には、アクター批判アルゴリズムは通常、アクターと批評家の両方に対して割引される。
しかし、専門家は通常、ディスカウントされた批評家を使用しながら、俳優の割引(ガンマt$)を無視する。
論文 参考訳(メタデータ) (2020-10-02T15:51:48Z) - Single-Timescale Stochastic Nonconvex-Concave Optimization for Smooth
Nonlinear TD Learning [145.54544979467872]
本稿では,各ステップごとに1つのデータポイントしか必要としない2つの単一スケールシングルループアルゴリズムを提案する。
本研究の結果は, 同時一次および二重側収束の形で表される。
論文 参考訳(メタデータ) (2020-08-23T20:36:49Z) - Non-asymptotic Convergence Analysis of Two Time-scale (Natural)
Actor-Critic Algorithms [58.57004511121862]
アクタークリティカル(AC)とナチュラルアクタークリティカル(NAC)のアルゴリズムは、最適なポリシーを見つけるために2つの方法で実行されることが多い。
2つの時間スケールACは、$mathcalO(epsilon-2.5log3(epsilon-1))$で、$epsilon$-accurateの定常点に達するために、全体のサンプルの複雑さを必要とすることを示す。
我々は,動的にマルコフサンプリングが変化するため,アクターのバイアス誤差をバウンドする新しい手法を開発した。
論文 参考訳(メタデータ) (2020-05-07T15:42:31Z) - A Finite Time Analysis of Two Time-Scale Actor Critic Methods [87.69128666220016]
我々は,2つの時間スケールのアクター批判的手法に対する非漸近的解析を行う。
本研究では,アクター批判法が一階定常点を見つけることが保証されていることを証明した。
有限時間解析とサンプルの複雑さを2つの時間スケールアクター批判的手法に限定した最初の作品である。
論文 参考訳(メタデータ) (2020-05-04T09:45:18Z) - The Simulator: Understanding Adaptive Sampling in the
Moderate-Confidence Regime [52.38455827779212]
エミュレータと呼ばれる適応サンプリングを解析するための新しい手法を提案する。
適切なログファクタを組み込んだトップk問題の最初のインスタンスベースの下位境界を証明します。
我々の新しい分析は、後者の問題に対するこの種の最初のエミュレータであるベストアームとトップkの識別に、シンプルでほぼ最適であることを示した。
論文 参考訳(メタデータ) (2017-02-16T23:42:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。