論文の概要: Two-Timescale Critic-Actor for Average Reward MDPs with Function Approximation
- arxiv url: http://arxiv.org/abs/2402.01371v2
- Date: Fri, 24 May 2024 06:57:17 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-27 23:16:57.555400
- Title: Two-Timescale Critic-Actor for Average Reward MDPs with Function Approximation
- Title(参考訳): 関数近似を用いた平均逆MDPに対する2時間的批判アクタ
- Authors: Prashansa Panda, Shalabh Bhatnagar,
- Abstract要約: 本稿では,長期平均報酬設定における関数近似を用いた最初の2段階の批評家・アクターアルゴリズムを提案する。
我々の分析の特筆すべき特徴は、最近のシングルタイムスケールアクター批判アルゴリズムとは異なり、我々のスキームの完全な収束解析を提示することである。
- 参考スコア(独自算出の注目度): 5.945710235932345
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In recent years, there has been a lot of research activity focused on carrying out non-asymptotic convergence analyses for actor-critic algorithms. Recently a two-timescale critic-actor algorithm has been presented for the discounted cost setting in the look-up table case where the timescales of the actor and the critic are reversed and only asymptotic convergence shown. In our work, we present the first two-timescale critic-actor algorithm with function approximation in the long-run average reward setting and present the first finite-time non-asymptotic as well as asymptotic convergence analysis for such a scheme. We obtain optimal learning rates and prove that our algorithm achieves a sample complexity of $\mathcal{\tilde{O}}(\epsilon^{-2.08})$ for the mean squared error of the critic to be upper bounded by $\epsilon$ which is better than the one obtained for two-timescale actor-critic in a similar setting. A notable feature of our analysis is that unlike recent single-timescale actor-critic algorithms, we present a complete asymptotic convergence analysis of our scheme in addition to the finite-time bounds that we obtain and show that the (slower) critic recursion converges asymptotically to the attractor of an associated differential inclusion with actor parameters corresponding to local maxima of a perturbed average reward objective. We also show the results of numerical experiments on three benchmark settings and observe that our critic-actor algorithm performs on par and is in fact better than the other algorithms considered.
- Abstract(参考訳): 近年,アクター批判アルゴリズムの非漸近収束解析に焦点をあてた研究が盛んに行われている。
近年,アクターと批評家の時間スケールが逆転し,漸近的な収束のみを示すルックアップテーブルケースにおいて,2段階の批評家・アクターアルゴリズムがコスト設定の割引について提示されている。
本研究では,長期平均報酬設定に関数近似を付加した最初の2時間スケール批評家-アクターアルゴリズムを提案し,そのようなスキームに対する漸近的収束解析とともに,最初の有限時間非漸近的および漸近的収束解析を提示する。
最適学習率を求め,本アルゴリズムが2段階のアクター批評家に対して得られた値より優れている2倍の2乗誤差に対して$\mathcal{\tilde{O}}(\epsilon^{-2.08})$のサンプル複雑性を実現することを証明した。
我々の分析の特筆すべき特徴は、近年のシングルタイムスケールアクター批判アルゴリズムとは異なり、我々のスキームの完全漸近収束解析と、(より遅い)批評家再帰は、摂動平均報酬目的の局所最大値に対応するアクターパラメータと関連する差分包の引き付けに漸近的に収束することを示す有限時間境界に加えて、我々のスキームの完全漸近収束解析を提示することである。
また、3つのベンチマーク設定に関する数値実験の結果を示し、我々の批評家・俳優アルゴリズムが同等に動作し、実際他のアルゴリズムよりも優れていることを観察する。
関連論文リスト
- Improved Sample Complexity for Global Convergence of Actor-Critic Algorithms [49.19842488693726]
我々は,O(epsilon-3)$のサンプル複雑性を大幅に改善したアクター・クリティック・アルゴリズムのグローバル収束を確立した。
我々の発見は、一定のステップサイズに依存する多くのアルゴリズムに対する理論的支援を提供する。
論文 参考訳(メタデータ) (2024-10-11T14:46:29Z) - Non-Asymptotic Analysis for Single-Loop (Natural) Actor-Critic with Compatible Function Approximation [18.77565744533582]
アクタークリティカル (AC) は、強化学習において最適な政策を学ぶための強力な方法である。
AC は $epsilon +varepsilon_textcritic$ 定常点の近傍に収束する。
本稿では,ACアルゴリズムとNACアルゴリズムのコンバージェンスを,相反する関数近似を用いて解析する。
論文 参考訳(メタデータ) (2024-06-03T20:05:04Z) - Finite-Time Analysis of Three-Timescale Constrained Actor-Critic and Constrained Natural Actor-Critic Algorithms [5.945710235932345]
我々は,制約付きマルコフ決定過程の関数近似を用いたアクター評論家と自然なアクター批評家アルゴリズムについて検討する。
我々はこれらのアルゴリズムを非i.d(マルコフアン)設定で非漸近解析する。
また、3つの異なるセーフティガイム環境の実験結果も示す。
論文 参考訳(メタデータ) (2023-10-25T05:04:00Z) - Doubly Robust Off-Policy Actor-Critic: Convergence and Optimality [131.45028999325797]
ディスカウント型MDPのための2倍堅牢なオフポリチックAC(DR-Off-PAC)を開発した。
DR-Off-PACは、俳優と批評家の両方が一定のステップで同時に更新される単一のタイムスケール構造を採用しています。
有限時間収束速度を研究し, dr-off-pac のサンプル複雑性を特徴とし, $epsilon$-accurate optimal policy を得る。
論文 参考訳(メタデータ) (2021-02-23T18:56:13Z) - ROOT-SGD: Sharp Nonasymptotics and Near-Optimal Asymptotics in a Single Algorithm [71.13558000599839]
第一次アルゴリズムを用いて,厳密な凸と滑らかな非制約最適化問題の解法について検討する。
我々は,過去の勾配を平均化し,実装が容易な小説「Recursive One-Over-T SGD」を考案した。
有限サンプル, 漸近感覚, 感覚の両面において, 最先端の性能を同時に達成できることを実証する。
論文 参考訳(メタデータ) (2020-08-28T14:46:56Z) - Non-asymptotic Convergence Analysis of Two Time-scale (Natural)
Actor-Critic Algorithms [58.57004511121862]
アクタークリティカル(AC)とナチュラルアクタークリティカル(NAC)のアルゴリズムは、最適なポリシーを見つけるために2つの方法で実行されることが多い。
2つの時間スケールACは、$mathcalO(epsilon-2.5log3(epsilon-1))$で、$epsilon$-accurateの定常点に達するために、全体のサンプルの複雑さを必要とすることを示す。
我々は,動的にマルコフサンプリングが変化するため,アクターのバイアス誤差をバウンドする新しい手法を開発した。
論文 参考訳(メタデータ) (2020-05-07T15:42:31Z) - A Finite Time Analysis of Two Time-Scale Actor Critic Methods [87.69128666220016]
我々は,2つの時間スケールのアクター批判的手法に対する非漸近的解析を行う。
本研究では,アクター批判法が一階定常点を見つけることが保証されていることを証明した。
有限時間解析とサンプルの複雑さを2つの時間スケールアクター批判的手法に限定した最初の作品である。
論文 参考訳(メタデータ) (2020-05-04T09:45:18Z) - Is Temporal Difference Learning Optimal? An Instance-Dependent Analysis [102.29671176698373]
我々は、割引決定過程における政策評価の問題に対処し、生成モデルの下で、ll_infty$errorに対するマルコフに依存した保証を提供する。
我々は、ポリシー評価のために、局所ミニマックス下限の両漸近バージョンと非漸近バージョンを確立し、アルゴリズムを比較するためのインスタンス依存ベースラインを提供する。
論文 参考訳(メタデータ) (2020-03-16T17:15:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。