論文の概要: Critic-Actor for Average Reward MDPs with Function Approximation: A
Finite-Time Analysis
- arxiv url: http://arxiv.org/abs/2402.01371v1
- Date: Fri, 2 Feb 2024 12:48:49 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-05 15:28:06.998446
- Title: Critic-Actor for Average Reward MDPs with Function Approximation: A
Finite-Time Analysis
- Title(参考訳): 関数近似を用いた平均回帰MDPに対する批判的アクター:有限時間解析
- Authors: Prashansa Panda and Shalabh Bhatnagar
- Abstract要約: 本稿では,関数近似と長期平均報酬設定を併用した最初の批評家・アクターアルゴリズムを提案する。
我々は最適学習率を求め,このアルゴリズムが平均二乗誤差に対して$mathcaltildeO(eps-2.08)$のサンプル複雑性を実現することを証明した。
また、3つのベンチマーク設定に関する数値実験の結果を示し、アクター・アクター・アルゴリズムがアクター・アクター・アクターとよく競合することを示した。
- 参考スコア(独自算出の注目度): 6.682382456607199
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In recent years, there has been a lot of research work activity focused on
carrying out asymptotic and non-asymptotic convergence analyses for
two-timescale actor critic algorithms where the actor updates are performed on
a timescale that is slower than that of the critic. In a recent work, the
critic-actor algorithm has been presented for the infinite horizon discounted
cost setting in the look-up table case where the timescales of the actor and
the critic are reversed and asymptotic convergence analysis has been presented.
In our work, we present the first critic-actor algorithm with function
approximation and in the long-run average reward setting and present the first
finite-time (non-asymptotic) analysis of such a scheme. We obtain optimal
learning rates and prove that our algorithm achieves a sample complexity of
$\mathcal{\tilde{O}}(\epsilon^{-2.08})$ for the mean squared error of the
critic to be upper bounded by $\epsilon$ which is better than the one obtained
for actor-critic in a similar setting. We also show the results of numerical
experiments on three benchmark settings and observe that the critic-actor
algorithm competes well with the actor-critic algorithm.
- Abstract(参考訳): 近年、俳優の更新が批評家よりも遅い時間スケールで実行される2段階の俳優批判アルゴリズムに対して漸近的かつ非漸近的収束分析を行うことに焦点を当てた研究活動が数多く行われている。
近年の研究では、俳優と批評家の時間スケールを逆転させ漸近収束解析を行うルックアップテーブルケースにおいて、無限ホライズンディスカウントコスト設定のために、批評家-アクターアルゴリズムが提示されている。
本研究は,関数近似と長期平均報酬設定を用いた最初の批判-実行アルゴリズムを示し,そのようなスキームの最初の有限時間(非漸近的)解析を提案する。
我々は最適な学習率を求め,批評家の平均二乗誤差に対して,このアルゴリズムが$\mathcal{\tilde{O}}(\epsilon^{-2.08})$のサンプル複雑性を達成することを証明した。
また,3つのベンチマーク設定における数値実験の結果を示し,批判者-実行者アルゴリズムがアクタ-批判的アルゴリズムとよく競合していることを確認する。
関連論文リスト
- Improved Sample Complexity for Global Convergence of Actor-Critic Algorithms [49.19842488693726]
我々は,O(epsilon-3)$のサンプル複雑性を大幅に改善したアクター・クリティック・アルゴリズムのグローバル収束を確立した。
我々の発見は、一定のステップサイズに依存する多くのアルゴリズムに対する理論的支援を提供する。
論文 参考訳(メタデータ) (2024-10-11T14:46:29Z) - Non-Asymptotic Analysis for Single-Loop (Natural) Actor-Critic with Compatible Function Approximation [18.77565744533582]
アクタークリティカル (AC) は、強化学習において最適な政策を学ぶための強力な方法である。
AC は $epsilon +varepsilon_textcritic$ 定常点の近傍に収束する。
本稿では,ACアルゴリズムとNACアルゴリズムのコンバージェンスを,相反する関数近似を用いて解析する。
論文 参考訳(メタデータ) (2024-06-03T20:05:04Z) - Finite-Time Analysis of Three-Timescale Constrained Actor-Critic and Constrained Natural Actor-Critic Algorithms [5.945710235932345]
我々は,制約付きマルコフ決定過程の関数近似を用いたアクター評論家と自然なアクター批評家アルゴリズムについて検討する。
我々はこれらのアルゴリズムを非i.d(マルコフアン)設定で非漸近解析する。
また、3つの異なるセーフティガイム環境の実験結果も示す。
論文 参考訳(メタデータ) (2023-10-25T05:04:00Z) - Doubly Robust Off-Policy Actor-Critic: Convergence and Optimality [131.45028999325797]
ディスカウント型MDPのための2倍堅牢なオフポリチックAC(DR-Off-PAC)を開発した。
DR-Off-PACは、俳優と批評家の両方が一定のステップで同時に更新される単一のタイムスケール構造を採用しています。
有限時間収束速度を研究し, dr-off-pac のサンプル複雑性を特徴とし, $epsilon$-accurate optimal policy を得る。
論文 参考訳(メタデータ) (2021-02-23T18:56:13Z) - ROOT-SGD: Sharp Nonasymptotics and Near-Optimal Asymptotics in a Single Algorithm [71.13558000599839]
第一次アルゴリズムを用いて,厳密な凸と滑らかな非制約最適化問題の解法について検討する。
我々は,過去の勾配を平均化し,実装が容易な小説「Recursive One-Over-T SGD」を考案した。
有限サンプル, 漸近感覚, 感覚の両面において, 最先端の性能を同時に達成できることを実証する。
論文 参考訳(メタデータ) (2020-08-28T14:46:56Z) - Non-asymptotic Convergence Analysis of Two Time-scale (Natural)
Actor-Critic Algorithms [58.57004511121862]
アクタークリティカル(AC)とナチュラルアクタークリティカル(NAC)のアルゴリズムは、最適なポリシーを見つけるために2つの方法で実行されることが多い。
2つの時間スケールACは、$mathcalO(epsilon-2.5log3(epsilon-1))$で、$epsilon$-accurateの定常点に達するために、全体のサンプルの複雑さを必要とすることを示す。
我々は,動的にマルコフサンプリングが変化するため,アクターのバイアス誤差をバウンドする新しい手法を開発した。
論文 参考訳(メタデータ) (2020-05-07T15:42:31Z) - A Finite Time Analysis of Two Time-Scale Actor Critic Methods [87.69128666220016]
我々は,2つの時間スケールのアクター批判的手法に対する非漸近的解析を行う。
本研究では,アクター批判法が一階定常点を見つけることが保証されていることを証明した。
有限時間解析とサンプルの複雑さを2つの時間スケールアクター批判的手法に限定した最初の作品である。
論文 参考訳(メタデータ) (2020-05-04T09:45:18Z) - Is Temporal Difference Learning Optimal? An Instance-Dependent Analysis [102.29671176698373]
我々は、割引決定過程における政策評価の問題に対処し、生成モデルの下で、ll_infty$errorに対するマルコフに依存した保証を提供する。
我々は、ポリシー評価のために、局所ミニマックス下限の両漸近バージョンと非漸近バージョンを確立し、アルゴリズムを比較するためのインスタンス依存ベースラインを提供する。
論文 参考訳(メタデータ) (2020-03-16T17:15:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。