論文の概要: Actor-Critic or Critic-Actor? A Tale of Two Time Scales
- arxiv url: http://arxiv.org/abs/2210.04470v5
- Date: Wed, 12 Jun 2024 09:14:21 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-14 01:52:33.895922
- Title: Actor-Critic or Critic-Actor? A Tale of Two Time Scales
- Title(参考訳): アクター批判的」か「批判的」か : 2つのタイムスケールの物語
- Authors: Shalabh Bhatnagar, Vivek S. Borkar, Soumyajit Guin,
- Abstract要約: 収束の証明を提供し、この2つを関数近似および無関数近似と経験的に比較する。
提案アルゴリズムは,精度と計算労力の両面で,アクタ・アクタに匹敵する性能を示す。
- 参考スコア(独自算出の注目度): 5.945710235932345
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We revisit the standard formulation of tabular actor-critic algorithm as a two time-scale stochastic approximation with value function computed on a faster time-scale and policy computed on a slower time-scale. This emulates policy iteration. We observe that reversal of the time scales will in fact emulate value iteration and is a legitimate algorithm. We provide a proof of convergence and compare the two empirically with and without function approximation (with both linear and nonlinear function approximators) and observe that our proposed critic-actor algorithm performs on par with actor-critic in terms of both accuracy and computational effort.
- Abstract(参考訳): 本稿では,より高速な時間スケールで計算し,より遅い時間スケールで計算する値関数を用いた2つの時間スケール確率近似として,表型アクタ・クリティックアルゴリズムの標準的な定式化を再考する。
これはポリシーの反復をエミュレートします。
時間スケールの逆転が実際に値反復をエミュレートし、正当性のあるアルゴリズムであることを観察する。
本稿では, 2つの関数近似を経験的に比較し, 線形関数近似と非線形関数近似の双方と比較し, 提案アルゴリズムが精度と計算労力の両面でアクタ・アクタに匹敵する性能を示すことを示す。
関連論文リスト
- Two-Timescale Critic-Actor for Average Reward MDPs with Function Approximation [5.945710235932345]
本稿では,長期平均報酬設定における関数近似を用いた最初の2段階の批評家・アクターアルゴリズムを提案する。
我々の分析の特筆すべき特徴は、最近のシングルタイムスケールアクター批判アルゴリズムとは異なり、我々のスキームの完全な収束解析を提示することである。
論文 参考訳(メタデータ) (2024-02-02T12:48:49Z) - Learning the Positions in CountSketch [49.57951567374372]
本稿では,まずランダムなスケッチ行列に乗じてデータを圧縮し,最適化問題を高速に解くスケッチアルゴリズムについて検討する。
本研究では,ゼロでないエントリの位置を最適化する学習ベースアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-06-11T07:28:35Z) - Doubly Robust Off-Policy Actor-Critic: Convergence and Optimality [131.45028999325797]
ディスカウント型MDPのための2倍堅牢なオフポリチックAC(DR-Off-PAC)を開発した。
DR-Off-PACは、俳優と批評家の両方が一定のステップで同時に更新される単一のタイムスケール構造を採用しています。
有限時間収束速度を研究し, dr-off-pac のサンプル複雑性を特徴とし, $epsilon$-accurate optimal policy を得る。
論文 参考訳(メタデータ) (2021-02-23T18:56:13Z) - Variance Penalized On-Policy and Off-Policy Actor-Critic [60.06593931848165]
本稿では,平均値と変動値の両方を含むパフォーマンス基準を最適化する,オン・ポリティィおよびオフ・ポリティィ・アクター・クリティカルなアルゴリズムを提案する。
提案手法は, アクタ批判的かつ事前の分散-ペナライゼーションベースラインに匹敵するだけでなく, リターンのばらつきが低いトラジェクトリも生成する。
論文 参考訳(メタデータ) (2021-02-03T10:06:16Z) - Single-Timescale Stochastic Nonconvex-Concave Optimization for Smooth
Nonlinear TD Learning [145.54544979467872]
本稿では,各ステップごとに1つのデータポイントしか必要としない2つの単一スケールシングルループアルゴリズムを提案する。
本研究の結果は, 同時一次および二重側収束の形で表される。
論文 参考訳(メタデータ) (2020-08-23T20:36:49Z) - Non-asymptotic Convergence Analysis of Two Time-scale (Natural)
Actor-Critic Algorithms [58.57004511121862]
アクタークリティカル(AC)とナチュラルアクタークリティカル(NAC)のアルゴリズムは、最適なポリシーを見つけるために2つの方法で実行されることが多い。
2つの時間スケールACは、$mathcalO(epsilon-2.5log3(epsilon-1))$で、$epsilon$-accurateの定常点に達するために、全体のサンプルの複雑さを必要とすることを示す。
我々は,動的にマルコフサンプリングが変化するため,アクターのバイアス誤差をバウンドする新しい手法を開発した。
論文 参考訳(メタデータ) (2020-05-07T15:42:31Z) - A Finite Time Analysis of Two Time-Scale Actor Critic Methods [87.69128666220016]
我々は,2つの時間スケールのアクター批判的手法に対する非漸近的解析を行う。
本研究では,アクター批判法が一階定常点を見つけることが保証されていることを証明した。
有限時間解析とサンプルの複雑さを2つの時間スケールアクター批判的手法に限定した最初の作品である。
論文 参考訳(メタデータ) (2020-05-04T09:45:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。