論文の概要: A Small Gain Analysis of Single Timescale Actor Critic
- arxiv url: http://arxiv.org/abs/2203.02591v2
- Date: Tue, 8 Mar 2022 18:08:21 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-09 11:32:20.039418
- Title: A Small Gain Analysis of Single Timescale Actor Critic
- Title(参考訳): シングルタイムスケールアクター批判の小さなゲイン分析
- Authors: Alex Olshevsky, Bahman Gharesifard
- Abstract要約: 本研究では,比例的なステップサイズを用いたアクター・批評家版と,アクター・ステップ毎の静止分布からの1つのサンプルによる1つの批評家更新について検討する。
本研究では,本手法が定常点を見つけるのに有効であることが証明され,結果として得られたサンプルの複雑さがアクター批判手法の精度を向上させることが証明された。
- 参考スコア(独自算出の注目度): 16.092248433189816
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We consider a version of actor-critic which uses proportional step-sizes and
only one critic update with a single sample from the stationary distribution
per actor step. We provide an analysis of this method using the small-gain
theorem. Specifically, we prove that this method can be used to find a
stationary point, and that the resulting sample complexity improves the state
of the art for actor-critic methods to $O \left(\mu^{-2} \epsilon^{-2} \right)$
to find an $\epsilon$-approximate stationary point where $\mu$ is the condition
number associated with the critic.
- Abstract(参考訳): 我々は,1ステップあたりの定常分布から1つのサンプルを用いて,比例したステップサイズと1つの批評家更新のみを使用するアクタ-クリティックの1バージョンについて検討する。
本手法は,小利得定理を用いて解析する。
具体的には,本手法が定常点を見つけるのに有効であることが証明され,結果として得られたサンプルの複雑さがアクター批判手法のテクニックの状態を$O \left(\mu^{-2} \epsilon^{-2} \right)$に改善し,批判に関連付けられた条件数である$\epsilon$-approximateの定常点を求める。
関連論文リスト
- Improved Sample Complexity for Global Convergence of Actor-Critic Algorithms [49.19842488693726]
我々は,O(epsilon-3)$のサンプル複雑性を大幅に改善したアクター・クリティック・アルゴリズムのグローバル収束を確立した。
我々の発見は、一定のステップサイズに依存する多くのアルゴリズムに対する理論的支援を提供する。
論文 参考訳(メタデータ) (2024-10-11T14:46:29Z) - Non-Asymptotic Analysis for Single-Loop (Natural) Actor-Critic with Compatible Function Approximation [18.77565744533582]
アクタークリティカル (AC) は、強化学習において最適な政策を学ぶための強力な方法である。
AC は $epsilon +varepsilon_textcritic$ 定常点の近傍に収束する。
本稿では,ACアルゴリズムとNACアルゴリズムのコンバージェンスを,相反する関数近似を用いて解析する。
論文 参考訳(メタデータ) (2024-06-03T20:05:04Z) - Two-Timescale Critic-Actor for Average Reward MDPs with Function Approximation [5.945710235932345]
本稿では,長期平均報酬設定における関数近似を用いた最初の2段階の批評家・アクターアルゴリズムを提案する。
我々の分析の特筆すべき特徴は、最近のシングルタイムスケールアクター批判アルゴリズムとは異なり、我々のスキームの完全な収束解析を提示することである。
論文 参考訳(メタデータ) (2024-02-02T12:48:49Z) - Finite-time analysis of single-timescale actor-critic [8.994243376183658]
アクター批判法は多くの挑戦的なアプリケーションで大きな成功を収めた。
有限時間収束は、最も実践的な単一時間スケールの形ではまだ理解されていない。
より実用的なオンラインシングルタイム・アクター・クリティカル・アルゴリズムを連続状態空間上で検討する。
論文 参考訳(メタデータ) (2022-10-18T15:03:56Z) - Sharper Rates and Flexible Framework for Nonconvex SGD with Client and
Data Sampling [64.31011847952006]
我々は、平均$n$スムーズでおそらくは非カラー関数のほぼ定常点を求める問題を再考する。
我々は$smallsfcolorgreen$を一般化し、事実上あらゆるサンプリングメカニズムで確実に動作するようにします。
我々は、スムーズな非カラー状態における最適境界の最も一般的な、最も正確な解析を提供する。
論文 参考訳(メタデータ) (2022-06-05T21:32:33Z) - A Deeper Look at Discounting Mismatch in Actor-Critic Algorithms [81.01917016753644]
本稿では,表現学習の観点からアクタ・クリティカルなアルゴリズムの実装における割引ミスマッチについて検討する。
理論的には、アクター批判アルゴリズムは通常、アクターと批評家の両方に対して割引される。
しかし、専門家は通常、ディスカウントされた批評家を使用しながら、俳優の割引(ガンマt$)を無視する。
論文 参考訳(メタデータ) (2020-10-02T15:51:48Z) - Multi-label Contrastive Predictive Coding [125.03510235962095]
差分相互情報(MI)推定器は、コントラスト予測符号化(CPC)のような教師なし表現学習法で広く利用されている。
本稿では,複数の正のサンプルを同時に同定する必要がある多ラベル分類問題に基づく新しい推定器を提案する。
同一量の負のサンプルを用いて複数ラベルのCPCが$log m$boundを超えることができる一方で、相互情報の有意な下限であることを示す。
論文 参考訳(メタデータ) (2020-07-20T02:46:21Z) - Non-asymptotic Convergence Analysis of Two Time-scale (Natural)
Actor-Critic Algorithms [58.57004511121862]
アクタークリティカル(AC)とナチュラルアクタークリティカル(NAC)のアルゴリズムは、最適なポリシーを見つけるために2つの方法で実行されることが多い。
2つの時間スケールACは、$mathcalO(epsilon-2.5log3(epsilon-1))$で、$epsilon$-accurateの定常点に達するために、全体のサンプルの複雑さを必要とすることを示す。
我々は,動的にマルコフサンプリングが変化するため,アクターのバイアス誤差をバウンドする新しい手法を開発した。
論文 参考訳(メタデータ) (2020-05-07T15:42:31Z) - A Finite Time Analysis of Two Time-Scale Actor Critic Methods [87.69128666220016]
我々は,2つの時間スケールのアクター批判的手法に対する非漸近的解析を行う。
本研究では,アクター批判法が一階定常点を見つけることが保証されていることを証明した。
有限時間解析とサンプルの複雑さを2つの時間スケールアクター批判的手法に限定した最初の作品である。
論文 参考訳(メタデータ) (2020-05-04T09:45:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。