論文の概要: Characterizing the Gap Between Actor-Critic and Policy Gradient
- arxiv url: http://arxiv.org/abs/2106.06932v1
- Date: Sun, 13 Jun 2021 06:35:42 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-15 16:30:15.899109
- Title: Characterizing the Gap Between Actor-Critic and Policy Gradient
- Title(参考訳): アクター批判と政策グラディエントの間のギャップを特徴づける
- Authors: Junfeng Wen, Saurabh Kumar, Ramki Gummadi, Dale Schuurmans
- Abstract要約: 本稿では,AC目標/勾配の正確な調整を同定することにより,AC法とPG法のギャップを説明する。
我々は,ACとPGの補正を推定する実用的なアルゴリズムであるResidual Actor-CriticとStackelberg Actor-Criticを開発した。
- 参考スコア(独自算出の注目度): 47.77939973964009
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Actor-critic (AC) methods are ubiquitous in reinforcement learning. Although
it is understood that AC methods are closely related to policy gradient (PG),
their precise connection has not been fully characterized previously. In this
paper, we explain the gap between AC and PG methods by identifying the exact
adjustment to the AC objective/gradient that recovers the true policy gradient
of the cumulative reward objective (PG). Furthermore, by viewing the AC method
as a two-player Stackelberg game between the actor and critic, we show that the
Stackelberg policy gradient can be recovered as a special case of our more
general analysis. Based on these results, we develop practical algorithms,
Residual Actor-Critic and Stackelberg Actor-Critic, for estimating the
correction between AC and PG and use these to modify the standard AC algorithm.
Experiments on popular tabular and continuous environments show the proposed
corrections can improve both the sample efficiency and final performance of
existing AC methods.
- Abstract(参考訳): アクタークリティカル(AC)法は、強化学習においてユビキタスである。
AC法は政策勾配 (PG) と密接に関連していると考えられるが, その正確な関係は以前にも明らかではなかった。
本稿では、累積報酬目標(PG)の真の政策勾配を回復するAC目標/段階の正確な調整を同定することにより、AC法とPG法のギャップを説明する。
さらに,ac法を俳優と批評家の間での2人プレイのstackelbergゲームとして見ることにより,より一般的な分析の特別な場合として,stackelbergのポリシー勾配を復元できることを示した。
これらの結果に基づいて,AC と PG の補正を推定する実用的なアルゴリズムである Residual Actor-Critic と Stackelberg Actor-Critic を開発した。
一般的な表表および連続環境における実験により,提案手法は既存の交流方式のサンプル効率と最終的な性能の両方を改善することができる。
関連論文リスト
- Last-Iterate Global Convergence of Policy Gradients for Constrained Reinforcement Learning [62.81324245896717]
我々はC-PGと呼ばれる探索非依存のアルゴリズムを導入し、このアルゴリズムは(弱)勾配支配仮定の下でのグローバルな最終点収束を保証する。
制約付き制御問題に対して,我々のアルゴリズムを数値的に検証し,それらを最先端のベースラインと比較する。
論文 参考訳(メタデータ) (2024-07-15T14:54:57Z) - Value Improved Actor Critic Algorithms [5.617360550806964]
本稿では,2つの改良演算子を用いたACフレームワークの汎用拡張を提案する。
本稿では,オンラインオフラインACアルゴリズムTD3とDDPGの2つの実用的なVI-ACアルゴリズムを設計する。
我々は,MujocoベンチマークのVI-TD3とVI-DDPGを評価し,テスト対象のすべての環境において,それぞれのベースラインの性能を改善したり適合させたりすることを発見した。
論文 参考訳(メタデータ) (2024-06-03T15:24:15Z) - Actor-Critic Reinforcement Learning with Phased Actor [10.577516871906816]
本稿では,政策勾配推定を改善するために,PAAC法における新しい段階的アクターを提案する。
PAACはアクターアップデートで$Q$とTDエラーの両方を処理している。
その結果,PAACは総コスト,学習ばらつき,堅牢性,学習速度,成功率などによって,大幅な性能向上をもたらすことがわかった。
論文 参考訳(メタデータ) (2024-04-18T01:27:31Z) - Actor-Critic based Improper Reinforcement Learning [61.430513757337486]
我々は,未知のマルコフ決定プロセスに対して,学習者に100万ドルのベースコントローラを付与する不適切な強化学習環境を考える。
本稿では,(1)ポリシーグラディエントに基づくアプローチ,(2)単純なアクター・クリティカル・スキームとNatural Actor-Criticスキームを切り替えるアルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-07-19T05:55:02Z) - Improving Covariance Conditioning of the SVD Meta-layer by Orthogonality [65.67315418971688]
最寄り直交勾配(NOG)と最適学習率(OLR)を提案する。
視覚認識実験は,共分散条件と一般化を同時に改善できることを実証した。
論文 参考訳(メタデータ) (2022-07-05T15:39:29Z) - Off-Policy Actor-Critic with Emphatic Weightings [27.31795386676574]
複数の目的が存在することや、明示的な非政治政策勾配定理が欠如していることから、オフ政治設定はより明確でない。
本研究では、これらの目的を政治以外の目的に統一し、この統一目的に対する政策勾配定理を提供する。
Actor Critic with Emphatic weightings (ACE) と呼ばれるアルゴリズムにおいて、勾配を近似する複数の戦略を示す。
論文 参考訳(メタデータ) (2021-11-16T01:18:16Z) - Training Generative Adversarial Networks with Adaptive Composite
Gradient [2.471982349512685]
本稿では,二線形ゲームにおいて線形収束する適応型コンポジットグラディエント法を提案する。
ACGは、各ステップの勾配を計算する必要がないため、半漸進的なアルゴリズムである。
結果は、ACGが以前のアルゴリズムと競合していることを示している。
論文 参考訳(メタデータ) (2021-11-10T03:13:53Z) - Policy Gradient for Continuing Tasks in Non-stationary Markov Decision
Processes [112.38662246621969]
強化学習は、マルコフ決定プロセスにおいて期待される累積報酬を最大化するポリシーを見つけることの問題を考える。
我々は、ポリシーを更新するために上昇方向として使用する値関数の偏りのないナビゲーション勾配を計算する。
ポリシー勾配型アルゴリズムの大きな欠点は、定常性の仮定が課せられない限り、それらがエピソジックなタスクに限定されていることである。
論文 参考訳(メタデータ) (2020-10-16T15:15:42Z) - Deep Bayesian Quadrature Policy Optimization [100.81242753620597]
ディープベイズ二次政策勾配 (Deep Bayesian quadrature Policy gradient, DBQPG) は、政策勾配推定のためのベイズ二次政策の高次元一般化である。
政策勾配法では,DBQPGがモンテカルロ推定を代用できることを示すとともに,一連の連続制御ベンチマーク上での有効性を示す。
論文 参考訳(メタデータ) (2020-06-28T15:44:47Z) - How to Learn a Useful Critic? Model-based Action-Gradient-Estimator
Policy Optimization [10.424426548124696]
本稿では,政策勾配理論に基づくモデルに基づくアクター批判アルゴリズムであるMAGEを提案する。
MAGEは学習されたダイナミクスを通じて逆伝搬し、時間差学習において勾配目標を計算する。
モデルフリーおよびモデルベースベースラインと比較して,アルゴリズムの効率性を示す。
論文 参考訳(メタデータ) (2020-04-29T16:30:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。