論文の概要: Cautious Actor-Critic
- arxiv url: http://arxiv.org/abs/2107.05217v1
- Date: Mon, 12 Jul 2021 06:40:02 GMT
- ステータス: 処理完了
- システム内更新日: 2021-07-13 16:15:27.459540
- Title: Cautious Actor-Critic
- Title(参考訳): Cautious Actor-Critic
- Authors: Lingwei Zhu, Toshinori Kitamura, Takamitsu Matsubara
- Abstract要約: 本稿では, アクター・クリティカル(CAC)の非政治ACアルゴリズムを提案する。
CACは、学習を著しく安定させながら、同等のパフォーマンスを達成することを示す。
- 参考スコア(独自算出の注目度): 11.82492300303637
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The oscillating performance of off-policy learning and persisting errors in
the actor-critic (AC) setting call for algorithms that can conservatively learn
to suit the stability-critical applications better. In this paper, we propose a
novel off-policy AC algorithm cautious actor-critic (CAC). The name cautious
comes from the doubly conservative nature that we exploit the classic policy
interpolation from conservative policy iteration for the actor and the
entropy-regularization of conservative value iteration for the critic. Our key
observation is the entropy-regularized critic facilitates and simplifies the
unwieldy interpolated actor update while still ensuring robust policy
improvement. We compare CAC to state-of-the-art AC methods on a set of
challenging continuous control problems and demonstrate that CAC achieves
comparable performance while significantly stabilizes learning.
- Abstract(参考訳): アクタークリティカル(AC)設定における非政治学習の振動性能と持続的エラーは、安定クリティカルなアプリケーションに適合するように保守的に学習できるアルゴリズムを呼び起こす。
本稿では, アクター批判 (CAC) に対する非政治的なACアルゴリズムを提案する。
慎重な名前は、俳優の保守的な政策反復と批評家の保守的な価値反復のエントロピー・規則化から古典的な政策補間を生かした二重保守的な性質に由来する。
私たちの重要な観察は、エントロピー正規化された批評家は、堅牢なポリシー改善を確保しながら、望ましくない補間されたアクタ更新を容易化し、単純化することです。
我々は,CACと最先端AC手法を比較し,CACが学習を著しく安定させながら同等の性能を発揮することを示す。
関連論文リスト
- Decision-Aware Actor-Critic with Function Approximation and Theoretical
Guarantees [12.259191000019033]
アクター・クリティック(AC)法は強化学習(RL)に広く用いられている
我々は、俳優と批評家を意思決定で訓練するための共同目標を設計する。
簡単なRL問題に対する意思決定対応型アクター批判フレームワークの利点を実証的に実証する。
論文 参考訳(メタデータ) (2023-05-24T15:34:21Z) - PAC-Bayesian Soft Actor-Critic Learning [9.752336113724928]
アクター批判アルゴリズムは、強化学習(RL)と政策評価と2つの関数近似器による改善という2つの目標に対処する。
我々は,このボトルネックに,Soft Actor-Critic (SAC) アルゴリズムの批判的トレーニング目標として,既存の確率的近似(PAC)ベイズ境界を初めて採用することによって対処する。
論文 参考訳(メタデータ) (2023-01-30T10:44:15Z) - Solving Continuous Control via Q-learning [54.05120662838286]
深いQ-ラーニングの簡単な修正は、アクター批判的手法による問題を大幅に軽減することを示します。
バンバン動作の離散化と値分解、協調マルチエージェント強化学習(MARL)としての単一エージェント制御のフレーミングにより、このシンプルな批判のみのアプローチは、最先端の連続アクター批判法の性能と一致する。
論文 参考訳(メタデータ) (2022-10-22T22:55:50Z) - Actor-Critic based Improper Reinforcement Learning [61.430513757337486]
我々は,未知のマルコフ決定プロセスに対して,学習者に100万ドルのベースコントローラを付与する不適切な強化学習環境を考える。
本稿では,(1)ポリシーグラディエントに基づくアプローチ,(2)単純なアクター・クリティカル・スキームとNatural Actor-Criticスキームを切り替えるアルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-07-19T05:55:02Z) - Off-policy Reinforcement Learning with Optimistic Exploration and
Distribution Correction [73.77593805292194]
我々は、政治以外のアクター批判的枠組みにおいて、批評家のほぼ上位信頼度を最大化するために、別の調査政策を訓練する。
最近導入されたDICEフレームワークを応用して、非政治アクター犯罪訓練のための分布補正比を学習する。
論文 参考訳(メタデータ) (2021-10-22T22:07:51Z) - Characterizing the Gap Between Actor-Critic and Policy Gradient [47.77939973964009]
本稿では,AC目標/勾配の正確な調整を同定することにより,AC法とPG法のギャップを説明する。
我々は,ACとPGの補正を推定する実用的なアルゴリズムであるResidual Actor-CriticとStackelberg Actor-Criticを開発した。
論文 参考訳(メタデータ) (2021-06-13T06:35:42Z) - Doubly Robust Off-Policy Actor-Critic: Convergence and Optimality [131.45028999325797]
ディスカウント型MDPのための2倍堅牢なオフポリチックAC(DR-Off-PAC)を開発した。
DR-Off-PACは、俳優と批評家の両方が一定のステップで同時に更新される単一のタイムスケール構造を採用しています。
有限時間収束速度を研究し, dr-off-pac のサンプル複雑性を特徴とし, $epsilon$-accurate optimal policy を得る。
論文 参考訳(メタデータ) (2021-02-23T18:56:13Z) - How to Learn a Useful Critic? Model-based Action-Gradient-Estimator
Policy Optimization [10.424426548124696]
本稿では,政策勾配理論に基づくモデルに基づくアクター批判アルゴリズムであるMAGEを提案する。
MAGEは学習されたダイナミクスを通じて逆伝搬し、時間差学習において勾配目標を計算する。
モデルフリーおよびモデルベースベースラインと比較して,アルゴリズムの効率性を示す。
論文 参考訳(メタデータ) (2020-04-29T16:30:53Z) - Online Meta-Critic Learning for Off-Policy Actor-Critic Methods [107.98781730288897]
Off-Policy Actor-Critic (Off-PAC)法は、様々な連続制御タスクで成功している。
本稿では,学習過程を観察し,アクターにさらなる損失を与える新しい,フレキシブルなメタクリティカルを導入する。
論文 参考訳(メタデータ) (2020-03-11T14:39:49Z) - Greedy Actor-Critic: A New Conditional Cross-Entropy Method for Policy
Improvement [31.602912612167856]
本研究では,クロスエントロピー法(CEM)を入力条件(状態)に拡張したアクタの代替更新について検討する。
この濃度の速度は、アクターよりも遅い速度で集中する提案ポリシーによって制御される。
我々は,アクター更新にCCEMを使用するGreedy ACアルゴリズムが,ソフトアクター・クライブよりも優れ,エントロピー・レギュラー化に対する感度がはるかに低いことを実証的に示す。
論文 参考訳(メタデータ) (2018-10-22T06:35:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。