論文の概要: DoMo-AC: Doubly Multi-step Off-policy Actor-Critic Algorithm
- arxiv url: http://arxiv.org/abs/2305.18501v1
- Date: Mon, 29 May 2023 14:36:51 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-31 20:06:17.679863
- Title: DoMo-AC: Doubly Multi-step Off-policy Actor-Critic Algorithm
- Title(参考訳): DoMo-AC:2段階のオフ政治アクター批判アルゴリズム
- Authors: Yunhao Tang, Tadashi Kozuno, Mark Rowland, Anna Harutyunyan, R\'emi
Munos, Bernardo \'Avila Pires, Michal Valko
- Abstract要約: 本稿では,多段階政策改善と政策評価を組み合わせた新しいオラクルアルゴリズムDoMo-VIを提案する。
次に,DoMo-VIアルゴリズムの現実的なインスタンス化である2段階のオフポリチック・アクター・クリティック(DoMo-AC)を提案する。
- 参考スコア(独自算出の注目度): 48.60180355291149
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multi-step learning applies lookahead over multiple time steps and has proved
valuable in policy evaluation settings. However, in the optimal control case,
the impact of multi-step learning has been relatively limited despite a number
of prior efforts. Fundamentally, this might be because multi-step policy
improvements require operations that cannot be approximated by stochastic
samples, hence hindering the widespread adoption of such methods in practice.
To address such limitations, we introduce doubly multi-step off-policy VI
(DoMo-VI), a novel oracle algorithm that combines multi-step policy
improvements and policy evaluations. DoMo-VI enjoys guaranteed convergence
speed-up to the optimal policy and is applicable in general off-policy learning
settings. We then propose doubly multi-step off-policy actor-critic (DoMo-AC),
a practical instantiation of the DoMo-VI algorithm. DoMo-AC introduces a
bias-variance trade-off that ensures improved policy gradient estimates. When
combined with the IMPALA architecture, DoMo-AC has showed improvements over the
baseline algorithm on Atari-57 game benchmarks.
- Abstract(参考訳): マルチステップ学習は、複数の時間ステップにルックアヘッドを適用し、ポリシー評価設定で価値が証明されている。
しかし、最適制御の場合、事前の努力にもかかわらず、多段階学習の影響は相対的に限定されている。
基本的には、多段階の政策改善は確率的なサンプルで近似できない操作を必要とするため、実際にそのような手法が広く採用されるのを妨げる可能性がある。
このような制約に対処するため,多段階政策改善と政策評価を組み合わせた新しいオラクルアルゴリズムDoMo-VIを導入する。
DoMo-VIは、最適ポリシーに対するコンバージェンス・スピードアップを保証し、一般的な政治以外の学習環境に適用できる。
次に,DoMo-VIアルゴリズムの現実的なインスタンス化である2段階のオフポリチック・アクター・クリティック(DoMo-AC)を提案する。
DoMo-ACは、政策勾配の推定を改善するバイアス分散トレードオフを導入している。
IMPALAアーキテクチャと組み合わせると、DoMo-ACはAtari-57ゲームベンチマークのベースラインアルゴリズムよりも改善されている。
関連論文リスト
- Zeroth-Order Actor-Critic [6.5158195776494]
本稿では,この2つの手法をオンラインアクター・クリティカル・アーキテクチャに統一するゼロ階アクター・クリティカル・アルゴリズム(ZOAC)を提案する。
提案手法は,ZOACが0次・1次ベースラインアルゴリズムより優れる,多種多様なポリシーを用いて,多種多様な連続制御ベンチマークを用いて評価する。
論文 参考訳(メタデータ) (2022-01-29T07:09:03Z) - Offline RL Without Off-Policy Evaluation [49.11859771578969]
政治Qを用いた制約付き/規則化された政策改善の一段階を単に行うだけで、行動方針の予測が驚くほどうまく機能することを示す。
この1ステップのアルゴリズムは、D4RLベンチマークの大部分において、以前報告された反復アルゴリズムの結果を上回っている。
論文 参考訳(メタデータ) (2021-06-16T16:04:26Z) - Semi-On-Policy Training for Sample Efficient Multi-Agent Policy
Gradients [51.749831824106046]
本稿では,オンライン政策グラデーション手法のサンプル非効率性に効果的かつ効率的な手法として,セミ・オン・ポリティ(SOP)トレーニングを導入する。
提案手法は,様々なSMACタスクにおいて,最先端の値ベース手法よりも優れた性能を示す。
論文 参考訳(メタデータ) (2021-04-27T19:37:01Z) - Addressing Action Oscillations through Learning Policy Inertia [26.171039226334504]
Policy Inertia Controller (PIC) は、既製のDRLアルゴリズムの汎用的なプラグインフレームワークとして機能する。
PIC強化政策の一般的なトレーニングアルゴリズムとしてNested Policy Iterationを提案する。
DRLアルゴリズム、すなわちNested Soft Actor-Criticを導出する。
論文 参考訳(メタデータ) (2021-03-03T09:59:43Z) - Optimization Issues in KL-Constrained Approximate Policy Iteration [48.24321346619156]
多くの強化学習アルゴリズムは、近似ポリシー反復(API)のバージョンと見なすことができる。
標準APIはしばしば動作が悪いが、KL-divergenceによる各ポリシー更新を以前のポリシーに正規化することで学習が安定化できることが示されている。
TRPO、MPO、VMPOなどの一般的な実用的なアルゴリズムは、連続ポリシーのKL分割に関する制約によって正規化を置き換える。
論文 参考訳(メタデータ) (2021-02-11T19:35:33Z) - Variance-Reduced Off-Policy Memory-Efficient Policy Search [61.23789485979057]
政治政策の最適化は強化学習において難しい問題である。
オフポリシーアルゴリズムはメモリ効率が高く、オフポリシーサンプルから学ぶことができる。
論文 参考訳(メタデータ) (2020-09-14T16:22:46Z) - Off-Policy Multi-Agent Decomposed Policy Gradients [30.389041305278045]
我々は、MAPGアルゴリズムの性能を阻害する原因を調査し、マルチエージェント分解ポリシー勾配法(DOP)を提案する。
DOPは効率的な非政治学習をサポートし、中央集権型ミスマッチと信用割当の問題に対処する。
さらに、StarCraft IIマイクロマネジメントベンチマークとマルチエージェント粒子環境に関する実証的な評価は、DOPが最先端の値ベースおよびポリシーベースのマルチエージェント強化学習アルゴリズムよりも大幅に優れていることを示している。
論文 参考訳(メタデータ) (2020-07-24T02:21:55Z) - FACMAC: Factored Multi-Agent Centralised Policy Gradients [103.30380537282517]
FACtored Multi-Agent Centralized Policy gradients (FACMAC)を提案する。
離散的および連続的な行動空間における協調的マルチエージェント強化学習のための新しい手法である。
我々は,マルチエージェント粒子環境の変動に対するFACMAC,新しいマルチエージェント MuJoCo ベンチマーク,およびStarCraft II マイクロマネジメントタスクの挑戦的セットについて評価した。
論文 参考訳(メタデータ) (2020-03-14T21:29:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。