論文の概要: What Matters In On-Policy Reinforcement Learning? A Large-Scale
Empirical Study
- arxiv url: http://arxiv.org/abs/2006.05990v1
- Date: Wed, 10 Jun 2020 17:59:03 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-23 04:48:27.277547
- Title: What Matters In On-Policy Reinforcement Learning? A Large-Scale
Empirical Study
- Title(参考訳): オンポリシー強化学習で何が問題か?
大規模実証研究
- Authors: Marcin Andrychowicz, Anton Raichuk, Piotr Sta\'nczyk, Manu Orsini,
Sertan Girgin, Raphael Marinier, L\'eonard Hussenot, Matthieu Geist, Olivier
Pietquin, Marcin Michalski, Sylvain Gelly, Olivier Bachem
- Abstract要約: オンライン強化学習(RL)は、様々な連続制御タスクにうまく適用されている。
しかし、最先端の実装は、結果のエージェントのパフォーマンスに強く影響を与える、多数の低レベルかつ高レベルの設計決定を下します。
これらの選択は通常、文献で広く議論されることはなく、アルゴリズムの公開記述とそれらの実装の間に相違が生じている。
我々は,「50以上の選択肢」を統一型オンラインRLフレームワークに実装し,大規模な実証研究におけるその影響を調査する。
- 参考スコア(独自算出の注目度): 50.79125250286453
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In recent years, on-policy reinforcement learning (RL) has been successfully
applied to many different continuous control tasks. While RL algorithms are
often conceptually simple, their state-of-the-art implementations take numerous
low- and high-level design decisions that strongly affect the performance of
the resulting agents. Those choices are usually not extensively discussed in
the literature, leading to discrepancy between published descriptions of
algorithms and their implementations. This makes it hard to attribute progress
in RL and slows down overall progress [Engstrom'20]. As a step towards filling
that gap, we implement >50 such ``choices'' in a unified on-policy RL
framework, allowing us to investigate their impact in a large-scale empirical
study. We train over 250'000 agents in five continuous control environments of
different complexity and provide insights and practical recommendations for
on-policy training of RL agents.
- Abstract(参考訳): 近年, オンライン強化学習 (RL) が多種多様な連続制御タスクに適用されている。
RLアルゴリズムは概念的には単純であることが多いが、その最先端の実装は、結果のエージェントの性能に強く影響を与える、低レベルかつ高レベルの多くの決定を下す。
これらの選択は通常、文献で広く議論されることはなく、アルゴリズムとその実装の公開記述に相違が生じている。
これにより、RLの進捗を判断しにくく、全体の進捗を遅くする[Engstrom'20]。
このギャップを埋めるためのステップとして、50以上の‘choices’を統一されたオンポリシーrlフレームワークに実装し、大規模な実証研究でその影響を調査できるようにしました。
複雑度が異なる5つの連続制御環境において,250,000以上のエージェントを訓練し,rlエージェントのオンポリシートレーニングに対する洞察と実践的推奨を提供する。
関連論文リスト
- Towards Sample-Efficiency and Generalization of Transfer and Inverse Reinforcement Learning: A Comprehensive Literature Review [50.67937325077047]
本稿では,転送および逆強化学習(T-IRL)によるRLアルゴリズムのサンプル効率と一般化を実現するための総合的なレビューを行う。
以上の結果から,最近の研究成果の大部分は,人間のループとシム・トゥ・リアル戦略を活用することで,上記の課題に対処していることが示唆された。
IRL構造の下では、経験の少ない移行と、そのようなフレームワークのマルチエージェントおよびマルチインテンション問題への拡張を必要とするトレーニングスキームが近年研究者の優先事項となっている。
論文 参考訳(メタデータ) (2024-11-15T15:18:57Z) - Exploiting Estimation Bias in Clipped Double Q-Learning for Continous Control Reinforcement Learning Tasks [5.968716050740402]
本稿では,連続制御タスクに対するアクター・クライブ法における推定バイアスの対処と活用に焦点を当てた。
RLエージェントのトレーニング中に最も有利な推定バイアスを動的に選択するためのBias Exploiting (BE) 機構を設計する。
多くの最先端のDeep RLアルゴリズムはBE機構を備えており、性能や計算の複雑さを妨げない。
論文 参考訳(メタデータ) (2024-02-14T10:44:03Z) - Counterfactual Explanation Policies in RL [3.674863913115432]
COUNTERPOLは、反実的説明を用いて強化学習ポリシーを分析する最初のフレームワークである。
RLにおけるCounterpolと広く利用されている信頼領域ベースのポリシー最適化手法の理論的関係を確立する。
論文 参考訳(メタデータ) (2023-07-25T01:14:56Z) - A Survey of Meta-Reinforcement Learning [69.76165430793571]
我々は,メタRLと呼ばれるプロセスにおいて,機械学習問題自体として,より優れたRLアルゴリズムを開発した。
本稿では,タスク分布の存在と各タスクに利用可能な学習予算に基づいて,高レベルでメタRL研究をクラスタ化する方法について議論する。
RL実践者のための標準ツールボックスにメタRLを組み込むことの道程について,オープンな問題を提示することによって,結論を下す。
論文 参考訳(メタデータ) (2023-01-19T12:01:41Z) - When does return-conditioned supervised learning work for offline
reinforcement learning? [51.899892382786526]
本研究では,リターン条件付き教師あり学習の能力と限界について検討する。
RCSLは、より伝統的な動的プログラミングベースのアルゴリズムに必要なものよりも強い仮定のセットで最適なポリシーを返す。
論文 参考訳(メタデータ) (2022-06-02T15:05:42Z) - Jump-Start Reinforcement Learning [68.82380421479675]
本稿では、オフラインデータやデモ、あるいは既存のポリシーを使ってRLポリシーを初期化するメタアルゴリズムを提案する。
特に,タスク解決に2つのポリシーを利用するアルゴリズムであるJump-Start Reinforcement Learning (JSRL)を提案する。
実験により、JSRLは既存の模倣と強化学習アルゴリズムを大幅に上回っていることを示す。
論文 参考訳(メタデータ) (2022-04-05T17:25:22Z) - Deep RL With Information Constrained Policies: Generalization in
Continuous Control [21.46148507577606]
情報フローに対する自然な制約は, 連続制御タスクにおいて, 人工エージェントに干渉する可能性があることを示す。
CLAC(Capacity-Limited Actor-Critic)アルゴリズムを実装した。
実験の結果、CLACは代替手法と比較して、トレーニング環境と修正テスト環境の一般化に改善をもたらすことがわかった。
論文 参考訳(メタデータ) (2020-10-09T15:42:21Z) - Dynamics Generalization via Information Bottleneck in Deep Reinforcement
Learning [90.93035276307239]
本稿では,RLエージェントのより優れた一般化を実現するために,情報理論正則化目標とアニーリングに基づく最適化手法を提案する。
迷路ナビゲーションからロボットタスクまで、さまざまな領域において、我々のアプローチの極端な一般化の利点を実証する。
この研究は、タスク解決のために冗長な情報を徐々に取り除き、RLの一般化を改善するための原則化された方法を提供する。
論文 参考訳(メタデータ) (2020-08-03T02:24:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。