論文の概要: TeachMyAgent: a Benchmark for Automatic Curriculum Learning in Deep RL
- arxiv url: http://arxiv.org/abs/2103.09815v1
- Date: Wed, 17 Mar 2021 17:59:22 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-18 12:55:39.821812
- Title: TeachMyAgent: a Benchmark for Automatic Curriculum Learning in Deep RL
- Title(参考訳): TeachMyAgent:Deep RLにおけるカリキュラム自動学習ベンチマーク
- Authors: Cl\'ement Romac, R\'emy Portelas, Katja Hofmann, Pierre-Yves Oudeyer
- Abstract要約: 複数のタスクに一般化できる自律エージェントのトレーニングは、Deep Reinforcement Learning (DRL)研究の重要なターゲットです。
DRLアルゴリズムの改善と並行して、ACL(Automatic Curriculum Learning)は、進化する能力にタスク選択を適用することで、教師アルゴリズムがDRLエージェントをより効率的に訓練する方法を研究する。
DRLエージェントを比較するために複数の標準ベンチマークが存在するが、現在ACLアルゴリズムにはそのようなものは存在しない。
- 参考スコア(独自算出の注目度): 23.719833581321033
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Training autonomous agents able to generalize to multiple tasks is a key
target of Deep Reinforcement Learning (DRL) research. In parallel to improving
DRL algorithms themselves, Automatic Curriculum Learning (ACL) study how
teacher algorithms can train DRL agents more efficiently by adapting task
selection to their evolving abilities. While multiple standard benchmarks exist
to compare DRL agents, there is currently no such thing for ACL algorithms.
Thus, comparing existing approaches is difficult, as too many experimental
parameters differ from paper to paper. In this work, we identify several key
challenges faced by ACL algorithms. Based on these, we present TeachMyAgent
(TA), a benchmark of current ACL algorithms leveraging procedural task
generation. It includes 1) challenge-specific unit-tests using variants of a
procedural Box2D bipedal walker environment, and 2) a new procedural Parkour
environment combining most ACL challenges, making it ideal for global
performance assessment. We then use TeachMyAgent to conduct a comparative study
of representative existing approaches, showcasing the competitiveness of some
ACL algorithms that do not use expert knowledge. We also show that the Parkour
environment remains an open problem. We open-source our environments, all
studied ACL algorithms (collected from open-source code or re-implemented), and
DRL students in a Python package available at
https://github.com/flowersteam/TeachMyAgent.
- Abstract(参考訳): 複数のタスクに一般化できる自律エージェントの訓練は、Deep Reinforcement Learning (DRL)研究の重要なターゲットである。
DRLアルゴリズム自体の改善と並行して、ACL(Automatic Curriculum Learning)は、進化する能力にタスク選択を適用することで、教師アルゴリズムがDRLエージェントをより効率的に訓練する方法を研究する。
DRLエージェントを比較するために複数の標準ベンチマークが存在するが、現在ACLアルゴリズムにはそのようなものはない。
したがって, 実験パラメータが紙ごとに多すぎるため, 既存手法との比較は困難である。
本研究では,ACLアルゴリズムが直面するいくつかの重要な課題を明らかにする。
これらに基づき、手続き的タスク生成を利用した現在のACLアルゴリズムのベンチマークであるTeachMyAgent(TA)を提案する。
本研究は,1) 手続き型Box2D二足歩行環境の変種を用いた課題固有の単体テスト,2) ACLの課題と組み合わせた新しい手続き型Parkour環境を含む。
次に、TeachMyAgentを用いて既存の代表的なアプローチの比較研究を行い、専門家の知識を使わないいくつかのACLアルゴリズムの競争力を示す。
また、Parkour環境は依然としてオープンな問題であることを示す。
ACLアルゴリズム(オープンソースコードからコンパイルされたり、再実装された)とDRLの学生がPythonパッケージをhttps://github.com/flowersteam/TeachMyAgent.comで公開しています。
関連論文リスト
- ArCHer: Training Language Model Agents via Hierarchical Multi-Turn RL [80.10358123795946]
大規模言語モデルを微調整するためのマルチターンRLアルゴリズムを構築するためのフレームワークを開発する。
我々のフレームワークは階層的なRLアプローチを採用し、2つのRLアルゴリズムを並列に実行している。
実験により,ArCHerはエージェントタスクの効率と性能を大幅に向上させることがわかった。
論文 参考訳(メタデータ) (2024-02-29T18:45:56Z) - GUARD: A Safe Reinforcement Learning Benchmark [11.887626936994883]
一般化SAfe強化学習開発ベンチマーク
GUARDは、さまざまなRLエージェント、タスク、安全制約仕様を備えた一般化されたベンチマークである。
本稿では,GUARDを用いた各種タスク設定における最先端安全RLアルゴリズムの比較を行い,今後の作業が構築できるベースラインを確立する。
論文 参考訳(メタデータ) (2023-05-23T04:40:29Z) - Mastering the Unsupervised Reinforcement Learning Benchmark from Pixels [112.63440666617494]
強化学習アルゴリズムは成功するが、エージェントと環境の間の大量の相互作用を必要とする。
本稿では,教師なしモデルベースRLを用いてエージェントを事前学習する手法を提案する。
我々はReal-Word RLベンチマークにおいて、適応中の環境摂動に対する抵抗性を示唆し、堅牢な性能を示す。
論文 参考訳(メタデータ) (2022-09-24T14:22:29Z) - Jump-Start Reinforcement Learning [68.82380421479675]
本稿では、オフラインデータやデモ、あるいは既存のポリシーを使ってRLポリシーを初期化するメタアルゴリズムを提案する。
特に,タスク解決に2つのポリシーを利用するアルゴリズムであるJump-Start Reinforcement Learning (JSRL)を提案する。
実験により、JSRLは既存の模倣と強化学習アルゴリズムを大幅に上回っていることを示す。
論文 参考訳(メタデータ) (2022-04-05T17:25:22Z) - Text Generation with Efficient (Soft) Q-Learning [91.47743595382758]
強化学習(RL)は、任意のタスクメトリクスを報酬としてプラグインすることで、より柔軟なソリューションを提供する。
ソフトQ-ラーニングの観点からテキスト生成のための新しいRL式を導入する。
雑音/負の例から学習し、敵攻撃、即時生成など、幅広いタスクにアプローチを適用する。
論文 参考訳(メタデータ) (2021-06-14T18:48:40Z) - RL-DARTS: Differentiable Architecture Search for Reinforcement Learning [62.95469460505922]
我々は、強化学習(RL)における微分可能なアーキテクチャ探索(DARTS)の最初の応用の1つであるRL-DARTSを紹介する。
画像エンコーダをDARTSスーパーネットに置き換えることにより、検索方法はサンプリング効率が高く、余分な計算資源が最小限必要であり、また、既存のコードに小さな変更を加える必要がなく、オフ・ポリティクスとオン・ポリティクスのRLアルゴリズムとも互換性がある。
スーパーネットはより優れたセルを徐々に学習し、手作業で設計したポリシーに対して高い競争力を持つ代替アーキテクチャへとつながり、RLポリシーの以前の設計選択も検証できることを示す。
論文 参考訳(メタデータ) (2021-06-04T03:08:43Z) - Continuous Coordination As a Realistic Scenario for Lifelong Learning [6.044372319762058]
ゼロショット設定と少数ショット設定の両方をサポートするマルチエージェント生涯学習テストベッドを導入する。
最近のMARL法、および制限メモリおよび計算における最新のLLLアルゴリズムのベンチマークを評価します。
我々は経験的に、我々の設定で訓練されたエージェントは、以前の作業による追加の仮定なしに、未発見のエージェントとうまく協調できることを示します。
論文 参考訳(メタデータ) (2021-03-04T18:44:03Z) - Meta Automatic Curriculum Learning [35.13646854355393]
メタACLの概念を導入し,それをブラックボックスRL学習者の文脈で形式化する。
本稿では,メタACLの初回インスタンス化であるAGAINについて述べる。
論文 参考訳(メタデータ) (2020-11-16T14:56:42Z) - SUNRISE: A Simple Unified Framework for Ensemble Learning in Deep
Reinforcement Learning [102.78958681141577]
SUNRISEは単純な統一アンサンブル法であり、様々な非政治的な深層強化学習アルゴリズムと互換性がある。
SUNRISEは, (a) アンサンブルに基づく重み付きベルマンバックアップと, (b) 最上位の自信境界を用いて行動を選択する推論手法を統合し, 効率的な探索を行う。
論文 参考訳(メタデータ) (2020-07-09T17:08:44Z) - Active Finite Reward Automaton Inference and Reinforcement Learning
Using Queries and Counterexamples [31.31937554018045]
深部強化学習(RL)法は, 良好な性能を達成するために, 環境探索からの集中的なデータを必要とする。
本稿では,RLエージェントが探索過程を推論し,その将来的な探索を効果的に導くための高レベルの知識を蒸留するフレームワークを提案する。
具体的には、L*学習アルゴリズムを用いて、有限報酬オートマトンという形で高レベルの知識を学習する新しいRLアルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-06-28T21:13:08Z) - Trying AGAIN instead of Trying Longer: Prior Learning for Automatic
Curriculum Learning [39.489869446313065]
Deep RL(DRL)コミュニティにおける大きな課題は、見えない状況に対して汎用的なエージェントを訓練することである。
そこで本研究では,(1)教師アルゴリズムがDRLエージェントを高探索カリキュラムで学習し,(2)初回から学習した前処理を蒸留して「専門カリキュラム」を生成する2段階のACLアプローチを提案する。
本研究の目的は,最先端技術に対する平均50%の改善を示すことに加えて,複数の学習者を対象としたACL技術の改良を指向した新たな研究方向性の第一の例を示すことである。
論文 参考訳(メタデータ) (2020-04-07T07:30:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。