論文の概要: Learning to Guide Multiple Heterogeneous Actors from a Single Human
Demonstration via Automatic Curriculum Learning in StarCraft II
- arxiv url: http://arxiv.org/abs/2205.05784v1
- Date: Wed, 11 May 2022 21:53:11 GMT
- ステータス: 処理完了
- システム内更新日: 2022-05-13 14:18:35.278963
- Title: Learning to Guide Multiple Heterogeneous Actors from a Single Human
Demonstration via Automatic Curriculum Learning in StarCraft II
- Title(参考訳): スタークラフトにおける自動カリキュラム学習による1人の人間デモから複数の異種アクターをガイドする学習II
- Authors: Nicholas Waytowich, James Hare, Vinicius G. Goecks, Mark Mittrick,
John Richardson, Anjon Basak, Derrik E. Asher
- Abstract要約: 本研究では,複数の異種アクターを指揮する深層強化学習エージェントを訓練することを目的とする。
この結果から,自動カリキュラム学習によって訓練されたエージェントは,最先端の深層強化学習ベースラインより優れていることがわかった。
- 参考スコア(独自算出の注目度): 0.5911087507716211
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Traditionally, learning from human demonstrations via direct behavior cloning
can lead to high-performance policies given that the algorithm has access to
large amounts of high-quality data covering the most likely scenarios to be
encountered when the agent is operating. However, in real-world scenarios,
expert data is limited and it is desired to train an agent that learns a
behavior policy general enough to handle situations that were not demonstrated
by the human expert. Another alternative is to learn these policies with no
supervision via deep reinforcement learning, however, these algorithms require
a large amount of computing time to perform well on complex tasks with
high-dimensional state and action spaces, such as those found in StarCraft II.
Automatic curriculum learning is a recent mechanism comprised of techniques
designed to speed up deep reinforcement learning by adjusting the difficulty of
the current task to be solved according to the agent's current capabilities.
Designing a proper curriculum, however, can be challenging for sufficiently
complex tasks, and thus we leverage human demonstrations as a way to guide
agent exploration during training. In this work, we aim to train deep
reinforcement learning agents that can command multiple heterogeneous actors
where starting positions and overall difficulty of the task are controlled by
an automatically-generated curriculum from a single human demonstration. Our
results show that an agent trained via automated curriculum learning can
outperform state-of-the-art deep reinforcement learning baselines and match the
performance of the human expert in a simulated command and control task in
StarCraft II modeled over a real military scenario.
- Abstract(参考訳): 伝統的に、直接行動クローニングによる人間のデモンストレーションからの学習は、エージェントが動作している時に遭遇する最も可能性の高いシナリオをカバーする大量の高品質なデータにアクセスできるため、高性能なポリシーにつながる可能性がある。
しかし、現実のシナリオでは、専門家のデータは限られており、人間の専門家が示さなかった状況を扱うのに十分な行動方針を学習するエージェントを訓練することが望まれる。
もう一つの選択肢は、深い強化学習を通さずにこれらのポリシーを学習することであるが、StarCraft IIのような高次元の状態や行動空間を持つ複雑なタスクにおいて、高い計算時間を必要とする。
自動カリキュラム学習は、エージェントの現在の能力に応じて解決すべき課題の難易度を調整することにより、深層強化学習を高速化する技術によって構成された最近のメカニズムである。
しかし、適切なカリキュラムを設計することは、十分に複雑なタスクには困難であり、訓練中のエージェント探索を導く方法として人間のデモンストレーションを活用する。
本研究では,複数の異種アクターを指揮する深層強化学習エージェントを訓練し,タスクの開始位置と全体的な難易度を1人の人間による実演から自動生成するカリキュラムで制御することを目的とする。
自動カリキュラム学習により訓練されたエージェントは、最先端の強化学習ベースラインを上回り、実戦シナリオをモデル化したStarCraft IIのシミュレーションコマンドと制御タスクにおいて、人間の専門家のパフォーマンスに匹敵することを示す。
関連論文リスト
- Reinforcement Learning for UAV control with Policy and Reward Shaping [0.7127008801193563]
本研究では,RLエージェントが報酬形成と政策形成を同時に行うことで,ドローンを制御できるように指導する。
その結果,両手法を同時に訓練したエージェントは,政策ベースアプローチのみを用いて訓練したエージェントよりも報酬が低いことがわかった。
論文 参考訳(メタデータ) (2022-12-06T14:46:13Z) - Robot Learning on the Job: Human-in-the-Loop Autonomy and Learning
During Deployment [25.186525630548356]
Siriusは、人間とロボットが共同作業を行うための、原則化されたフレームワークである。
部分的に自律的なロボットは、意思決定の大部分を確実に行うことを任務としている。
タスク実行から収集したデータに対するポリシーの性能を改善するための新しい学習アルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-11-15T18:53:39Z) - Human Decision Makings on Curriculum Reinforcement Learning with
Difficulty Adjustment [52.07473934146584]
我々は,カリキュラム強化学習結果を,人的意思決定プロセスから学ぶことで,難しすぎず,難しすぎるような望ましいパフォーマンスレベルに導く。
本システムは非常に並列化可能であり,大規模強化学習アプリケーションの訓練が可能となる。
強化学習性能は、人間の所望の難易度と同期してうまく調整できることが示される。
論文 参考訳(メタデータ) (2022-08-04T23:53:51Z) - Divide & Conquer Imitation Learning [75.31752559017978]
模倣学習は学習プロセスをブートストラップするための強力なアプローチである。
本稿では,専門的軌道の状態から複雑なロボットタスクを模倣する新しいアルゴリズムを提案する。
提案手法は,非ホロノミックナビゲーションタスクを模倣し,非常に高いサンプル効率で複雑なロボット操作タスクにスケールすることを示す。
論文 参考訳(メタデータ) (2022-04-15T09:56:50Z) - Bottom-Up Skill Discovery from Unsegmented Demonstrations for
Long-Horizon Robot Manipulation [55.31301153979621]
我々は,実世界の長距離ロボット操作作業に,スキル発見による取り組みを行う。
未解決のデモンストレーションから再利用可能なスキルのライブラリを学ぶためのボトムアップアプローチを提案する。
提案手法は,多段階操作タスクにおける最先端の模倣学習手法よりも優れた性能を示した。
論文 参考訳(メタデータ) (2021-09-28T16:18:54Z) - Active Hierarchical Imitation and Reinforcement Learning [0.0]
本研究では,我々が開発した階層的模倣強化学習フレームワークを用いて,様々な模倣学習アルゴリズムを探索し,アクティブ学習アルゴリズムを設計した。
実験の結果,daggerと報酬ベースのアクティブラーニング手法は,トレーニング過程において身体的および精神的により多くの努力を省きながら,よりよいパフォーマンスを達成できることがわかった。
論文 参考訳(メタデータ) (2020-12-14T08:27:27Z) - Human-in-the-Loop Imitation Learning using Remote Teleoperation [72.2847988686463]
6-DoF操作設定に合わせたデータ収集システムを構築します。
システムによって収集された新しいデータに基づいて,ポリシーを反復的にトレーニングするアルゴリズムを開発した。
介入型システムで収集したデータに基づいて訓練されたエージェントと、非介入型デモ参加者が収集した同等数のサンプルで訓練されたアルゴリズムを上回るエージェントを実証する。
論文 参考訳(メタデータ) (2020-12-12T05:30:35Z) - Continual Learning of Control Primitives: Skill Discovery via
Reset-Games [128.36174682118488]
エージェントが最小限の監督力でスキルを習得できる方法を示す。
私たちは、エージェントを学習タスクの初期状態の広いセットに"リセット"する必要があるという洞察を利用して、多様な"リセットスキル"を学ぶための自然な設定を提供します。
論文 参考訳(メタデータ) (2020-11-10T18:07:44Z) - Planning to Explore via Self-Supervised World Models [120.31359262226758]
Plan2Exploreは自己監督型強化学習エージェントである。
我々は、自己監督型探索と、新しいタスクへの迅速な適応に対する新しいアプローチを提案する。
Plan2Exploreは、訓練の監督やタスク固有の相互作用がなければ、自己監督型の探査方法よりも優れている。
論文 参考訳(メタデータ) (2020-05-12T17:59:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。