論文の概要: Learning to Guide Multiple Heterogeneous Actors from a Single Human
Demonstration via Automatic Curriculum Learning in StarCraft II
- arxiv url: http://arxiv.org/abs/2205.05784v1
- Date: Wed, 11 May 2022 21:53:11 GMT
- ステータス: 処理完了
- システム内更新日: 2022-05-13 14:18:35.278963
- Title: Learning to Guide Multiple Heterogeneous Actors from a Single Human
Demonstration via Automatic Curriculum Learning in StarCraft II
- Title(参考訳): スタークラフトにおける自動カリキュラム学習による1人の人間デモから複数の異種アクターをガイドする学習II
- Authors: Nicholas Waytowich, James Hare, Vinicius G. Goecks, Mark Mittrick,
John Richardson, Anjon Basak, Derrik E. Asher
- Abstract要約: 本研究では,複数の異種アクターを指揮する深層強化学習エージェントを訓練することを目的とする。
この結果から,自動カリキュラム学習によって訓練されたエージェントは,最先端の深層強化学習ベースラインより優れていることがわかった。
- 参考スコア(独自算出の注目度): 0.5911087507716211
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Traditionally, learning from human demonstrations via direct behavior cloning
can lead to high-performance policies given that the algorithm has access to
large amounts of high-quality data covering the most likely scenarios to be
encountered when the agent is operating. However, in real-world scenarios,
expert data is limited and it is desired to train an agent that learns a
behavior policy general enough to handle situations that were not demonstrated
by the human expert. Another alternative is to learn these policies with no
supervision via deep reinforcement learning, however, these algorithms require
a large amount of computing time to perform well on complex tasks with
high-dimensional state and action spaces, such as those found in StarCraft II.
Automatic curriculum learning is a recent mechanism comprised of techniques
designed to speed up deep reinforcement learning by adjusting the difficulty of
the current task to be solved according to the agent's current capabilities.
Designing a proper curriculum, however, can be challenging for sufficiently
complex tasks, and thus we leverage human demonstrations as a way to guide
agent exploration during training. In this work, we aim to train deep
reinforcement learning agents that can command multiple heterogeneous actors
where starting positions and overall difficulty of the task are controlled by
an automatically-generated curriculum from a single human demonstration. Our
results show that an agent trained via automated curriculum learning can
outperform state-of-the-art deep reinforcement learning baselines and match the
performance of the human expert in a simulated command and control task in
StarCraft II modeled over a real military scenario.
- Abstract(参考訳): 伝統的に、直接行動クローニングによる人間のデモンストレーションからの学習は、エージェントが動作している時に遭遇する最も可能性の高いシナリオをカバーする大量の高品質なデータにアクセスできるため、高性能なポリシーにつながる可能性がある。
しかし、現実のシナリオでは、専門家のデータは限られており、人間の専門家が示さなかった状況を扱うのに十分な行動方針を学習するエージェントを訓練することが望まれる。
もう一つの選択肢は、深い強化学習を通さずにこれらのポリシーを学習することであるが、StarCraft IIのような高次元の状態や行動空間を持つ複雑なタスクにおいて、高い計算時間を必要とする。
自動カリキュラム学習は、エージェントの現在の能力に応じて解決すべき課題の難易度を調整することにより、深層強化学習を高速化する技術によって構成された最近のメカニズムである。
しかし、適切なカリキュラムを設計することは、十分に複雑なタスクには困難であり、訓練中のエージェント探索を導く方法として人間のデモンストレーションを活用する。
本研究では,複数の異種アクターを指揮する深層強化学習エージェントを訓練し,タスクの開始位置と全体的な難易度を1人の人間による実演から自動生成するカリキュラムで制御することを目的とする。
自動カリキュラム学習により訓練されたエージェントは、最先端の強化学習ベースラインを上回り、実戦シナリオをモデル化したStarCraft IIのシミュレーションコマンドと制御タスクにおいて、人間の専門家のパフォーマンスに匹敵することを示す。
関連論文リスト
- Divide & Conquer Imitation Learning [75.31752559017978]
模倣学習は学習プロセスをブートストラップするための強力なアプローチである。
本稿では,専門的軌道の状態から複雑なロボットタスクを模倣する新しいアルゴリズムを提案する。
提案手法は,非ホロノミックナビゲーションタスクを模倣し,非常に高いサンプル効率で複雑なロボット操作タスクにスケールすることを示す。
論文 参考訳(メタデータ) (2022-04-15T09:56:50Z) - Robust Reinforcement Learning via Genetic Curriculum [5.421464476555662]
遺伝的カリキュラムは、エージェントが現在失敗しているシナリオを自動的に識別し、関連するカリキュラムを生成するアルゴリズムである。
我々の実証研究は、既存の技術アルゴリズムよりも堅牢性の向上を示し、2倍から8倍のエージェントが失敗する確率の低いトレーニングカリキュラムを提供する。
論文 参考訳(メタデータ) (2022-02-17T01:14:20Z) - Hierarchical Skills for Efficient Exploration [70.62309286348057]
強化学習において、事前訓練された低レベルスキルは、探索を大幅に促進する可能性がある。
下流タスクの以前の知識は、スキルデザインにおける一般性(きめ細かい制御)と特異性(より高速な学習)の適切なバランスをとるために必要である。
教師なしの方法で様々な複雑さのスキルを習得する階層的スキル学習フレームワークを提案する。
論文 参考訳(メタデータ) (2021-10-20T22:29:32Z) - Automating Privilege Escalation with Deep Reinforcement Learning [71.87228372303453]
本研究では,エージェントの訓練に深層強化学習を用いることで,悪意あるアクターの潜在的な脅威を実証する。
本稿では,最先端の強化学習アルゴリズムを用いて,局所的な特権エスカレーションを行うエージェントを提案する。
我々のエージェントは、実際の攻撃センサーデータを生成し、侵入検知システムの訓練と評価に利用できる。
論文 参考訳(メタデータ) (2021-10-04T12:20:46Z) - Bottom-Up Skill Discovery from Unsegmented Demonstrations for
Long-Horizon Robot Manipulation [55.31301153979621]
我々は,実世界の長距離ロボット操作作業に,スキル発見による取り組みを行う。
未解決のデモンストレーションから再利用可能なスキルのライブラリを学ぶためのボトムアップアプローチを提案する。
提案手法は,多段階操作タスクにおける最先端の模倣学習手法よりも優れた性能を示した。
論文 参考訳(メタデータ) (2021-09-28T16:18:54Z) - Hierarchical Few-Shot Imitation with Skill Transition Models [66.81252581083199]
FIST(Few-shot Imitation with Skill Transition Models)は、オフラインデータからスキルを抽出し、それらを利用して見えないタスクに一般化するアルゴリズムである。
本稿では,FISTが新たなタスクに一般化し,ナビゲーション実験において従来のベースラインを大幅に上回っていることを示す。
論文 参考訳(メタデータ) (2021-07-19T15:56:01Z) - Active Hierarchical Imitation and Reinforcement Learning [0.0]
本研究では,我々が開発した階層的模倣強化学習フレームワークを用いて,様々な模倣学習アルゴリズムを探索し,アクティブ学習アルゴリズムを設計した。
実験の結果,daggerと報酬ベースのアクティブラーニング手法は,トレーニング過程において身体的および精神的により多くの努力を省きながら,よりよいパフォーマンスを達成できることがわかった。
論文 参考訳(メタデータ) (2020-12-14T08:27:27Z) - Human-in-the-Loop Imitation Learning using Remote Teleoperation [72.2847988686463]
6-DoF操作設定に合わせたデータ収集システムを構築します。
システムによって収集された新しいデータに基づいて,ポリシーを反復的にトレーニングするアルゴリズムを開発した。
介入型システムで収集したデータに基づいて訓練されたエージェントと、非介入型デモ参加者が収集した同等数のサンプルで訓練されたアルゴリズムを上回るエージェントを実証する。
論文 参考訳(メタデータ) (2020-12-12T05:30:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。