論文の概要: Hierarchical Reinforcement Learning in StarCraft II with Human Expertise
in Subgoals Selection
- arxiv url: http://arxiv.org/abs/2008.03444v3
- Date: Tue, 29 Sep 2020 01:15:05 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-01 11:56:37.845809
- Title: Hierarchical Reinforcement Learning in StarCraft II with Human Expertise
in Subgoals Selection
- Title(参考訳): サブゴール選択における人間専門家によるStarCraft IIの階層的強化学習
- Authors: Xinyi Xu and Tiancheng Huang and Pengfei Wei and Akshay Narayan and
Tze-Yun Leong
- Abstract要約: 本稿では,人的知識に基づく暗黙的なカリキュラム設計を通じて,HRL,経験リプレイ,効果的なサブゴール選択を統合した新しい手法を提案する。
提案手法は, フラットおよびエンド・ツー・エンドのRL法よりも優れたサンプリング効率を実現し, エージェントの性能を説明する効果的な方法を提供する。
- 参考スコア(独自算出の注目度): 13.136763521789307
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This work is inspired by recent advances in hierarchical reinforcement
learning (HRL) (Barto and Mahadevan 2003; Hengst 2010), and improvements in
learning efficiency from heuristic-based subgoal selection, experience replay
(Lin 1993; Andrychowicz et al. 2017), and task-based curriculum learning
(Bengio et al. 2009; Zaremba and Sutskever 2014). We propose a new method to
integrate HRL, experience replay and effective subgoal selection through an
implicit curriculum design based on human expertise to support sample-efficient
learning and enhance interpretability of the agent's behavior. Human expertise
remains indispensable in many areas such as medicine (Buch, Ahmed, and
Maruthappu 2018) and law (Cath 2018), where interpretability, explainability
and transparency are crucial in the decision making process, for ethical and
legal reasons. Our method simplifies the complex task sets for achieving the
overall objectives by decomposing them into subgoals at different levels of
abstraction. Incorporating relevant subjective knowledge also significantly
reduces the computational resources spent in exploration for RL, especially in
high speed, changing, and complex environments where the transition dynamics
cannot be effectively learned and modelled in a short time. Experimental
results in two StarCraft II (SC2) (Vinyals et al. 2017) minigames demonstrate
that our method can achieve better sample efficiency than flat and end-to-end
RL methods, and provides an effective method for explaining the agent's
performance.
- Abstract(参考訳): この研究は、階層的強化学習(HRL)の最近の進歩(Barto and Mahadevan 2003; Hengst 2010)、ヒューリスティックベースのサブゴール選択による学習効率の向上(Lin 1993; Andrychowicz et al. 2017)、タスクベースのカリキュラム学習(Bengio et al. 2009; Zaremba and Sutskever 2014)に触発されたものである。
本稿では,人的知識に基づく暗黙的なカリキュラム設計を通じて,HRLと経験的リプレイ,効果的なサブゴール選択を統合し,サンプル効率の学習を支援し,エージェントの行動の解釈可能性を高める新しい手法を提案する。
医療 (Buch, Ahmed, Maruthappu 2018) や法 (Cath 2018) では、倫理的および法的理由から、意思決定プロセスにおいて解釈可能性、説明可能性、透明性が不可欠である。
本手法は,抽象度の異なるサブゴールに分解することで,目的全体を達成するための複雑なタスクセットを単純化する。
関連する主観的知識を組み込むことで、rlの探索に費やされる計算資源、特に短時間でトランジッションダイナミクスを効果的に学習しモデル化できない高速、変化、複雑な環境を大幅に削減することができる。
2つのStarCraft II (SC2) のミニゲーム(Vinyals et al. 2017) による実験結果から,本手法はフラットおよびエンド・ツー・エンドのRL法よりも優れたサンプリング効率を実現し,エージェントの性能を説明する効果的な方法を提供する。
関連論文リスト
- ReLIC: A Recipe for 64k Steps of In-Context Reinforcement Learning for Embodied AI [44.77897322913095]
エンボディエージェントのためのテキスト内強化学習のための新しい手法であるReLICを提案する。
Relicでは、エージェントは64,000ステップのコンテキスト内エクスペリエンスを使用して、新しい環境に適応することができる。
Relicは、専門家によるデモンストレーションでトレーニングを受けなくても、数発の模倣学習が可能であることに気付きました。
論文 参考訳(メタデータ) (2024-10-03T17:58:11Z) - Trial and Error: Exploration-Based Trajectory Optimization for LLM Agents [49.85633804913796]
本稿では,ETOと呼ばれる探索に基づく軌道最適化手法を提案する。
この学習方法はオープンLLMエージェントの性能を向上させるために設計されている。
3つの複雑なタスクに関する実験は、ETOがベースライン性能をはるかに上回っていることを示す。
論文 参考訳(メタデータ) (2024-03-04T21:50:29Z) - Efficient Reinforcement Learning via Decoupling Exploration and Utilization [6.305976803910899]
強化学習(Reinforcement Learning, RL)は、ゲーム、ロボティクス、自動運転車など、さまざまな分野やアプリケーションで大きな成功を収めている。
本研究の目的は,探索と利用を分離して効率よく学習するエージェントを訓練することであり,エージェントが最適解の難解を逃れられるようにすることである。
提案したOPARL(Optimistic and Pessimistic Actor Reinforcement Learning)アルゴリズムに実装した。
論文 参考訳(メタデータ) (2023-12-26T09:03:23Z) - RLIF: Interactive Imitation Learning as Reinforcement Learning [56.997263135104504]
我々は,対話型模倣学習と類似するが,さらに実践的な仮定の下で,非政治強化学習によってパフォーマンスが向上できることを実証する。
提案手法は,ユーザ介入信号を用いた強化学習を報奨として利用する。
このことは、インタラクティブな模倣学習において介入する専門家がほぼ最適であるべきだという仮定を緩和し、アルゴリズムが潜在的に最適でない人間の専門家よりも改善される行動を学ぶことを可能にする。
論文 参考訳(メタデータ) (2023-11-21T21:05:21Z) - Learning to Optimize for Reinforcement Learning [58.01132862590378]
強化学習(Reinforcement Learning, RL)は、教師付き学習とは本質的に異なり、実際、これらの学習は単純なRLタスクでもうまく機能しない。
エージェント勾配分布は非独立で同一分布であり、非効率なメタトレーニングをもたらす。
おもちゃのタスクでしか訓練されていないが、我々の学習はブラックスの目に見えない複雑なタスクを一般化できることを示した。
論文 参考訳(メタデータ) (2023-02-03T00:11:02Z) - Planning for Sample Efficient Imitation Learning [52.44953015011569]
現在の模倣アルゴリズムは、高い性能と高環境サンプル効率を同時に達成するのに苦労している。
本研究では,環境内サンプルの効率と性能を同時に達成できる計画型模倣学習手法であるEfficientImitateを提案する。
実験結果から,EIは性能と試料効率の両立を図った。
論文 参考訳(メタデータ) (2022-10-18T05:19:26Z) - Basis for Intentions: Efficient Inverse Reinforcement Learning using
Past Experience [89.30876995059168]
逆強化学習(IRL) - エージェントの報酬関数をその振る舞いを観察することから推測する。
本稿では、エージェントの報酬関数を観察することのできないIRLの問題に対処する。
論文 参考訳(メタデータ) (2022-08-09T17:29:49Z) - JueWu-MC: Playing Minecraft with Sample-efficient Hierarchical
Reinforcement Learning [13.57305458734617]
本稿では,表現学習と模倣学習を併用したサンプル効率の高い階層的RLアプローチであるJueWu-MCを提案する。
具体的には、高レベルのコントローラがオプションを制御するポリシーを学習し、低レベルのワーカーが各サブタスクの解決を学ぶという2つの階層構造を含む。
サブタスクの学習を促進するために,1)行動と表現の基盤となる関係を捉えた行動認識表現学習,2)効率的な探索のための識別器に基づく自己刺激学習,3)一貫性フィルタリングによるアンサンブル行動のクローニングなどを組み合わせた手法を提案する。
論文 参考訳(メタデータ) (2021-12-07T09:24:49Z) - Maximum Entropy Model-based Reinforcement Learning [0.0]
この研究は、探索技術とモデルに基づく強化学習を結びつけている。
モデルベースアプローチの特徴を考慮した新しい探索手法を考案した。
また,本手法がモデルベースアルゴリズムDreamerの性能を大幅に向上させることを示す。
論文 参考訳(メタデータ) (2021-12-02T13:07:29Z) - REIN-2: Giving Birth to Prepared Reinforcement Learning Agents Using
Reinforcement Learning Agents [0.0]
本稿では,課題学習の目的を課題(あるいは課題の集合)の目的にシフトさせるメタラーニング手法を提案する。
我々のモデルであるREIN-2は、RLフレームワーク内で構成されたメタ学習スキームであり、その目的は、他のRLエージェントの作り方を学ぶメタRLエージェントを開発することである。
従来の最先端のDeep RLアルゴリズムと比較して、実験結果は、人気のあるOpenAI Gym環境において、我々のモデルの顕著な性能を示している。
論文 参考訳(メタデータ) (2021-10-11T10:13:49Z) - PEBBLE: Feedback-Efficient Interactive Reinforcement Learning via
Relabeling Experience and Unsupervised Pre-training [94.87393610927812]
我々は、フィードバックと非政治学習の両方の長所を生かした、非政治的、インタラクティブな強化学習アルゴリズムを提案する。
提案手法は,従来ヒト・イン・ザ・ループ法で検討されていたよりも複雑度の高いタスクを学習可能であることを実証する。
論文 参考訳(メタデータ) (2021-06-09T14:10:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。