論文の概要: SEIHAI: A Sample-efficient Hierarchical AI for the MineRL Competition
- arxiv url: http://arxiv.org/abs/2111.08857v1
- Date: Wed, 17 Nov 2021 01:36:40 GMT
- ステータス: 処理完了
- システム内更新日: 2021-11-18 14:47:24.472383
- Title: SEIHAI: A Sample-efficient Hierarchical AI for the MineRL Competition
- Title(参考訳): SEIHAI: MineRLコンペティションのためのサンプル効率のよい階層型AI
- Authors: Hangyu Mao, Chao Wang, Xiaotian Hao, Yihuan Mao, Yiming Lu, Chengjie
Wu, Jianye Hao, Dong Li and Pingzhong Tang
- Abstract要約: 我々は,ヒトのデモンストレーションとタスク構造を利用したtextbfSample-textbfefftextbficient textbfHierarchical textbfAIを提案する。
具体的には,タスクを複数の逐次依存サブタスクに分割し,強化学習と模倣学習を用いて各サブタスクに適したエージェントを訓練する。
シーハイはNeurIPS-2020 MineRLコンペティションの序盤と決勝戦で優勝した。
- 参考スコア(独自算出の注目度): 32.635756704572266
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The MineRL competition is designed for the development of reinforcement
learning and imitation learning algorithms that can efficiently leverage human
demonstrations to drastically reduce the number of environment interactions
needed to solve the complex \emph{ObtainDiamond} task with sparse rewards. To
address the challenge, in this paper, we present \textbf{SEIHAI}, a
\textbf{S}ample-\textbf{e}ff\textbf{i}cient \textbf{H}ierarchical \textbf{AI},
that fully takes advantage of the human demonstrations and the task structure.
Specifically, we split the task into several sequentially dependent subtasks,
and train a suitable agent for each subtask using reinforcement learning and
imitation learning. We further design a scheduler to select different agents
for different subtasks automatically. SEIHAI takes the first place in the
preliminary and final of the NeurIPS-2020 MineRL competition.
- Abstract(参考訳): MineRLコンペティションは、人間のデモンストレーションを効果的に活用し、スパース報酬を伴う複雑な \emph{ObtainDiamond} タスクの解決に必要な環境相互作用の数を劇的に削減できる強化学習と模倣学習アルゴリズムの開発を目的として設計されている。
この課題に対処するため、本論文では、人間の実演とタスク構造を完全に活用した \textbf{SEIHAI}, a \textbf{S}ample-\textbf{e}ff\textbf{i}cient \textbf{H}ierarchical \textbf{H}ierarchical \textbf{AI} を提案する。
具体的には,タスクを複数の逐次依存サブタスクに分割し,強化学習と模倣学習を用いて各サブタスクに適したエージェントを訓練する。
さらに、異なるサブタスクに対して異なるエージェントを自動選択するスケジューラを設計する。
シーハイはNeurIPS-2020 MineRLコンペティションの序盤と決勝戦で優勝した。
関連論文リスト
- Heterogeneous Graph Reinforcement Learning for Dependency-aware Multi-task Allocation in Spatial Crowdsourcing [33.915222518617085]
本稿では,依存性を考慮したマルチタスクアロケーション(DMA)の問題点を公式に検討する。
Heterogeneous Graph Reinforcement Learning-based Task Allocation (HGRL-TA)として知られる、それを解決するためのよく設計されたフレームワークを提供する。
実験結果は、提案されたHGRL-TAのDMA問題を解決する効果と一般性を示し、メタヒューリスティック法を用いて達成したよりも21.78%高い平均利益をもたらす。
論文 参考訳(メタデータ) (2024-10-20T17:00:45Z) - Data-CUBE: Data Curriculum for Instruction-based Sentence Representation
Learning [85.66907881270785]
本稿では,学習用マルチタスクデータの順序を列挙するデータカリキュラム,すなわちData-CUBEを提案する。
タスクレベルでは、タスク間の干渉リスクを最小化するために最適なタスクオーダーを見つけることを目的としている。
インスタンスレベルでは、タスク毎のすべてのインスタンスの難易度を測定し、トレーニングのためにそれらを簡単に微分できるミニバッチに分割します。
論文 参考訳(メタデータ) (2024-01-07T18:12:20Z) - Enhancing Robotic Manipulation: Harnessing the Power of Multi-Task
Reinforcement Learning and Single Life Reinforcement Learning in Meta-World [0.0]
この研究プロジェクトは、ロボットアームがメタワールド環境内で7つの異なるタスクを実行できるようにする。
トレーニングされたモデルは、シングルライフRLアルゴリズムの事前データのソースとして機能する。
アブレーション研究では、MT-QWALEが最終ゴール位置を隠した後でも、わずかに多くのステップでタスクを完了できることが示されている。
論文 参考訳(メタデータ) (2023-10-23T06:35:44Z) - Semantically Aligned Task Decomposition in Multi-Agent Reinforcement
Learning [56.26889258704261]
我々は,MARL(SAMA)における意味的アライズされたタスク分解という,新しい「不整合」意思決定手法を提案する。
SAMAは、潜在的な目標を示唆し、適切な目標分解とサブゴールアロケーションを提供するとともに、自己回帰に基づくリプランニングを提供する、チェーン・オブ・シントによる事前訓練された言語モデルを促進する。
SAMAは, 最先端のASG法と比較して, 試料効率に有意な優位性を示す。
論文 参考訳(メタデータ) (2023-05-18T10:37:54Z) - Robust Subtask Learning for Compositional Generalization [20.54144051436337]
我々は、どんなタスクでも実行できるように、サブタスクポリシーをトレーニングする問題に焦点を合わせます。
我々は、平均的なケースのパフォーマンスとは対照的に、すべてのタスクで最悪のケースのパフォーマンスを最大化することを目指している。
論文 参考訳(メタデータ) (2023-02-06T18:19:25Z) - Reinforcement Learning with Success Induced Task Prioritization [68.8204255655161]
本稿では,自動カリキュラム学習のためのフレームワークであるSuccess induced Task Prioritization (SITP)を紹介する。
アルゴリズムはエージェントに最速の学習を提供するタスクの順序を選択する。
我々は,SITPが他のカリキュラム設計手法と一致するか,あるいは上回っていることを実証する。
論文 参考訳(メタデータ) (2022-12-30T12:32:43Z) - Fast Inference and Transfer of Compositional Task Structures for
Few-shot Task Generalization [101.72755769194677]
本稿では,タスクがサブタスクグラフによって特徴づけられる,数発の強化学習問題として定式化する。
我々のマルチタスクサブタスクグラフ推論器(MTSGI)は、トレーニングタスクから、まず、サブタスクグラフの観点から、一般的なハイレベルなタスク構造を推測する。
提案手法は,2次元グリッドワールドおよび複雑なWebナビゲーション領域において,タスクの共通基盤構造を学習し,活用し,未知のタスクへの適応を高速化する。
論文 参考訳(メタデータ) (2022-05-25T10:44:25Z) - The MineRL 2020 Competition on Sample Efficient Reinforcement Learning
using Human Priors [62.9301667732188]
我々は,MineRLコンペティションの第2イテレーションを提案する。
競争の主な目標は、人間のデモンストレーションを効率的に活用できるアルゴリズムの開発を促進することです。
コンペティションは、データセットと環境のペアバージョンが複数提供される2ラウンドで構成されている。
各ラウンドの終わりに、競合他社はコンテナ化された学習アルゴリズムをaicrowdプラットフォームに提出する。
論文 参考訳(メタデータ) (2021-01-26T20:32:30Z) - Meta Reinforcement Learning with Autonomous Inference of Subtask
Dependencies [57.27944046925876]
本稿では,タスクがサブタスクグラフによって特徴づけられるような,新しい数発のRL問題を提案し,対処する。
メタ政治を直接学習する代わりに、Subtask Graph Inferenceを使ったメタラーナーを開発した。
実験の結果,2つのグリッドワールド領域とStarCraft II環境において,提案手法が潜在タスクパラメータを正確に推定できることが確認された。
論文 参考訳(メタデータ) (2020-01-01T17:34:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。