論文の概要: JueWu-MC: Playing Minecraft with Sample-efficient Hierarchical
Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2112.04907v1
- Date: Tue, 7 Dec 2021 09:24:49 GMT
- ステータス: 処理完了
- システム内更新日: 2021-12-10 13:46:21.262764
- Title: JueWu-MC: Playing Minecraft with Sample-efficient Hierarchical
Reinforcement Learning
- Title(参考訳): JueWu-MC: サンプル効率のよい階層的強化学習でMinecraftをプレイする
- Authors: Zichuan Lin, Junyou Li, Jianing Shi, Deheng Ye, Qiang Fu, Wei Yang
- Abstract要約: 本稿では,表現学習と模倣学習を併用したサンプル効率の高い階層的RLアプローチであるJueWu-MCを提案する。
具体的には、高レベルのコントローラがオプションを制御するポリシーを学習し、低レベルのワーカーが各サブタスクの解決を学ぶという2つの階層構造を含む。
サブタスクの学習を促進するために,1)行動と表現の基盤となる関係を捉えた行動認識表現学習,2)効率的な探索のための識別器に基づく自己刺激学習,3)一貫性フィルタリングによるアンサンブル行動のクローニングなどを組み合わせた手法を提案する。
- 参考スコア(独自算出の注目度): 13.57305458734617
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Learning rational behaviors in open-world games like Minecraft remains to be
challenging for Reinforcement Learning (RL) research due to the compound
challenge of partial observability, high-dimensional visual perception and
delayed reward. To address this, we propose JueWu-MC, a sample-efficient
hierarchical RL approach equipped with representation learning and imitation
learning to deal with perception and exploration. Specifically, our approach
includes two levels of hierarchy, where the high-level controller learns a
policy to control over options and the low-level workers learn to solve each
sub-task. To boost the learning of sub-tasks, we propose a combination of
techniques including 1) action-aware representation learning which captures
underlying relations between action and representation, 2) discriminator-based
self-imitation learning for efficient exploration, and 3) ensemble behavior
cloning with consistency filtering for policy robustness. Extensive experiments
show that JueWu-MC significantly improves sample efficiency and outperforms a
set of baselines by a large margin. Notably, we won the championship of the
NeurIPS MineRL 2021 research competition and achieved the highest performance
score ever.
- Abstract(参考訳): minecraftのようなオープンワールドゲームにおける合理的な振る舞いの学習は、部分的可観測性、高次元視覚知覚、遅滞報酬という複合的な課題により、強化学習(rl)研究において依然として困難である。
これを解決するために,表現学習と模倣学習を備えたサンプル効率の高い階層的RLアプローチであるJueWu-MCを提案する。
具体的には、高レベルのコントローラがオプションを制御するポリシーを学習し、低レベルのワーカーが各サブタスクの解決を学ぶという2つの階層構造を含む。
サブタスクの学習を促進するために,提案手法の組み合わせを提案する。
1)行動と表現の基本的な関係を捉えた行動認識表現学習
2)効率的な探索のための差別者に基づく自己イメージ学習
3) 整合性フィルタリングによるアンサンブル動作のクローン化。
大規模な実験により、JueWu-MCはサンプル効率を大幅に改善し、ベースラインのセットを大きなマージンで上回ることを示した。
特に、私たちはneurips minerl 2021研究コンペティションで優勝し、史上最高のパフォーマンススコアを獲得しました。
関連論文リスト
- Multi-Agent Reinforcement Learning from Human Feedback: Data Coverage and Algorithmic Techniques [65.55451717632317]
我々は,MARLHF(Multi-Agent Reinforcement Learning from Human Feedback)について検討し,理論的基礎と実証的検証の両方について検討した。
我々は,このタスクを,一般ゲームにおける嗜好のみのオフラインデータセットからナッシュ均衡を識別するものとして定義する。
本研究は,MARLHFの多面的アプローチを基礎として,効果的な嗜好に基づくマルチエージェントシステムの実現を目指している。
論文 参考訳(メタデータ) (2024-09-01T13:14:41Z) - M2CURL: Sample-Efficient Multimodal Reinforcement Learning via Self-Supervised Representation Learning for Robotic Manipulation [0.7564784873669823]
マルチモーダルコントラスト非教師強化学習(M2CURL)を提案する。
提案手法は,効率的な表現を学習し,RLアルゴリズムの高速収束に寄与する,新しいマルチモーダル自己教師学習技術を用いている。
Tactile Gym 2シミュレータ上でのM2CURLの評価を行い、異なる操作タスクにおける学習効率を大幅に向上させることを示す。
論文 参考訳(メタデータ) (2024-01-30T14:09:35Z) - Efficient Reinforcement Learning via Decoupling Exploration and Utilization [6.305976803910899]
強化学習(Reinforcement Learning, RL)は、ゲーム、ロボティクス、自動運転車など、さまざまな分野やアプリケーションで大きな成功を収めている。
本研究の目的は,探索と利用を分離して効率よく学習するエージェントを訓練することであり,エージェントが最適解の難解を逃れられるようにすることである。
提案したOPARL(Optimistic and Pessimistic Actor Reinforcement Learning)アルゴリズムに実装した。
論文 参考訳(メタデータ) (2023-12-26T09:03:23Z) - Planning for Sample Efficient Imitation Learning [52.44953015011569]
現在の模倣アルゴリズムは、高い性能と高環境サンプル効率を同時に達成するのに苦労している。
本研究では,環境内サンプルの効率と性能を同時に達成できる計画型模倣学習手法であるEfficientImitateを提案する。
実験結果から,EIは性能と試料効率の両立を図った。
論文 参考訳(メタデータ) (2022-10-18T05:19:26Z) - Contrastive UCB: Provably Efficient Contrastive Self-Supervised Learning in Online Reinforcement Learning [92.18524491615548]
対照的な自己指導型学習は、(深層)強化学習(RL)の実践にうまく統合されている
我々は,低ランク遷移を伴うマルコフ決定過程(MDP)とマルコフゲーム(MG)のクラスにおいて,コントラスト学習によってRLをどのように強化できるかを検討する。
オンライン環境下では,MDPやMGのオンラインRLアルゴリズムと対照的な損失を生かした,新しい高信頼境界(UCB)型アルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-07-29T17:29:08Z) - Decoupled Adversarial Contrastive Learning for Self-supervised
Adversarial Robustness [69.39073806630583]
頑健な表現学習のための対人訓練(AT)と教師なし表現学習のための自己教師型学習(SSL)は2つの活発な研究分野である。
Decoupled Adversarial Contrastive Learning (DeACL) と呼ばれる2段階のフレームワークを提案する。
論文 参考訳(メタデータ) (2022-07-22T06:30:44Z) - Strategically Efficient Exploration in Competitive Multi-agent
Reinforcement Learning [25.041622707261897]
本研究は,非協調的マルチエージェント環境における楽観的な探索の役割を理解することを目的とする。
ゼロサムゲームにおいて、楽観的な探索は、学習者が戦略的なプレーとは無関係な状態空間のサンプリング部分を無駄にしてしまうことを示します。
この問題に対処するため、マルコフゲームにおいて戦略的に効率的な探索という形式的概念を導入し、これを有限マルコフゲームのための戦略的に効率的な2つの学習アルゴリズムの開発に利用する。
論文 参考訳(メタデータ) (2021-07-30T15:22:59Z) - Explore and Control with Adversarial Surprise [78.41972292110967]
強化学習(Reinforcement Learning, RL)は、目標指向のポリシーを学習するためのフレームワークである。
本稿では,RLエージェントが経験した驚きの量と競合する2つのポリシーを相殺する対戦ゲームに基づく,新しい教師なしRL手法を提案する。
本手法は, 明確な相転移を示すことによって, 複雑なスキルの出現につながることを示す。
論文 参考訳(メタデータ) (2021-07-12T17:58:40Z) - Hierarchical Reinforcement Learning in StarCraft II with Human Expertise
in Subgoals Selection [13.136763521789307]
本稿では,人的知識に基づく暗黙的なカリキュラム設計を通じて,HRL,経験リプレイ,効果的なサブゴール選択を統合した新しい手法を提案する。
提案手法は, フラットおよびエンド・ツー・エンドのRL法よりも優れたサンプリング効率を実現し, エージェントの性能を説明する効果的な方法を提供する。
論文 参考訳(メタデータ) (2020-08-08T04:56:30Z) - Forgetful Experience Replay in Hierarchical Reinforcement Learning from
Demonstrations [55.41644538483948]
本稿では,複雑な視覚環境において,エージェントが低品質な実演を行えるようにするためのアプローチの組み合わせを提案する。
提案した目標指向のリプレイバッファ構築により,エージェントはデモにおいて複雑な階層的タスクを解くためのサブゴールを自動的に強調することができる。
私たちのアルゴリズムに基づくこのソリューションは、有名なMineRLコンペティションのすべてのソリューションを破り、エージェントがMinecraft環境でダイヤモンドをマイニングすることを可能にする。
論文 参考訳(メタデータ) (2020-06-17T15:38:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。