論文の概要: MineDreamer: Learning to Follow Instructions via Chain-of-Imagination for Simulated-World Control
- arxiv url: http://arxiv.org/abs/2403.12037v2
- Date: Tue, 19 Mar 2024 14:52:28 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-20 18:51:33.933360
- Title: MineDreamer: Learning to Follow Instructions via Chain-of-Imagination for Simulated-World Control
- Title(参考訳): MineDreamer: シミュレーション世界制御のためのチェーン・オブ・イマジネーションによるインストラクションの追跡学習
- Authors: Enshen Zhou, Yiran Qin, Zhenfei Yin, Yuzhou Huang, Ruimao Zhang, Lu Sheng, Yu Qiao, Jing Shao,
- Abstract要約: 我々はMinecraftシミュレータ上に構築されたオープンなエンボディエージェントであるMineDreamerを紹介する。
命令実行のステップバイステップを想定するために,CoI(Chain-of-Imagination)機構を用いる。
実験では、MineDreamerは単段階と多段階の命令を着実に従っている。
- 参考スコア(独自算出の注目度): 53.20509532671891
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: It is a long-lasting goal to design a generalist-embodied agent that can follow diverse instructions in human-like ways. However, existing approaches often fail to steadily follow instructions due to difficulties in understanding abstract and sequential natural language instructions. To this end, we introduce MineDreamer, an open-ended embodied agent built upon the challenging Minecraft simulator with an innovative paradigm that enhances instruction-following ability in low-level control signal generation. Specifically, MineDreamer is developed on top of recent advances in Multimodal Large Language Models (MLLMs) and diffusion models, and we employ a Chain-of-Imagination (CoI) mechanism to envision the step-by-step process of executing instructions and translating imaginations into more precise visual prompts tailored to the current state; subsequently, the agent generates keyboard-and-mouse actions to efficiently achieve these imaginations, steadily following the instructions at each step. Extensive experiments demonstrate that MineDreamer follows single and multi-step instructions steadily, significantly outperforming the best generalist agent baseline and nearly doubling its performance. Moreover, qualitative analysis of the agent's imaginative ability reveals its generalization and comprehension of the open world.
- Abstract(参考訳): 人間のような方法で多様な指示に従うことができる汎用的なエージェントを設計することは、長く続く目標である。
しかし、既存のアプローチは、抽象的かつシーケンシャルな自然言語命令を理解するのが難しいため、命令に従うのに失敗することが多い。
この目的のために、我々は、低レベル制御信号生成における命令追従能力を向上させる革新的なパラダイムを備えた、挑戦的なMinecraftシミュレータ上に構築された、オープンなエンボディエージェントであるMineDreamerを紹介する。
具体的には、MineDreamerは、近年のMLLM(Multimodal Large Language Models)と拡散モデルの進歩の上に開発されており、命令を実行し、想像をより正確に視覚的なプロンプトに変換するステップ・バイ・ステップを想定するCoI(Chain-of-Imagination)機構を用いており、その後、エージェントはキーボード・アンド・ムース・アクションを生成して、各ステップでの指示に従って、これらのイマジネーションを効率的に実現している。
大規模な実験により、MineDreamerは単段階および多段階の命令を着実に追従し、最高のジェネラリストエージェントのベースラインを著しく上回り、性能をほぼ倍増させることを示した。
さらに、エージェントの想像力の質的分析により、オープンワールドの一般化と理解が明らかになる。
関連論文リスト
- Mastering Robot Manipulation with Multimodal Prompts through Pretraining
and Multi-task Fine-tuning [51.80266015638394]
マルチタスクの専門家軌道からマルチモーダルプロンプトを用いたロボット操作のポリシーを学習するフレームワークを提案する。
本手法は,逆ダイナミクス事前学習とマルチタスク微調整を行う2段階の訓練パイプラインから構成される。
実験により,本手法のVIMA-BENCHに対する有効性を評価し,新たな最先端(成功率10%向上)を確立した。
論文 参考訳(メタデータ) (2023-10-14T22:24:58Z) - Octopus: Embodied Vision-Language Programmer from Environmental Feedback [59.772904419928054]
大規模視覚言語モデル (VLM) はマルチモーダル認識と推論において大きな進歩を遂げた。
本稿では,エージェントの視覚とテキストタスクの目的を正確に解読する新しいVLMであるOctopusを紹介する。
我々の設計では、シミュレーターの日常的な雑用から複雑なビデオゲームの高度なインタラクションまで、エージェントは幅広いタスクを十分に扱えるようにしている。
論文 参考訳(メタデータ) (2023-10-12T17:59:58Z) - TextBind: Multi-turn Interleaved Multimodal Instruction-following in the
Wild [107.3667463295682]
マルチターンインターリーブ型インストラクションフォロー機能を備えた,より大規模な言語モデルを実現するための,ほとんどアノテーションのないフレームワークであるTextBindを紹介する。
提案手法では,画像キャプチャペアのみが必要であり,言語モデルからマルチターンマルチモーダル・インストラクション・レスポンス・会話を生成する。
そこで我々は,画像エンコーダとデコーダモデルをシームレスに統合する言語モデル中心アーキテクチャであるMIMを考案した。
論文 参考訳(メタデータ) (2023-09-14T15:34:01Z) - Instruction-Following Agents with Multimodal Transformer [95.70039658112873]
本稿では,視覚環境下での指示追従課題をロボットが解くための,シンプルで効果的なモデルを提案する。
本手法は,視覚観察と言語指示を符号化したマルチモーダルトランスフォーマーからなる。
この統一型トランスモデルは, シングルタスクとマルチタスクの両方で, 最先端のトレーニング済みあるいは訓練済みのスクラッチ手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2022-10-24T17:46:47Z) - Understanding Multimodal Procedural Knowledge by Sequencing Multimodal
Instructional Manuals [48.55362590292391]
我々は、順序のないマルチモーダル命令を推論し、シーケンシングする機械学習モデルの能力をベンチマークする。
モデルの性能は人間より著しく劣るだけでなく、マルチモーダル情報の有効利用も不可能である。
本稿では,テキストと画像の逐次アライメント特性を利用した逐次性を考慮した事前学習手法を提案する。
論文 参考訳(メタデータ) (2021-10-16T06:12:15Z) - How to Sense the World: Leveraging Hierarchy in Multimodal Perception
for Robust Reinforcement Learning Agents [9.840104333194663]
我々は表現モデルの設計における階層性を主張し、新しいマルチモーダル表現モデルであるMUSEに貢献する。
MUSEは,アタリゲームにおけるマルチモーダル観察を備えた深層強化学習エージェントの感覚表現モデルである。
我々は、強化学習エージェントの異なる設計に関する比較研究を行い、MUSEは、エージェントが最小性能の損失で不完全な知覚経験の下でタスクを実行できることを示した。
論文 参考訳(メタデータ) (2021-10-07T16:35:23Z) - Ask Your Humans: Using Human Instructions to Improve Generalization in
Reinforcement Learning [32.82030512053361]
本研究では、自然言語の指示や行動軌跡の形で、ステップバイステップの人間の実演を行うことを提案する。
人間のデモは、最も複雑なタスクを解決するのに役立ちます。
また、自然言語を組み込むことで、ゼロショット設定で未確認のタスクを一般化できることがわかった。
論文 参考訳(メタデータ) (2020-11-01T14:39:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。