Fugu-MT 論文翻訳(概要): MineDreamer: Learning to Follow Instructions via Chain-of-Imagination for Simulated-World Control

論文の概要: MineDreamer: Learning to Follow Instructions via Chain-of-Imagination for Simulated-World Control

arxiv url: http://arxiv.org/abs/2403.12037v2
Date: Tue, 19 Mar 2024 14:52:28 GMT
ステータス: 翻訳完了
システム内更新日: 2024-03-20 18:51:33.933360
Title: MineDreamer: Learning to Follow Instructions via Chain-of-Imagination for Simulated-World Control
Title（参考訳）: MineDreamer: シミュレーション世界制御のためのチェーン・オブ・イマジネーションによるインストラクションの追跡学習
Authors: Enshen Zhou, Yiran Qin, Zhenfei Yin, Yuzhou Huang, Ruimao Zhang, Lu Sheng, Yu Qiao, Jing Shao,
Abstract要約: 我々はMinecraftシミュレータ上に構築されたオープンなエンボディエージェントであるMineDreamerを紹介する。命令実行のステップバイステップを想定するために,CoI(Chain-of-Imagination)機構を用いる。実験では、MineDreamerは単段階と多段階の命令を着実に従っている。
参考スコア（独自算出の注目度）: 53.20509532671891
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: It is a long-lasting goal to design a generalist-embodied agent that can follow diverse instructions in human-like ways. However, existing approaches often fail to steadily follow instructions due to difficulties in understanding abstract and sequential natural language instructions. To this end, we introduce MineDreamer, an open-ended embodied agent built upon the challenging Minecraft simulator with an innovative paradigm that enhances instruction-following ability in low-level control signal generation. Specifically, MineDreamer is developed on top of recent advances in Multimodal Large Language Models (MLLMs) and diffusion models, and we employ a Chain-of-Imagination (CoI) mechanism to envision the step-by-step process of executing instructions and translating imaginations into more precise visual prompts tailored to the current state; subsequently, the agent generates keyboard-and-mouse actions to efficiently achieve these imaginations, steadily following the instructions at each step. Extensive experiments demonstrate that MineDreamer follows single and multi-step instructions steadily, significantly outperforming the best generalist agent baseline and nearly doubling its performance. Moreover, qualitative analysis of the agent's imaginative ability reveals its generalization and comprehension of the open world.
Abstract（参考訳）: 人間のような方法で多様な指示に従うことができる汎用的なエージェントを設計することは、長く続く目標である。しかし、既存のアプローチは、抽象的かつシーケンシャルな自然言語命令を理解するのが難しいため、命令に従うのに失敗することが多い。この目的のために、我々は、低レベル制御信号生成における命令追従能力を向上させる革新的なパラダイムを備えた、挑戦的なMinecraftシミュレータ上に構築された、オープンなエンボディエージェントであるMineDreamerを紹介する。具体的には、MineDreamerは、近年のMLLM(Multimodal Large Language Models)と拡散モデルの進歩の上に開発されており、命令を実行し、想像をより正確に視覚的なプロンプトに変換するステップ・バイ・ステップを想定するCoI(Chain-of-Imagination)機構を用いており、その後、エージェントはキーボード・アンド・ムース・アクションを生成して、各ステップでの指示に従って、これらのイマジネーションを効率的に実現している。大規模な実験により、MineDreamerは単段階および多段階の命令を着実に追従し、最高のジェネラリストエージェントのベースラインを著しく上回り、性能をほぼ倍増させることを示した。さらに、エージェントの想像力の質的分析により、オープンワールドの一般化と理解が明らかになる。

関連論文リスト

MindOmni: Unleashing Reasoning Generation in Vision Language Models with RGPO [87.52631406241456]
近年のテキスト・ツー・イメージシステムは、マルチモーダル入力や複雑な推論タスクの処理において制限に直面している。我々は、強化学習による推論生成を取り入れ、これらの課題に対処する統合マルチモーダルな大規模言語モデルであるMind Omniを紹介する。
論文参考訳（メタデータ） (2025-05-19T12:17:04Z)
EAGLE: Enhanced Visual Grounding Minimizes Hallucinations in Instructional Multimodal Models [54.234657224615354]
大規模な言語モデルと視覚変換器は、ダウンストリームタスクにおいて大きな転送可能性を実現する、印象的なゼロショット機能を示している。膨大な画像と言語の事前学習を取り入れているにもかかわらず、これらのマルチモーダルアーキテクチャは、画像データの基底真理から逸脱する応答をしばしば生成する。幻覚を緩和する現在の方法は、一般的に言語コンポーネントの正規化、融合モジュールの改善、視覚表現を改善するために複数の視覚エンコーダのアンサンブルに焦点を当てている。従来のコントラスト付き事前学習タスクを手軽に書き換えることで,教育用マルチモーダルアーキテクチャに組み込まれたビジュアルエンコーダが,追加の指導訓練を行なわずに実現可能であることを示す。
論文参考訳（メタデータ） (2025-01-06T00:39:31Z)
Visual-O1: Understanding Ambiguous Instructions via Multi-modal Multi-turn Chain-of-thoughts Reasoning [53.45295657891099]
本稿では,マルチモーダルなマルチターン・チェーン・オブ・シークレット・推論・フレームワークであるVisual-O1を提案する。人間のマルチモーダルなマルチターン推論をシミュレートし、高度にインテリジェントなモデルに即時体験を提供する。私たちの研究は、不確実性と曖昧さのある現実のシナリオにおいて、人工知能が人間のように機能する可能性を強調します。
論文参考訳（メタデータ） (2024-10-04T11:18:41Z)
From Symbolic Tasks to Code Generation: Diversification Yields Better Task Performers [1.6958018695660049]
コードに関連するタスクを超えて、より多様な命令セットがコード生成のパフォーマンスを向上させることを示す。我々の観察から,命令調整セットのより多様な意味空間が,命令に従う能力とタスクの実行能力を大幅に向上させることが示唆された。
論文参考訳（メタデータ） (2024-05-30T07:54:07Z)
Octopus: Embodied Vision-Language Programmer from Environmental Feedback [58.04529328728999]
身体視覚言語モデル(VLM)は多モード認識と推論において大きな進歩を遂げた。このギャップを埋めるために、我々は、計画と操作を接続する媒体として実行可能なコード生成を使用する、具体化された視覚言語プログラマであるOctopusを紹介した。 Octopusは、1)エージェントの視覚的およびテキスト的タスクの目的を正確に理解し、2)複雑なアクションシーケンスを定式化し、3)実行可能なコードを生成するように設計されている。
論文参考訳（メタデータ） (2023-10-12T17:59:58Z)
TextBind: Multi-turn Interleaved Multimodal Instruction-following in the Wild [102.93338424976959]
マルチターンインターリーブ型インストラクションフォロー機能を備えた,より大規模な言語モデルを実現するための,ほとんどアノテーションのないフレームワークであるTextBindを紹介する。提案手法では,画像キャプチャペアのみが必要であり,言語モデルからマルチターンマルチモーダル・インストラクション・レスポンス・会話を生成する。そこで我々は,画像エンコーダとデコーダモデルをシームレスに統合する言語モデル中心アーキテクチャであるMIMを考案した。
論文参考訳（メタデータ） (2023-09-14T15:34:01Z)
Instruction-Following Agents with Multimodal Transformer [95.70039658112873]
本稿では,視覚環境下での指示追従課題をロボットが解くための,シンプルで効果的なモデルを提案する。本手法は,視覚観察と言語指示を符号化したマルチモーダルトランスフォーマーからなる。この統一型トランスモデルは, シングルタスクとマルチタスクの両方で, 最先端のトレーニング済みあるいは訓練済みのスクラッチ手法よりも優れていることを示す。
論文参考訳（メタデータ） (2022-10-24T17:46:47Z)
Understanding Multimodal Procedural Knowledge by Sequencing Multimodal Instructional Manuals [48.55362590292391]
我々は、順序のないマルチモーダル命令を推論し、シーケンシングする機械学習モデルの能力をベンチマークする。モデルの性能は人間より著しく劣るだけでなく、マルチモーダル情報の有効利用も不可能である。本稿では,テキストと画像の逐次アライメント特性を利用した逐次性を考慮した事前学習手法を提案する。
論文参考訳（メタデータ） (2021-10-16T06:12:15Z)
Ask Your Humans: Using Human Instructions to Improve Generalization in Reinforcement Learning [32.82030512053361]
本研究では、自然言語の指示や行動軌跡の形で、ステップバイステップの人間の実演を行うことを提案する。人間のデモは、最も複雑なタスクを解決するのに役立ちます。また、自然言語を組み込むことで、ゼロショット設定で未確認のタスクを一般化できることがわかった。
論文参考訳（メタデータ） (2020-11-01T14:39:46Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。