論文の概要: See and Think: Embodied Agent in Virtual Environment
- arxiv url: http://arxiv.org/abs/2311.15209v3
- Date: Tue, 9 Jul 2024 05:01:06 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-11 00:21:19.271398
- Title: See and Think: Embodied Agent in Virtual Environment
- Title(参考訳): 仮想環境における身体的エージェント
- Authors: Zhonghan Zhao, Wenhao Chai, Xuan Wang, Li Boyi, Shengyu Hao, Shidong Cao, Tian Ye, Gaoang Wang,
- Abstract要約: 大規模言語モデル(LLM)は、いくつかのオープンワールドタスクにおいて印象的な進歩を遂げた。
本稿では,Minecraft仮想環境における包括的で視覚的なエンボディエージェントであるSTEVEを提案する。
- 参考スコア(独自算出の注目度): 12.801720916220823
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models (LLMs) have achieved impressive pro-gress on several open-world tasks. Recently, using LLMs to build embodied agents has been a hotspot. This paper proposes STEVE, a comprehensive and visionary embodied agent in the Minecraft virtual environment. STEVE comprises three key components: vision perception, language instruction, and code action. Vision perception involves interpreting visual information in the environment, which is then integrated into the LLMs component with agent state and task instruction. Language instruction is responsible for iterative reasoning and decomposing complex tasks into manageable guidelines. Code action generates executable skill actions based on retrieval in skill database, enabling the agent to interact effectively within the Minecraft environment. We also collect STEVE-21K dataset, which includes 600+ vision-environment pairs, 20K knowledge question-answering pairs, and 200+ skill-code pairs. We conduct continuous block search, knowledge question and answering, and tech tree mastery to evaluate the performance. Extensive experiments show that STEVE achieves at most 1.5x faster unlocking key tech trees and 2.5x quicker in block search tasks.
- Abstract(参考訳): 大規模言語モデル(LLM)は、いくつかのオープンワールドタスクにおいて印象的な進歩を遂げた。
近年, LLM を用いたエンボディエージェントの構築がホットスポットとなっている。
本稿では,Minecraft仮想環境における包括的で視覚的なエンボディエージェントであるSTEVEを提案する。
STEVEは視覚知覚、言語命令、コードアクションの3つの重要なコンポーネントから構成される。
視覚知覚は環境内の視覚情報を解釈し、LLMコンポーネントにエージェント状態とタスク命令を組み込む。
言語指導は、複雑なタスクを反復的推論し、管理可能なガイドラインに分解する責任がある。
Code Actionは、スキルデータベースの検索に基づいて実行可能なスキルアクションを生成し、エージェントがMinecraft環境内で効果的に対話できるようにする。
また、600以上の視覚環境ペア、20Kの知識質問応答ペア、200以上のスキルコードペアを含むSTEVE-21Kデータセットを収集します。
我々は,連続的ブロック探索,知識質問と回答,および技術木熟達を行い,その性能を評価する。
大規模な実験の結果、STEVEは鍵となる技術ツリーの解錠を1.5倍、ブロック検索タスクを2.5倍高速化することがわかった。
関連論文リスト
- Odyssey: Empowering Agents with Open-World Skills [26.537984734738764]
我々は,大規模言語モデル(LLM)ベースのエージェントにオープンワールドスキルを付与し,Minecraftの世界を探索する新しいフレームワークODYSSEYを紹介する。
ODYSSEYは,(1)40のプリミティブスキルと183の作曲スキルからなるオープンワールドスキルライブラリを備えた対話型エージェント,(2)Minecraft Wikiから390k以上の指示文を入力した大規模質問文データセットを用いた微調整LLaMA-3モデル,(3)新しいオープンワールドベンチマークには,数千の長期計画タスク,数十の動的即時計画タスク,1つの自律性が含まれている。
論文 参考訳(メタデータ) (2024-07-22T02:06:59Z) - DISCO: Embodied Navigation and Interaction via Differentiable Scene Semantics and Dual-level Control [53.80518003412016]
人間の命令によって多様なタスクに熟練した汎用的なインテリジェントホームアシストエージェントを構築することは、AI研究の長期的青写真である。
本研究では,具体的エージェントに対する原始的移動操作,すなわち指示された動詞と名詞のペアに基づいて,ナビゲートと対話の仕方について検討する。
本研究では、文脈化されたシーンモデリングと効率的な制御における非自明な進歩を特徴とするdisCOを提案する。
論文 参考訳(メタデータ) (2024-07-20T05:39:28Z) - GeoLLM-Engine: A Realistic Environment for Building Geospatial Copilots [1.8434042562191815]
GeoLLM-Engineは、リモートセンシングプラットフォーム上でアナリストが日常的に実行する複雑なタスクを備えた、ツール拡張されたエージェントのための環境である。
我々は100GPT-4-Turboノードにまたがる巨大な並列エンジンを活用し、50万以上の多様なマルチツールタスクと1100万の衛星画像にスケールします。
論文 参考訳(メタデータ) (2024-04-23T20:23:37Z) - kNN-ICL: Compositional Task-Oriented Parsing Generalization with Nearest
Neighbor In-Context Learning [50.40636157214161]
Task-Oriented Parsing (TOP)により、会話アシスタントは自然言語で表現されたユーザーコマンドを解釈できる。
LLMは、自然言語のプロンプトに基づいて、コンピュータプログラムにおいて印象的な性能を達成した。
本稿では,LLMのセマンティック解析機能を活用することに焦点を当てる。
論文 参考訳(メタデータ) (2023-12-17T17:26:50Z) - Localizing Active Objects from Egocentric Vision with Symbolic World
Knowledge [62.981429762309226]
タスクの指示をエゴセントリックな視点から積極的に下す能力は、AIエージェントがタスクを達成したり、人間をバーチャルに支援する上で不可欠である。
本稿では,現在進行中のオブジェクトの役割を学習し,指示から正確に抽出することで,アクティブなオブジェクトをローカライズするフレーズグラウンドモデルの性能を向上させることを提案する。
Ego4DおよびEpic-Kitchensデータセットに関するフレームワークの評価を行った。
論文 参考訳(メタデータ) (2023-10-23T16:14:05Z) - VELMA: Verbalization Embodiment of LLM Agents for Vision and Language
Navigation in Street View [81.58612867186633]
視覚と言語ナビゲーション(VLN)は、視覚的および自然言語の理解と空間的および時間的推論能力を必要とする。
VELMAは,2つのコンテキスト内例のみを用いて,ストリートビューでのナビゲーション指示に従うことができることを示す。
数千の例でLLMエージェントをさらに微調整し、従来の2つのデータセットのタスク完了に対する25%-30%の相対的な改善を実現した。
論文 参考訳(メタデータ) (2023-07-12T11:08:24Z) - LAMM: Language-Assisted Multi-Modal Instruction-Tuning Dataset,
Framework, and Benchmark [81.42376626294812]
本稿では,Language-Assisted Multi-Modalインストラクションチューニングデータセット,フレームワーク,ベンチマークを提案する。
我々の目標は、MLLMのトレーニングと評価のための成長するエコシステムとしてLAMMを確立することです。
本稿では,2次元および3次元視覚のための広範囲な視覚タスクをカバーする包括的データセットとベンチマークを提案する。
論文 参考訳(メタデータ) (2023-06-11T14:01:17Z) - Ghost in the Minecraft: Generally Capable Agents for Open-World
Environments via Large Language Models with Text-based Knowledge and Memory [97.87093169454431]
Ghost in the Minecraft (GITM) は、LLM(Large Language Models)とテキストベースの知識と記憶を統合する新しいフレームワークである。
我々は、構造化されたアクションのセットを開発し、LSMを活用してエージェントが実行するアクションプランを生成する。
LLMをベースとしたエージェントは、従来の手法を著しく上回り、成功率+47.5%という顕著な改善を達成している。
論文 参考訳(メタデータ) (2023-05-25T17:59:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。