Fugu-MT 論文翻訳(概要): See and Think: Embodied Agent in Virtual Environment

論文の概要: See and Think: Embodied Agent in Virtual Environment

arxiv url: http://arxiv.org/abs/2311.15209v1
Date: Sun, 26 Nov 2023 06:38:16 GMT
ステータス: 翻訳完了
システム内更新日: 2023-11-28 18:43:27.363286
Title: See and Think: Embodied Agent in Virtual Environment
Title（参考訳）: 仮想環境における具体化エージェント
Authors: Zhonghan Zhao, Wenhao Chai, Xuan Wang, Li Boyi, Shengyu Hao, Shidong Cao, Tian Ye, Jenq-Neng Hwang, Gaoang Wang
Abstract要約: STEVEはMinecraftの仮想環境における包括的で幻想的なエンボディエージェントである。視覚知覚、言語命令、コードアクションの3つの重要なコンポーネントで構成されている。 STEVEは、キーテクツリーのアンロックの高速化と、これまでの最先端の方法に比べて、ブロック検索タスクの高速化に少なくとも1.5倍の速さで達成している。
参考スコア（独自算出の注目度）: 29.517193430123438
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Large language models (LLMs) have achieved impressive progress on several open-world tasks. Recently, using LLMs to build embodied agents has been a hotspot. In this paper, we propose STEVE, a comprehensive and visionary embodied agent in the Minecraft virtual environment. STEVE consists of three key components: vision perception, language instruction, and code action. Vision perception involves the interpretation of visual information in the environment, which is then integrated into the LLMs component with agent state and task instruction. Language instruction is responsible for iterative reasoning and decomposing complex tasks into manageable guidelines. Code action generates executable skill actions based on retrieval in skill database, enabling the agent to interact effectively within the Minecraft environment. We also collect STEVE-21K dataset, which includes 600$+$ vision-environment pairs, 20K knowledge question-answering pairs, and 200$+$ skill-code pairs. We conduct continuous block search, knowledge question and answering, and tech tree mastery to evaluate the performance. Extensive experiments show that STEVE achieves at most $1.5 \times$ faster unlocking key tech trees and $2.5 \times$ quicker in block search tasks compared to previous state-of-the-art methods.
Abstract（参考訳）: 大規模言語モデル(LLM)は、いくつかのオープンワールドタスクにおいて驚くべき進歩を遂げた。近年, LLM を用いたエンボディエージェントの構築がホットスポットとなっている。本稿では,Minecraft仮想環境における包括的で視覚的なエンボディエージェントであるSTEVEを提案する。 STEVEは視覚知覚、言語命令、コードアクションの3つの重要なコンポーネントから構成される。視覚知覚は、環境内の視覚情報の解釈を伴い、エージェントの状態とタスク命令と共にllmsコンポーネントに統合される。言語指導は、反復的な推論と複雑なタスクを管理可能なガイドラインに分解する責任がある。コードアクションはスキルデータベースの検索に基づいて実行可能なスキルアクションを生成し、エージェントがminecraft環境内で効果的に対話できるようにする。また、600ドル+ビジョン環境ペア、20K知識質問応答ペア、200ドル+スキルコードペアを含むSTEVE-21Kデータセットも収集しています。我々は,連続的ブロック探索,知識質問と回答,技術木熟達を行い,その性能を評価する。大規模な実験によると、STEVEは、キーテクツリーのアンロックを高速化する$1.5と、これまでの最先端のメソッドに比べて、ブロック検索タスクを高速化する$2.5だ。

関連論文リスト

ROCKET-1: Mastering Open-World Interaction with Visual-Temporal Context Prompting [24.56720920528011]
視覚言語モデル(VLM)は、マルチモーダルなタスクに優れていますが、オープンワールド環境における意思決定の具体化にそれらを適用することは、課題を示します。 1つの重要な問題は、低レベルの観測における個別の実体と効果的な計画に必要な抽象概念のギャップを埋めることである。 VLMとポリシーモデルの間の新しい通信プロトコルである視覚的時間的コンテキストを提案する。
論文参考訳（メタデータ） (2024-10-23T13:26:59Z)
Odyssey: Empowering Minecraft Agents with Open-World Skills [26.537984734738764]
Odysseyは、LLM(Large Language Model)ベースのエージェントにオープンワールドスキルを付与し、Minecraftの世界を探索する新しいフレームワークである。 Odysseyは,(1)40のプリミティブスキルと183の作曲スキルからなるオープンワールドスキルライブラリを備えた対話型エージェント,(2)Minecraft Wikiから派生した390k以上のインストラクションインストラクションを持つ大規模質問応答データセット上で訓練された微調整LLaMA-3モデル,(3)新しいエージェント能力ベンチマークの3つの重要な部分から構成される。
論文参考訳（メタデータ） (2024-07-22T02:06:59Z)
DISCO: Embodied Navigation and Interaction via Differentiable Scene Semantics and Dual-level Control [53.80518003412016]
人間の命令によって多様なタスクに熟練した汎用的なインテリジェントホームアシストエージェントを構築することは、AI研究の長期的青写真である。本研究では,具体的エージェントに対する原始的移動操作,すなわち指示された動詞と名詞のペアに基づいて,ナビゲートと対話の仕方について検討する。本研究では、文脈化されたシーンモデリングと効率的な制御における非自明な進歩を特徴とするdisCOを提案する。
論文参考訳（メタデータ） (2024-07-20T05:39:28Z)
kNN-ICL: Compositional Task-Oriented Parsing Generalization with Nearest Neighbor In-Context Learning [50.40636157214161]
Task-Oriented Parsing (TOP)により、会話アシスタントは自然言語で表現されたユーザーコマンドを解釈できる。 LLMは、自然言語のプロンプトに基づいて、コンピュータプログラムにおいて印象的な性能を達成した。本稿では,LLMのセマンティック解析機能を活用することに焦点を当てる。
論文参考訳（メタデータ） (2023-12-17T17:26:50Z)
Localizing Active Objects from Egocentric Vision with Symbolic World Knowledge [62.981429762309226]
タスクの指示をエゴセントリックな視点から積極的に下す能力は、AIエージェントがタスクを達成したり、人間をバーチャルに支援する上で不可欠である。本稿では,現在進行中のオブジェクトの役割を学習し,指示から正確に抽出することで,アクティブなオブジェクトをローカライズするフレーズグラウンドモデルの性能を向上させることを提案する。 Ego4DおよびEpic-Kitchensデータセットに関するフレームワークの評価を行った。
論文参考訳（メタデータ） (2023-10-23T16:14:05Z)
VELMA: Verbalization Embodiment of LLM Agents for Vision and Language Navigation in Street View [81.58612867186633]
視覚と言語ナビゲーション(VLN)は、視覚的および自然言語の理解と空間的および時間的推論能力を必要とする。 VELMAは,2つのコンテキスト内例のみを用いて,ストリートビューでのナビゲーション指示に従うことができることを示す。数千の例でLLMエージェントをさらに微調整し、従来の2つのデータセットのタスク完了に対する25%-30%の相対的な改善を実現した。
論文参考訳（メタデータ） (2023-07-12T11:08:24Z)
LAMM: Language-Assisted Multi-Modal Instruction-Tuning Dataset, Framework, and Benchmark [81.42376626294812]
本稿では,Language-Assisted Multi-Modalインストラクションチューニングデータセット,フレームワーク,ベンチマークを提案する。我々の目標は、MLLMのトレーニングと評価のための成長するエコシステムとしてLAMMを確立することです。本稿では,2次元および3次元視覚のための広範囲な視覚タスクをカバーする包括的データセットとベンチマークを提案する。
論文参考訳（メタデータ） (2023-06-11T14:01:17Z)
Ghost in the Minecraft: Generally Capable Agents for Open-World Environments via Large Language Models with Text-based Knowledge and Memory [97.87093169454431]
Ghost in the Minecraft (GITM) は、LLM(Large Language Models)とテキストベースの知識と記憶を統合する新しいフレームワークである。我々は、構造化されたアクションのセットを開発し、LSMを活用してエージェントが実行するアクションプランを生成する。 LLMをベースとしたエージェントは、従来の手法を著しく上回り、成功率+47.5%という顕著な改善を達成している。
論文参考訳（メタデータ） (2023-05-25T17:59:49Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。