論文の概要: JARVIS-1: Open-World Multi-task Agents with Memory-Augmented Multimodal
Language Models
- arxiv url: http://arxiv.org/abs/2311.05997v3
- Date: Thu, 30 Nov 2023 07:39:48 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-01 19:48:56.304843
- Title: JARVIS-1: Open-World Multi-task Agents with Memory-Augmented Multimodal
Language Models
- Title(参考訳): JARVIS-1:メモリ拡張マルチモーダル言語モデルを用いたオープンワールドマルチタスクエージェント
- Authors: Zihao Wang, Shaofei Cai, Anji Liu, Yonggang Jin, Jinbing Hou, Bowei
Zhang, Haowei Lin, Zhaofeng He, Zilong Zheng, Yaodong Yang, Xiaojian Ma,
Yitao Liang
- Abstract要約: マルチモーダル入力(視覚観察と人間の指示)を知覚できるオープンワールドエージェントJARVIS-1を紹介する。
我々は,JARVIS-1をマルチモーダルメモリで構成し,事前学習した知識と実際のゲームサバイバル体験の両方を用いたプランニングを容易にする。
JARVIS-1はマインクラフトで最も一般的なエージェントであり、人間に似た制御と観測空間を用いて200以上のタスクを完了することができる。
- 参考スコア(独自算出の注目度): 38.77967315158286
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Achieving human-like planning and control with multimodal observations in an
open world is a key milestone for more functional generalist agents. Existing
approaches can handle certain long-horizon tasks in an open world. However,
they still struggle when the number of open-world tasks could potentially be
infinite and lack the capability to progressively enhance task completion as
game time progresses. We introduce JARVIS-1, an open-world agent that can
perceive multimodal input (visual observations and human instructions),
generate sophisticated plans, and perform embodied control, all within the
popular yet challenging open-world Minecraft universe. Specifically, we develop
JARVIS-1 on top of pre-trained multimodal language models, which map visual
observations and textual instructions to plans. The plans will be ultimately
dispatched to the goal-conditioned controllers. We outfit JARVIS-1 with a
multimodal memory, which facilitates planning using both pre-trained knowledge
and its actual game survival experiences. JARVIS-1 is the existing most general
agent in Minecraft, capable of completing over 200 different tasks using
control and observation space similar to humans. These tasks range from
short-horizon tasks, e.g., "chopping trees" to long-horizon tasks, e.g.,
"obtaining a diamond pickaxe". JARVIS-1 performs exceptionally well in
short-horizon tasks, achieving nearly perfect performance. In the classic
long-term task of $\texttt{ObtainDiamondPickaxe}$, JARVIS-1 surpasses the
reliability of current state-of-the-art agents by 5 times and can successfully
complete longer-horizon and more challenging tasks. The project page is
available at https://craftjarvis.org/JARVIS-1
- Abstract(参考訳): オープンワールドにおけるマルチモーダルな観察による人間のような計画と制御の実現は、より機能的なジェネラリストエージェントにとって重要なマイルストーンである。
既存のアプローチは、オープンワールドにおける特定のロングホリゾンタスクを処理できる。
しかし、オープンワールドタスクの数が無限になる可能性があり、ゲーム時間が進むにつれてタスク完了を徐々に向上させる能力が欠如している。
オープンワールドエージェントであるJARVIS-1を導入し,マルチモーダルなインプット(視覚的観察と人間の指示)を知覚し,高度な計画を生成し,具体的制御を行う。
具体的には,事前学習したマルチモーダル言語モデル上にjarvis-1を開発し,視覚観察とテキスト指示を計画にマッピングする。
計画は最終的にゴールコンディショナーのコントローラに送られる。
JARVIS-1をマルチモーダルメモリで構成し、事前学習した知識と実際のゲームサバイバル体験の両方を計画する。
JARVIS-1はマインクラフトで最も一般的なエージェントであり、人間に似た制御と観測空間を用いて200以上のタスクを完了することができる。
これらのタスクは、短いホリゾンタスク(例えば「木を切り倒す」)から長いホリゾンタスク(例えば「ダイヤモンドピカックスを取得する」)まで様々である。
JARVIS-1は短時間の作業で非常によく機能し、ほぼ完璧な性能を実現している。
古典的な長期タスクである$\texttt{ObtainDiamondPickaxe}$では、JARVIS-1は現在の最先端エージェントの信頼性を5倍上回り、より水平で難しいタスクを完了させる。
プロジェクトページはhttps://craftjarvis.org/jarvis-1で閲覧できます。
関連論文リスト
- MP5: A Multi-modal Open-ended Embodied System in Minecraft via Active Perception [53.20509532671891]
MP5は、Minecraftシミュレーター上に構築された、オープンなマルチモーダルエンボディシステムである。
実現可能なサブオブジェクトを分解し、洗練された状況対応プランを設計し、実施可能なアクション制御を実行する。
論文 参考訳(メタデータ) (2023-12-12T17:55:45Z) - See and Think: Embodied Agent in Virtual Environment [29.517193430123438]
STEVEはMinecraftの仮想環境における包括的で幻想的なエンボディエージェントである。
視覚知覚、言語命令、コードアクションの3つの重要なコンポーネントで構成されている。
STEVEは、キーテクツリーのアンロックの高速化と、これまでの最先端の方法に比べて、ブロック検索タスクの高速化に少なくとも1.5倍の速さで達成している。
論文 参考訳(メタデータ) (2023-11-26T06:38:16Z) - MCU: A Task-centric Framework for Open-ended Agent Evaluation in
Minecraft [28.585449904964033]
本稿では,Minecraftエージェント評価のためのタスク中心フレームワークであるMCUを紹介する。
MCUフレームワーク内では、各タスクは6つの異なる難易度スコアで測定される。
MCUはMinecraftエージェントの最近の文献で使われているタスクを全てカバーする表現力が高いことを示す。
論文 参考訳(メタデータ) (2023-10-12T14:38:25Z) - Ghost in the Minecraft: Generally Capable Agents for Open-World
Environments via Large Language Models with Text-based Knowledge and Memory [97.87093169454431]
Ghost in the Minecraft (GITM) は、LLM(Large Language Models)とテキストベースの知識と記憶を統合する新しいフレームワークである。
我々は、構造化されたアクションのセットを開発し、LSMを活用してエージェントが実行するアクションプランを生成する。
LLMをベースとしたエージェントは、従来の手法を著しく上回り、成功率+47.5%という顕著な改善を達成している。
論文 参考訳(メタデータ) (2023-05-25T17:59:49Z) - Voyager: An Open-Ended Embodied Agent with Large Language Models [103.76509266014165]
VoyagerはMinecraft初の生涯学習エージェントだ。
常に世界を探索し、多様なスキルを身につけ、人間の介入なしに新しい発見を行う。
Voyagerは、Minecraftの新しい世界で学んだスキルライブラリを利用して、新しいタスクをゼロから解決することができる。
論文 参考訳(メタデータ) (2023-05-25T17:46:38Z) - Describe, Explain, Plan and Select: Interactive Planning with Large
Language Models Enables Open-World Multi-Task Agents [28.37910346577588]
「$underlineD$escribe」は、Large Language Models(LLMs)に基づく対話型計画手法である。
DEPSは、計画実行プロセスの$textitdescription$を統合することで、初期LLM生成の$textitplan$のエラー修正を容易にする。
実験は、70以上のMinecraftタスクを確実に達成できる最初のゼロショットマルチタスクエージェントのマイルストーンとなる。
論文 参考訳(メタデータ) (2023-02-03T06:06:27Z) - MineDojo: Building Open-Ended Embodied Agents with Internet-Scale
Knowledge [70.47759528596711]
私たちは、人気のMinecraftゲーム上に構築された新しいフレームワークであるMineDojoを紹介します。
本稿では,学習報酬関数として,大規模な事前学習ビデオ言語モデルを活用する新しいエージェント学習アルゴリズムを提案する。
我々のエージェントは、手動で設計した密なシェーピング報酬なしで、自由形式の言語で指定された様々なオープンエンドタスクを解くことができる。
論文 参考訳(メタデータ) (2022-06-17T15:53:05Z) - Modeling Long-horizon Tasks as Sequential Interaction Landscapes [75.5824586200507]
本稿では,一連のデモビデオからのみ,サブタスク間の依存関係と遷移を学習するディープラーニングネットワークを提案する。
これらのシンボルは、画像観察から直接学習し、予測できることが示される。
我々は,(1)人間によって実行されるパズル片のブロック積み重ね,(2)物体のピック・アンド・プレイスとキャビネットドアを7-DoFロボットアームで滑らせるロボット操作という,2つの長期水平作業において,我々の枠組みを評価する。
論文 参考訳(メタデータ) (2020-06-08T18:07:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。