Fugu-MT 論文翻訳(概要): JARVIS-1: Open-World Multi-task Agents with Memory-Augmented Multimodal Language Models

論文の概要: JARVIS-1: Open-World Multi-task Agents with Memory-Augmented Multimodal Language Models

arxiv url: http://arxiv.org/abs/2311.05997v3
Date: Thu, 30 Nov 2023 07:39:48 GMT
ステータス: 翻訳完了
システム内更新日: 2023-12-01 19:48:56.304843
Title: JARVIS-1: Open-World Multi-task Agents with Memory-Augmented Multimodal Language Models
Title（参考訳）: JARVIS-1:メモリ拡張マルチモーダル言語モデルを用いたオープンワールドマルチタスクエージェント
Authors: Zihao Wang, Shaofei Cai, Anji Liu, Yonggang Jin, Jinbing Hou, Bowei Zhang, Haowei Lin, Zhaofeng He, Zilong Zheng, Yaodong Yang, Xiaojian Ma, Yitao Liang
Abstract要約: マルチモーダル入力(視覚観察と人間の指示)を知覚できるオープンワールドエージェントJARVIS-1を紹介する。我々は,JARVIS-1をマルチモーダルメモリで構成し,事前学習した知識と実際のゲームサバイバル体験の両方を用いたプランニングを容易にする。 JARVIS-1はマインクラフトで最も一般的なエージェントであり、人間に似た制御と観測空間を用いて200以上のタスクを完了することができる。
参考スコア（独自算出の注目度）: 38.77967315158286
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Achieving human-like planning and control with multimodal observations in an open world is a key milestone for more functional generalist agents. Existing approaches can handle certain long-horizon tasks in an open world. However, they still struggle when the number of open-world tasks could potentially be infinite and lack the capability to progressively enhance task completion as game time progresses. We introduce JARVIS-1, an open-world agent that can perceive multimodal input (visual observations and human instructions), generate sophisticated plans, and perform embodied control, all within the popular yet challenging open-world Minecraft universe. Specifically, we develop JARVIS-1 on top of pre-trained multimodal language models, which map visual observations and textual instructions to plans. The plans will be ultimately dispatched to the goal-conditioned controllers. We outfit JARVIS-1 with a multimodal memory, which facilitates planning using both pre-trained knowledge and its actual game survival experiences. JARVIS-1 is the existing most general agent in Minecraft, capable of completing over 200 different tasks using control and observation space similar to humans. These tasks range from short-horizon tasks, e.g., "chopping trees" to long-horizon tasks, e.g., "obtaining a diamond pickaxe". JARVIS-1 performs exceptionally well in short-horizon tasks, achieving nearly perfect performance. In the classic long-term task of $\texttt{ObtainDiamondPickaxe}$, JARVIS-1 surpasses the reliability of current state-of-the-art agents by 5 times and can successfully complete longer-horizon and more challenging tasks. The project page is available at https://craftjarvis.org/JARVIS-1
Abstract（参考訳）: オープンワールドにおけるマルチモーダルな観察による人間のような計画と制御の実現は、より機能的なジェネラリストエージェントにとって重要なマイルストーンである。既存のアプローチは、オープンワールドにおける特定のロングホリゾンタスクを処理できる。しかし、オープンワールドタスクの数が無限になる可能性があり、ゲーム時間が進むにつれてタスク完了を徐々に向上させる能力が欠如している。オープンワールドエージェントであるJARVIS-1を導入し,マルチモーダルなインプット(視覚的観察と人間の指示)を知覚し,高度な計画を生成し,具体的制御を行う。具体的には,事前学習したマルチモーダル言語モデル上にjarvis-1を開発し,視覚観察とテキスト指示を計画にマッピングする。計画は最終的にゴールコンディショナーのコントローラに送られる。 JARVIS-1をマルチモーダルメモリで構成し、事前学習した知識と実際のゲームサバイバル体験の両方を計画する。 JARVIS-1はマインクラフトで最も一般的なエージェントであり、人間に似た制御と観測空間を用いて200以上のタスクを完了することができる。これらのタスクは、短いホリゾンタスク(例えば「木を切り倒す」)から長いホリゾンタスク(例えば「ダイヤモンドピカックスを取得する」)まで様々である。 JARVIS-1は短時間の作業で非常によく機能し、ほぼ完璧な性能を実現している。古典的な長期タスクである$\texttt{ObtainDiamondPickaxe}$では、JARVIS-1は現在の最先端エージェントの信頼性を5倍上回り、より水平で難しいタスクを完了させる。プロジェクトページはhttps://craftjarvis.org/jarvis-1で閲覧できます。

関連論文リスト

Mirage-1: Augmenting and Updating GUI Agent with Hierarchical Multimodal Skills [57.740236400672046]
本稿では,知識不足の問題に対処するため,階層型マルチモーダルスキル(HMS)モジュールを提案する。トラジェクトリを実行スキル、コアスキル、そして最終的にはメタスキルに徐々に抽象化し、長期のタスク計画のための階層的な知識構造を提供する。ドメインギャップを埋めるために,Skill-Augmented Monte Carlo Tree Search (SA-MCTS)アルゴリズムを提案する。
論文参考訳（メタデータ） (2025-06-12T06:21:19Z)
Optimus-3: Towards Generalist Multimodal Minecraft Agents with Scalable Task Experts [54.21319853862452]
Minecraftの汎用エージェントOptimus-3を提案する。エージェント開発のためのスケーラブルで高品質なトレーニングデータを提供するための知識強化型データ生成パイプラインを提案する。視覚的多様性に対するエージェントの推論能力を高めるために,マルチモーダル推論強化学習手法を開発した。
論文参考訳（メタデータ） (2025-06-12T05:29:40Z)
Optimus-2: Multimodal Minecraft Agent with Goal-Observation-Action Conditioned Policy [50.13429055093534]
Optimus-2はMultimodal Large Language Model (MLLM)を組み込んだ新しいMinecraftエージェントである。我々は,8つのアトミックタスクにわたる25,000のビデオを含む,高品質なMinecraft Goal-Observation-Action(MGOA)データセットを紹介した。 Optimus-2は、アトミックタスク、ロングホライゾンタスク、マインクラフトのオープンエンド命令タスクにまたがる優れたパフォーマンスを示す。
論文参考訳（メタデータ） (2025-02-27T09:18:04Z)
ReLEP: A Novel Framework for Real-world Long-horizon Embodied Planning [7.668848364013772]
本稿では,RelePについて紹介する。コアには細調整された大きな視覚言語モデルがあり、プランをスキル機能のシーケンスとして定式化している。 ReLEPは、幅広い日々のタスクをこなし、他の最先端のベースラインメソッドより優れている。
論文参考訳（メタデータ） (2024-09-24T01:47:23Z)
Optimus-1: Hybrid Multimodal Memory Empowered Agents Excel in Long-Horizon Tasks [50.13429055093534]
上記の課題に対処するために,ハイブリッドマルチモーダルメモリモジュールを提案する。知識を階層的指向知識グラフに変換することで,エージェントが世界知識を明示的に表現し,学習することが可能になる。また、過去の情報を抽象化されたマルチモーダル体験プールにまとめ、エージェントにコンテキスト内学習のための豊富な参照を提供する。 Hybrid Multimodal Memoryモジュールの上に、Optimus-1というマルチモーダルエージェントが、専用の知識誘導プランナーと経験駆動リフレクタで構築されている。
論文参考訳（メタデータ） (2024-08-07T08:16:32Z)
Odyssey: Empowering Minecraft Agents with Open-World Skills [26.537984734738764]
Odysseyは、LLM(Large Language Model)ベースのエージェントにオープンワールドスキルを付与し、Minecraftの世界を探索する新しいフレームワークである。 Odysseyは,(1)40のプリミティブスキルと183の作曲スキルからなるオープンワールドスキルライブラリを備えた対話型エージェント,(2)Minecraft Wikiから派生した390k以上のインストラクションインストラクションを持つ大規模質問応答データセット上で訓練された微調整LLaMA-3モデル,(3)新しいエージェント能力ベンチマークの3つの重要な部分から構成される。
論文参考訳（メタデータ） (2024-07-22T02:06:59Z)
MP5: A Multi-modal Open-ended Embodied System in Minecraft via Active Perception [53.20509532671891]
MP5は、Minecraftシミュレーター上に構築された、オープンなマルチモーダルエンボディシステムである。実現可能なサブオブジェクトを分解し、洗練された状況対応プランを設計し、実施可能なアクション制御を実行する。
論文参考訳（メタデータ） (2023-12-12T17:55:45Z)
See and Think: Embodied Agent in Virtual Environment [12.801720916220823]
大規模言語モデル(LLM)は、いくつかのオープンワールドタスクにおいて印象的な進歩を遂げた。本稿では,Minecraft仮想環境における包括的で視覚的なエンボディエージェントであるSTEVEを提案する。
論文参考訳（メタデータ） (2023-11-26T06:38:16Z)
Ghost in the Minecraft: Generally Capable Agents for Open-World Environments via Large Language Models with Text-based Knowledge and Memory [97.87093169454431]
Ghost in the Minecraft (GITM) は、LLM(Large Language Models)とテキストベースの知識と記憶を統合する新しいフレームワークである。我々は、構造化されたアクションのセットを開発し、LSMを活用してエージェントが実行するアクションプランを生成する。 LLMをベースとしたエージェントは、従来の手法を著しく上回り、成功率+47.5%という顕著な改善を達成している。
論文参考訳（メタデータ） (2023-05-25T17:59:49Z)
Voyager: An Open-Ended Embodied Agent with Large Language Models [103.76509266014165]
VoyagerはMinecraft初の生涯学習エージェントだ。常に世界を探索し、多様なスキルを身につけ、人間の介入なしに新しい発見を行う。 Voyagerは、Minecraftの新しい世界で学んだスキルライブラリを利用して、新しいタスクをゼロから解決することができる。
論文参考訳（メタデータ） (2023-05-25T17:46:38Z)
MineDojo: Building Open-Ended Embodied Agents with Internet-Scale Knowledge [70.47759528596711]
私たちは、人気のMinecraftゲーム上に構築された新しいフレームワークであるMineDojoを紹介します。本稿では,学習報酬関数として,大規模な事前学習ビデオ言語モデルを活用する新しいエージェント学習アルゴリズムを提案する。我々のエージェントは、手動で設計した密なシェーピング報酬なしで、自由形式の言語で指定された様々なオープンエンドタスクを解くことができる。
論文参考訳（メタデータ） (2022-06-17T15:53:05Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。