論文の概要: JARVIS-1: Open-World Multi-task Agents with Memory-Augmented Multimodal
Language Models
- arxiv url: http://arxiv.org/abs/2311.05997v1
- Date: Fri, 10 Nov 2023 11:17:58 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-13 15:17:41.429537
- Title: JARVIS-1: Open-World Multi-task Agents with Memory-Augmented Multimodal
Language Models
- Title(参考訳): JARVIS-1:メモリ拡張マルチモーダル言語モデルを用いたオープンワールドマルチタスクエージェント
- Authors: Zihao Wang, Shaofei Cai, Anji Liu, Yonggang Jin, Jinbing Hou, Bowei
Zhang, Haowei Lin, Zhaofeng He, Zilong Zheng, Yaodong Yang, Xiaojian Ma,
Yitao Liang
- Abstract要約: JARVIS-1は、マルチモーダル入力(視覚観察と人間の指示)を知覚し、洗練された計画を生成するオープンワールドエージェントである。
具体的には、事前訓練されたマルチモーダル言語モデル上にJARVIS-1を開発し、視覚的な観察とテキストによる指示を計画にマッピングする。
我々は,JARVIS-1をマルチモーダルメモリで構成し,事前学習した知識と実際のゲームサバイバル体験の両方を用いたプランニングを容易にする。
- 参考スコア(独自算出の注目度): 38.77967315158286
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Achieving human-like planning and control with multimodal observations in an
open world is a key milestone for more functional generalist agents. Existing
approaches can handle certain long-horizon tasks in an open world. However,
they still struggle when the number of open-world tasks could potentially be
infinite and lack the capability to progressively enhance task completion as
game time progresses. We introduce JARVIS-1, an open-world agent that can
perceive multimodal input (visual observations and human instructions),
generate sophisticated plans, and perform embodied control, all within the
popular yet challenging open-world Minecraft universe. Specifically, we develop
JARVIS-1 on top of pre-trained multimodal language models, which map visual
observations and textual instructions to plans. The plans will be ultimately
dispatched to the goal-conditioned controllers. We outfit JARVIS-1 with a
multimodal memory, which facilitates planning using both pre-trained knowledge
and its actual game survival experiences. In our experiments, JARVIS-1 exhibits
nearly perfect performances across over 200 varying tasks from the Minecraft
Universe Benchmark, ranging from entry to intermediate levels. JARVIS-1 has
achieved a completion rate of 12.5% in the long-horizon diamond pickaxe task.
This represents a significant increase up to 5 times compared to previous
records. Furthermore, we show that JARVIS-1 is able to $\textit{self-improve}$
following a life-long learning paradigm thanks to multimodal memory, sparking a
more general intelligence and improved autonomy. The project page is available
at https://craftjarvis-jarvis1.github.io.
- Abstract(参考訳): オープンワールドにおけるマルチモーダルな観察による人間のような計画と制御の実現は、より機能的なジェネラリストエージェントにとって重要なマイルストーンである。
既存のアプローチは、オープンワールドにおける特定のロングホリゾンタスクを処理できる。
しかし、オープンワールドタスクの数が無限になる可能性があり、ゲーム時間が進むにつれてタスク完了を徐々に向上させる能力が欠如している。
オープンワールドエージェントであるJARVIS-1を導入し,マルチモーダルなインプット(視覚的観察と人間の指示)を知覚し,高度な計画を生成し,具体的制御を行う。
具体的には,事前学習したマルチモーダル言語モデル上にjarvis-1を開発し,視覚観察とテキスト指示を計画にマッピングする。
計画は最終的にゴールコンディショナーのコントローラに送られる。
JARVIS-1をマルチモーダルメモリで構成し、事前学習した知識と実際のゲームサバイバル体験の両方を計画する。
実験では、jarvis-1は入力レベルから中間レベルまで、minecraft universeベンチマークから200以上の様々なタスクでほぼ完璧なパフォーマンスを示しました。
JARVIS-1は12.5%の完成率を達成した。
これは以前の記録に比べて5倍の大幅な増加である。
さらに、JARVIS-1は、マルチモーダルメモリによる生涯学習パラダイムに従って$\textit{self-improve}$を達成できることを示し、より汎用的なインテリジェンスと自律性の向上を実現している。
プロジェクトページはhttps://craftjarvis-jarvis1.github.ioで入手できる。
関連論文リスト
- ReLEP: A Novel Framework for Real-world Long-horizon Embodied Planning [7.668848364013772]
本稿では,RelePについて紹介する。
コアには細調整された大きな視覚言語モデルがあり、プランをスキル機能のシーケンスとして定式化している。
ReLEPは、幅広い日々のタスクをこなし、他の最先端のベースラインメソッドより優れている。
論文 参考訳(メタデータ) (2024-09-24T01:47:23Z) - Optimus-1: Hybrid Multimodal Memory Empowered Agents Excel in Long-Horizon Tasks [50.13429055093534]
上記の課題に対処するために,ハイブリッドマルチモーダルメモリモジュールを提案する。
知識を階層的指向知識グラフに変換することで,エージェントが世界知識を明示的に表現し,学習することが可能になる。
また、過去の情報を抽象化されたマルチモーダル体験プールにまとめ、エージェントにコンテキスト内学習のための豊富な参照を提供する。
Hybrid Multimodal Memoryモジュールの上に、Optimus-1というマルチモーダルエージェントが、専用の知識誘導プランナーと経験駆動リフレクタで構築されている。
論文 参考訳(メタデータ) (2024-08-07T08:16:32Z) - Odyssey: Empowering Minecraft Agents with Open-World Skills [26.537984734738764]
Odysseyは、LLM(Large Language Model)ベースのエージェントにオープンワールドスキルを付与し、Minecraftの世界を探索する新しいフレームワークである。
Odysseyは,(1)40のプリミティブスキルと183の作曲スキルからなるオープンワールドスキルライブラリを備えた対話型エージェント,(2)Minecraft Wikiから派生した390k以上のインストラクションインストラクションを持つ大規模質問応答データセット上で訓練された微調整LLaMA-3モデル,(3)新しいエージェント能力ベンチマークの3つの重要な部分から構成される。
論文 参考訳(メタデータ) (2024-07-22T02:06:59Z) - MP5: A Multi-modal Open-ended Embodied System in Minecraft via Active Perception [53.20509532671891]
MP5は、Minecraftシミュレーター上に構築された、オープンなマルチモーダルエンボディシステムである。
実現可能なサブオブジェクトを分解し、洗練された状況対応プランを設計し、実施可能なアクション制御を実行する。
論文 参考訳(メタデータ) (2023-12-12T17:55:45Z) - See and Think: Embodied Agent in Virtual Environment [12.801720916220823]
大規模言語モデル(LLM)は、いくつかのオープンワールドタスクにおいて印象的な進歩を遂げた。
本稿では,Minecraft仮想環境における包括的で視覚的なエンボディエージェントであるSTEVEを提案する。
論文 参考訳(メタデータ) (2023-11-26T06:38:16Z) - Ghost in the Minecraft: Generally Capable Agents for Open-World
Environments via Large Language Models with Text-based Knowledge and Memory [97.87093169454431]
Ghost in the Minecraft (GITM) は、LLM(Large Language Models)とテキストベースの知識と記憶を統合する新しいフレームワークである。
我々は、構造化されたアクションのセットを開発し、LSMを活用してエージェントが実行するアクションプランを生成する。
LLMをベースとしたエージェントは、従来の手法を著しく上回り、成功率+47.5%という顕著な改善を達成している。
論文 参考訳(メタデータ) (2023-05-25T17:59:49Z) - Voyager: An Open-Ended Embodied Agent with Large Language Models [103.76509266014165]
VoyagerはMinecraft初の生涯学習エージェントだ。
常に世界を探索し、多様なスキルを身につけ、人間の介入なしに新しい発見を行う。
Voyagerは、Minecraftの新しい世界で学んだスキルライブラリを利用して、新しいタスクをゼロから解決することができる。
論文 参考訳(メタデータ) (2023-05-25T17:46:38Z) - MineDojo: Building Open-Ended Embodied Agents with Internet-Scale
Knowledge [70.47759528596711]
私たちは、人気のMinecraftゲーム上に構築された新しいフレームワークであるMineDojoを紹介します。
本稿では,学習報酬関数として,大規模な事前学習ビデオ言語モデルを活用する新しいエージェント学習アルゴリズムを提案する。
我々のエージェントは、手動で設計した密なシェーピング報酬なしで、自由形式の言語で指定された様々なオープンエンドタスクを解くことができる。
論文 参考訳(メタデータ) (2022-06-17T15:53:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。