論文の概要: Optimus-1: Hybrid Multimodal Memory Empowered Agents Excel in Long-Horizon Tasks
- arxiv url: http://arxiv.org/abs/2408.03615v1
- Date: Wed, 7 Aug 2024 08:16:32 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-08 13:34:00.753371
- Title: Optimus-1: Hybrid Multimodal Memory Empowered Agents Excel in Long-Horizon Tasks
- Title(参考訳): Optimus-1: 長距離タスクにおけるハイブリッドマルチモーダルメモリ駆動エージェントExcel
- Authors: Zaijing Li, Yuquan Xie, Rui Shao, Gongwei Chen, Dongmei Jiang, Liqiang Nie,
- Abstract要約: 上記の課題に対処するために,ハイブリッドマルチモーダルメモリモジュールを提案する。
知識を階層的指向知識グラフに変換することで,エージェントが世界知識を明示的に表現し,学習することが可能になる。
また、過去の情報を抽象化されたマルチモーダル体験プールにまとめ、エージェントにコンテキスト内学習のための豊富な参照を提供する。
Hybrid Multimodal Memoryモジュールの上に、Optimus-1というマルチモーダルエージェントが、専用の知識誘導プランナーと経験駆動リフレクタで構築されている。
- 参考スコア(独自算出の注目度): 50.13429055093534
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Building a general-purpose agent is a long-standing vision in the field of artificial intelligence. Existing agents have made remarkable progress in many domains, yet they still struggle to complete long-horizon tasks in an open world. We attribute this to the lack of necessary world knowledge and multimodal experience that can guide agents through a variety of long-horizon tasks. In this paper, we propose a Hybrid Multimodal Memory module to address the above challenges. It 1) transforms knowledge into Hierarchical Directed Knowledge Graph that allows agents to explicitly represent and learn world knowledge, and 2) summarises historical information into Abstracted Multimodal Experience Pool that provide agents with rich references for in-context learning. On top of the Hybrid Multimodal Memory module, a multimodal agent, Optimus-1, is constructed with dedicated Knowledge-guided Planner and Experience-Driven Reflector, contributing to a better planning and reflection in the face of long-horizon tasks in Minecraft. Extensive experimental results show that Optimus-1 significantly outperforms all existing agents on challenging long-horizon task benchmarks, and exhibits near human-level performance on many tasks. In addition, we introduce various Multimodal Large Language Models (MLLMs) as the backbone of Optimus-1. Experimental results show that Optimus-1 exhibits strong generalization with the help of the Hybrid Multimodal Memory module, outperforming the GPT-4V baseline on many tasks.
- Abstract(参考訳): 汎用エージェントの構築は、人工知能分野における長年のビジョンである。
既存のエージェントは多くのドメインで顕著な進歩を遂げてきたが、オープンな世界での長期のタスクを完了させるのに苦戦している。
これは,様々な長期的タスクを通じてエージェントを誘導できる,必要な世界知識とマルチモーダル体験の欠如によるものである。
本稿では,上記の課題に対処するハイブリッドマルチモーダルメモリモジュールを提案する。
それ
1)知識を階層的指向知識グラフに変換し、エージェントが明示的に世界知識を表現し学習できるようにする。
2) 歴史的情報を抽象化したマルチモーダル体験プールに要約し, エージェントに文脈内学習のための豊富な参照を提供する。
マルチモーダルエージェントであるOptimus-1は、Hybrid Multimodal Memoryモジュールの上に、知識誘導型プランナーとエクスペリエンス駆動リフレクタで構築されており、Minecraftの長期タスクの面における計画とリフレクションの改善に貢献している。
大規模な実験結果から,Optimus-1は長期タスクベンチマークにおいて既存のエージェントを著しく上回り,多くのタスクにおいて人間レベルに近い性能を示すことがわかった。
さらに,オプティマス1のバックボーンとして,MLLM(Multimodal Large Language Models)を導入する。
実験の結果,Optimus-1はHybrid Multimodal Memoryモジュールの助けを借りて強力な一般化を示し,多くのタスクにおいてGPT-4Vベースラインを上回った。
関連論文リスト
- LaMMA-P: Generalizable Multi-Agent Long-Horizon Task Allocation and Planning with LM-Driven PDDL Planner [9.044939946653002]
言語モデル(LM)は、自然言語を理解する強力な能力を有しており、人間の指示を単純なロボットタスクの詳細な計画に変換するのに効果的である。
本稿では,言語モデル駆動型多エージェントPDDLプランナ(LaMMA-P)を提案する。
LaMMA-Pは、LMの推論能力と従来の探索プランナーの強みを統合し、高い成功率と効率を達成する。
論文 参考訳(メタデータ) (2024-09-30T17:58:18Z) - Hybrid Training for Enhanced Multi-task Generalization in Multi-agent Reinforcement Learning [7.6201940008534175]
HyGenは、オンラインとオフラインの学習を統合し、マルチタスクの一般化とトレーニング効率の両立を保証する新しいハイブリッドMARLフレームワークである。
我々は、我々のフレームワークが一般的なスキルを効果的に抽出し、洗練し、目に見えないタスクに印象的な一般化をもたらすことを実証的に実証した。
論文 参考訳(メタデータ) (2024-08-24T12:37:03Z) - MoME: Mixture of Multimodal Experts for Generalist Multimodal Large Language Models [57.091523832149655]
本稿では,タスク干渉を緩和し,汎用MLLMを得るためのマルチモーダルエキスパート(MoME)の混合を提案する。
私たちのMoMEは、視覚専門家の混合(MoVE)と言語専門家の混合(MoLE)の2つの重要なコンポーネントで構成されています。
論文 参考訳(メタデータ) (2024-07-17T16:31:38Z) - Synergistic Multi-Agent Framework with Trajectory Learning for Knowledge-Intensive Tasks [44.42989163847349]
大規模言語モデル(LLM)は、様々な自然言語処理タスクにおいて大きなブレークスルーをもたらした。
知識集約的なシナリオにおいて、現実的に一貫した応答を生成することは、依然として課題である。
本稿では,LSM生成応答の解釈可能性と現実的一貫性を高めるために,外部知識を活用する新しいマルチエージェントフレームワークSMARTを紹介する。
論文 参考訳(メタデータ) (2024-07-13T13:58:24Z) - Do We Really Need a Complex Agent System? Distill Embodied Agent into a Single Model [15.558269067931374]
オープンなエンボディタスクのための階層的知識蒸留フレームワークであるSTEVE-2を提案する。
蒸留後、実施エージェントは専門的なガイダンスなしで複雑なオープンエンドタスクを完了することができる。
論文 参考訳(メタデータ) (2024-04-06T12:51:00Z) - Delving into Multi-modal Multi-task Foundation Models for Road Scene Understanding: From Learning Paradigm Perspectives [56.2139730920855]
本稿では,道路シーンに特化して設計されたMM-VUFMの系統解析について述べる。
本研究の目的は,タスク特化モデル,統合マルチモーダルモデル,統合マルチタスクモデル,基礎モデル推進技術など,共通プラクティスの包括的概要を提供することである。
我々は、クローズドループ駆動システム、解釈可能性、エンボディドドライブエージェント、世界モデルなど、重要な課題と今後のトレンドに関する洞察を提供する。
論文 参考訳(メタデータ) (2024-02-05T12:47:09Z) - Generative Multimodal Models are In-Context Learners [60.50927925426832]
我々は37億のパラメータを持つ生成的マルチモーダルモデルであるEmu2を紹介し、大規模マルチモーダルシーケンスで訓練する。
Emu2は、マルチモーダルなインコンテキスト学習能力を示し、オンザフライ推論を必要とするタスクを解決しようとさえしている。
論文 参考訳(メタデータ) (2023-12-20T18:59:58Z) - JARVIS-1: Open-World Multi-task Agents with Memory-Augmented Multimodal
Language Models [38.77967315158286]
マルチモーダル入力(視覚観察と人間の指示)を知覚できるオープンワールドエージェントJARVIS-1を紹介する。
我々は,JARVIS-1をマルチモーダルメモリで構成し,事前学習した知識と実際のゲームサバイバル体験の両方を用いたプランニングを容易にする。
JARVIS-1はマインクラフトで最も一般的なエージェントであり、人間に似た制御と観測空間を用いて200以上のタスクを完了することができる。
論文 参考訳(メタデータ) (2023-11-10T11:17:58Z) - Agent Lumos: Unified and Modular Training for Open-Source Language Agents [89.78556964988852]
LUMOSは、オープンソースのLLMベースのエージェントをトレーニングするための最初のフレームワークの1つです。
LUMOSは、高レベルなサブゴール生成を学習する計画モジュールを備えた、学習可能で統一されたモジュラーアーキテクチャを備えている。
我々は、多様な地道理理性から導かれた大規模で統一的で高品質なトレーニングアノテーションを収集する。
論文 参考訳(メタデータ) (2023-11-09T00:30:13Z) - UPDeT: Universal Multi-agent Reinforcement Learning via Policy
Decoupling with Transformers [108.92194081987967]
タスクに適合する1つのアーキテクチャを設計し、汎用的なマルチエージェント強化学習パイプラインを最初に試行する。
従来のRNNモデルとは異なり、トランスフォーマーモデルを用いてフレキシブルなポリシーを生成する。
提案方式はUPDeT(Universal Policy Decoupling Transformer)と名付けられ,動作制限を緩和し,マルチエージェントタスクの決定プロセスをより説明しやすいものにする。
論文 参考訳(メタデータ) (2021-01-20T07:24:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。