論文の概要: ADAM: An Embodied Causal Agent in Open-World Environments
- arxiv url: http://arxiv.org/abs/2410.22194v1
- Date: Tue, 29 Oct 2024 16:32:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-30 13:43:09.071737
- Title: ADAM: An Embodied Causal Agent in Open-World Environments
- Title(参考訳): ADAM: オープンワールド環境における身体的因果関係のエージェント
- Authors: Shu Yu, Chaochao Lu,
- Abstract要約: Minecraftのエンボダイド因果エージェントであるADAMを紹介する。
ADAMは、オープンワールドを自律的にナビゲートし、マルチモーダルなコンテキストを認識し、因果世界知識を学び、生涯学習を通じて複雑なタスクに取り組むことができる。
- 参考スコア(独自算出の注目度): 3.2474668680608314
- License:
- Abstract: In open-world environments like Minecraft, existing agents face challenges in continuously learning structured knowledge, particularly causality. These challenges stem from the opacity inherent in black-box models and an excessive reliance on prior knowledge during training, which impair their interpretability and generalization capability. To this end, we introduce ADAM, An emboDied causal Agent in Minecraft, that can autonomously navigate the open world, perceive multimodal contexts, learn causal world knowledge, and tackle complex tasks through lifelong learning. ADAM is empowered by four key components: 1) an interaction module, enabling the agent to execute actions while documenting the interaction processes; 2) a causal model module, tasked with constructing an ever-growing causal graph from scratch, which enhances interpretability and diminishes reliance on prior knowledge; 3) a controller module, comprising a planner, an actor, and a memory pool, which uses the learned causal graph to accomplish tasks; 4) a perception module, powered by multimodal large language models, which enables ADAM to perceive like a human player. Extensive experiments show that ADAM constructs an almost perfect causal graph from scratch, enabling efficient task decomposition and execution with strong interpretability. Notably, in our modified Minecraft games where no prior knowledge is available, ADAM maintains its performance and shows remarkable robustness and generalization capability. ADAM pioneers a novel paradigm that integrates causal methods and embodied agents in a synergistic manner. Our project page is at https://opencausalab.github.io/ADAM.
- Abstract(参考訳): Minecraftのようなオープンな環境では、既存のエージェントは構造化知識、特に因果関係の継続的な学習において課題に直面している。
これらの課題は、ブラックボックスモデルに固有の不透明さと、トレーニング中の事前知識への過度な依存に起因し、解釈性と一般化能力を損なう。
この目的のために,オープンワールドを自律的にナビゲートし,マルチモーダルな文脈を知覚し,因果世界知識を学習し,生涯学習を通じて複雑なタスクに取り組む,MinecraftのEmboDied因果エージェントであるADAMを紹介した。
ADAMには4つの重要なコンポーネントがある。
1) インタラクションモジュールは,インタラクションプロセスの文書化中にエージェントがアクションを実行できるようにする。
2 因果モデルモジュールであって、ゼロから成長を続ける因果グラフを構築することを任務とし、解釈可能性を高め、先行知識への依存を減少させるものである。
3) 学習した因果グラフを用いてタスクを遂行する,プランナー,アクタ,メモリプールからなるコントローラモジュール
4)ADAMが人間のプレイヤーのように知覚できるマルチモーダルな大規模言語モデルによる知覚モジュール。
大規模な実験により、ADAMはゼロからほぼ完全な因果グラフを構築し、高い解釈性を持つ効率的なタスク分解と実行を可能にした。
特に、事前の知識が得られていないマインクラフトゲームでは、ADAMはその性能を維持し、顕著な堅牢性と一般化能力を示している。
ADAMは、因果的方法と具体的エージェントを相乗的に統合する新しいパラダイムを開拓した。
私たちのプロジェクトページはhttps://opencausalab.github.io/ADAM.comです。
関連論文リスト
- Online Decision MetaMorphFormer: A Casual Transformer-Based Reinforcement Learning Framework of Universal Embodied Intelligence [2.890656584329591]
Online Decision MetaMorphFormer (ODM)は、自己認識、環境認識、行動計画の実現を目的としている。
ODMは、異なる環境にあるマルチジョイントボディを持つ任意のエージェントに適用することができ、大規模な事前トレーニングデータセットを使用して、さまざまなタイプのタスクでトレーニングすることができる。
論文 参考訳(メタデータ) (2024-09-11T15:22:43Z) - Pangu-Agent: A Fine-Tunable Generalist Agent with Structured Reasoning [50.47568731994238]
人工知能(AI)エージェント作成の鍵となる方法は強化学習(RL)である
本稿では,構造化推論をAIエージェントのポリシーに統合し,学習するための一般的なフレームワークモデルを提案する。
論文 参考訳(メタデータ) (2023-12-22T17:57:57Z) - Scene-Driven Multimodal Knowledge Graph Construction for Embodied AI [2.380943129168748]
Embodied AIは、人工知能とロボティクスにおいて最も人気のある研究の1つである。
環境知識は、エージェントが周囲を理解し、正しい判断をする上で重要である。
シーンMMKG構築法は,従来の知識工学と大規模言語モデルを組み合わせたものである。
論文 参考訳(メタデータ) (2023-11-07T08:06:27Z) - Brain in a Vat: On Missing Pieces Towards Artificial General
Intelligence in Large Language Models [83.63242931107638]
本稿では,知的エージェントの4つの特徴について述べる。
実世界の物体との活発な関わりは、概念的表現を形成するためのより堅牢な信号をもたらすと我々は主張する。
我々は、人工知能分野における将来的な研究の方向性を概説して結論付ける。
論文 参考訳(メタデータ) (2023-07-07T13:58:16Z) - Ghost in the Minecraft: Generally Capable Agents for Open-World
Environments via Large Language Models with Text-based Knowledge and Memory [97.87093169454431]
Ghost in the Minecraft (GITM) は、LLM(Large Language Models)とテキストベースの知識と記憶を統合する新しいフレームワークである。
我々は、構造化されたアクションのセットを開発し、LSMを活用してエージェントが実行するアクションプランを生成する。
LLMをベースとしたエージェントは、従来の手法を著しく上回り、成功率+47.5%という顕著な改善を達成している。
論文 参考訳(メタデータ) (2023-05-25T17:59:49Z) - ArK: Augmented Reality with Knowledge Interactive Emergent Ability [115.72679420999535]
基礎モデルから新しいドメインへの知識記憶の伝達を学習する無限エージェントを開発する。
私たちのアプローチの核心は、Augmented Reality with Knowledge Inference Interaction (ArK)と呼ばれる新しいメカニズムである。
我々のArKアプローチは,大規模な基礎モデルと組み合わせることで,生成された2D/3Dシーンの品質を大幅に向上することを示す。
論文 参考訳(メタデータ) (2023-05-01T17:57:01Z) - OpenAGI: When LLM Meets Domain Experts [51.86179657467822]
ヒューマン・インテリジェンス(HI)は、複雑なタスクを解くための基本的なスキルの組み合わせに長けている。
この機能は人工知能(AI)にとって不可欠であり、包括的なAIエージェントに組み込まれるべきである。
マルチステップで現実的なタスクを解決するために設計されたオープンソースのプラットフォームであるOpenAGIを紹介します。
論文 参考訳(メタデータ) (2023-04-10T03:55:35Z) - WenLan 2.0: Make AI Imagine via a Multimodal Foundation Model [74.4875156387271]
我々は,膨大なマルチモーダル(視覚的・テキスト的)データを事前学習した新しい基礎モデルを開発する。
そこで本研究では,様々な下流タスクにおいて,最先端の成果が得られることを示す。
論文 参考訳(メタデータ) (2021-10-27T12:25:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。