論文の概要: MindForge: Empowering Embodied Agents with Theory of Mind for Lifelong Cultural Learning
- arxiv url: http://arxiv.org/abs/2411.12977v4
- Date: Wed, 11 Jun 2025 14:09:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-12 23:41:16.595877
- Title: MindForge: Empowering Embodied Agents with Theory of Mind for Lifelong Cultural Learning
- Title(参考訳): MindForge: 一生の文化学習のための心論による身体的エージェントの強化
- Authors: Mircea Lică, Ojas Shirekar, Baptiste Colle, Chirag Raman,
- Abstract要約: 大型言語モデル(LLM)を駆使したエージェントは、Minecraftのような世界にオープンエンドの能力を持つことを約束する。
本稿では,文化的生涯学習のための生成型フレームワークであるMindForgeを提案する。
- 参考スコア(独自算出の注目度): 3.187381965457262
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Embodied agents powered by large language models (LLMs), such as Voyager, promise open-ended competence in worlds such as Minecraft. However, when powered by open-weight LLMs they still falter on elementary tasks after domain-specific fine-tuning. We propose MindForge, a generative-agent framework for cultural lifelong learning through explicit perspective taking. We introduce three key innovations: (1) a structured theory of mind representation linking percepts, beliefs, desires, and actions; (2) natural inter-agent communication; and (3) a multi-component memory system. Following the cultural learning framework, we test MindForge in both instructive and collaborative settings within Minecraft. In an instructive setting with GPT-4, MindForge agents powered by open-weight LLMs significantly outperform their Voyager counterparts in basic tasks yielding $3\times$ more tech-tree milestones and collecting $2.3\times$ more unique items than the Voyager baseline. Furthermore, in fully \textit{collaborative} settings, we find that the performance of two underachieving agents improves with more communication rounds, echoing the Condorcet Jury Theorem. MindForge agents demonstrate sophisticated behaviors, including expert-novice knowledge transfer, collaborative problem solving, and adaptation to out-of-distribution tasks through accumulated cultural experiences.
- Abstract(参考訳): ボイジャーのような大型言語モデル(LLM)を駆使したエージェントは、Minecraftのような世界にオープンエンドの能力を持つことを約束する。
しかし、オープンウェイト LLM によって駆動される場合、ドメイン固有の微調整の後でも、基礎的なタスクに悩まされる。
本稿では,文化的生涯学習のための生成型フレームワークであるMindForgeを提案する。
本稿では,(1)知覚,信念,欲求,行動をリンクする心的表現の構造化理論,(2)自然なエージェント間コミュニケーション,(3)多成分記憶システムを紹介する。
文化学習フレームワークに従って、Minecraft内の教育的および共同的な設定でMindForgeをテストします。
GPT-4のインストラクティブ・セッティングでは、オープンウェイトLLMを搭載したMindForgeのエージェントは、ボイジャーの基本的タスクでボイジャーのエージェントを著しく上回り、3ドル以上のITツリーのマイルストーンを獲得し、ボイジャーのベースラインよりも2.3ドル以上のユニークなアイテムを集めている。
さらに,完全なtextit{collaborative}設定では,2つのエージェントの処理性能が,より多くの通信ラウンドで向上し,Condorcet Jury Theoremと一致することがわかった。
MindForgeエージェントは、専門家・初心者の知識伝達、協調的な問題解決、蓄積した文化経験によるアウト・オブ・ディストリビューションタスクへの適応など、洗練された行動を示す。
関連論文リスト
- Don't lie to your friends: Learning what you know from collaborative self-play [90.35507959579331]
我々は、AIエージェントが知っていることを教えるために、根本的に新しいアプローチを提案する。
我々は,集団が正解に到達して報奨を受けるマルチエージェントコラボレーションを構築した。
望ましいメタ知識は、相互作用の構造に組み込まれたインセンティブから生まれる。
論文 参考訳(メタデータ) (2025-03-18T17:53:20Z) - Unified Mind Model: Reimagining Autonomous Agents in the LLM Era [1.3812010983144802]
大規模言語モデル(LLM)は、最近、ドメイン、タスク、言語間で顕著な機能を示した。
我々は,自律エージェントの迅速な作成を促進するためのガイダンスを提供する,新しい理論認知アーキテクチャである統一マインドモデル(UMM)を提案する。
論文 参考訳(メタデータ) (2025-03-05T12:49:44Z) - ADAM: An Embodied Causal Agent in Open-World Environments [3.2474668680608314]
Minecraftのエンボダイド因果エージェントであるADAMを紹介する。
ADAMは、オープンワールドを自律的にナビゲートし、マルチモーダルなコンテキストを認識し、因果世界知識を学び、生涯学習を通じて複雑なタスクに取り組むことができる。
論文 参考訳(メタデータ) (2024-10-29T16:32:01Z) - Odyssey: Empowering Minecraft Agents with Open-World Skills [26.537984734738764]
Odysseyは、LLM(Large Language Model)ベースのエージェントにオープンワールドスキルを付与し、Minecraftの世界を探索する新しいフレームワークである。
Odysseyは,(1)40のプリミティブスキルと183の作曲スキルからなるオープンワールドスキルライブラリを備えた対話型エージェント,(2)Minecraft Wikiから派生した390k以上のインストラクションインストラクションを持つ大規模質問応答データセット上で訓練された微調整LLaMA-3モデル,(3)新しいエージェント能力ベンチマークの3つの重要な部分から構成される。
論文 参考訳(メタデータ) (2024-07-22T02:06:59Z) - Generative agents in the streets: Exploring the use of Large Language
Models (LLMs) in collecting urban perceptions [0.0]
本研究では,大規模言語モデル(LLM)を用いた生成エージェントの現況について検討する。
この実験では、都市環境と対話するための生成エージェントを用いて、ストリートビューイメージを使用して、特定の目標に向けて旅を計画する。
LLMにはエンボディメントがなく、視覚領域にもアクセスできず、動きや方向の感覚も欠如しているため、エージェントが周囲の全体的理解を得るのに役立つ動きと視覚モジュールを設計した。
論文 参考訳(メタデータ) (2023-12-20T15:45:54Z) - Emergence of Collective Open-Ended Exploration from Decentralized Meta-Reinforcement Learning [2.296343533657165]
近年の研究では、メタ強化学習を用いて訓練されたエージェントにおいて、自己プレイを用いたオープンエンドタスク分布において、複雑な協調行動が出現することが証明されている。
我々は,自然界における一般集団探索戦略の展開を,自己プレイやその他の集中訓練技術が正確に反映していないことを論じる。
論文 参考訳(メタデータ) (2023-11-01T16:56:44Z) - Unleashing the Emergent Cognitive Synergy in Large Language Models: A Task-Solving Agent through Multi-Persona Self-Collaboration [116.09561564489799]
Solo Performance Promptingは、複数のペルソナと多ターンの自己コラボレーションをすることで、単一のLCMを認知的シナジストに変換する。
認知シナジスト(英: Cognitive Synergist)は、複雑なタスクにおける問題解決を強化するために、複数の心の強みと知識を協調的に結合するインテリジェントエージェントである。
より詳細な分析により,LLMに複数の微粒なペルソナを割り当てることによって,単一あるいは固定数のペルソナに比べて問題解決能力が向上することが示された。
論文 参考訳(メタデータ) (2023-07-11T14:45:19Z) - Building Cooperative Embodied Agents Modularly with Large Language
Models [104.57849816689559]
本研究では, 分散制御, 生の知覚観察, コストのかかるコミュニケーション, 様々な実施環境下でインスタンス化された多目的タスクといった課題に対処する。
我々は,LLMの常識知識,推論能力,言語理解,テキスト生成能力を活用し,認知に触発されたモジュラーフレームワークにシームレスに組み込む。
C-WAH と TDW-MAT を用いた実験により, GPT-4 で駆動される CoELA が, 強い計画に基づく手法を超越し, 創発的な効果的なコミュニケーションを示すことを示した。
論文 参考訳(メタデータ) (2023-07-05T17:59:27Z) - Ghost in the Minecraft: Generally Capable Agents for Open-World
Environments via Large Language Models with Text-based Knowledge and Memory [97.87093169454431]
Ghost in the Minecraft (GITM) は、LLM(Large Language Models)とテキストベースの知識と記憶を統合する新しいフレームワークである。
我々は、構造化されたアクションのセットを開発し、LSMを活用してエージェントが実行するアクションプランを生成する。
LLMをベースとしたエージェントは、従来の手法を著しく上回り、成功率+47.5%という顕著な改善を達成している。
論文 参考訳(メタデータ) (2023-05-25T17:59:49Z) - Voyager: An Open-Ended Embodied Agent with Large Language Models [103.76509266014165]
VoyagerはMinecraft初の生涯学習エージェントだ。
常に世界を探索し、多様なスキルを身につけ、人間の介入なしに新しい発見を行う。
Voyagerは、Minecraftの新しい世界で学んだスキルライブラリを利用して、新しいタスクをゼロから解決することができる。
論文 参考訳(メタデータ) (2023-05-25T17:46:38Z) - Generative Agents: Interactive Simulacra of Human Behavior [86.1026716646289]
生成エージェントを導入し,人間の振る舞いをシミュレートする計算ソフトウェアエージェントについて紹介する。
エージェントの経験の完全な記録を格納するために,大規模言語モデルを拡張するアーキテクチャについて述べる。
The Simsにインスパイアされた対話型サンドボックス環境に生成エージェントを投入する。
論文 参考訳(メタデータ) (2023-04-07T01:55:19Z) - MineDojo: Building Open-Ended Embodied Agents with Internet-Scale
Knowledge [70.47759528596711]
私たちは、人気のMinecraftゲーム上に構築された新しいフレームワークであるMineDojoを紹介します。
本稿では,学習報酬関数として,大規模な事前学習ビデオ言語モデルを活用する新しいエージェント学習アルゴリズムを提案する。
我々のエージェントは、手動で設計した密なシェーピング報酬なしで、自由形式の言語で指定された様々なオープンエンドタスクを解くことができる。
論文 参考訳(メタデータ) (2022-06-17T15:53:05Z) - SKILL-IL: Disentangling Skill and Knowledge in Multitask Imitation
Learning [21.222568055417717]
人間はスキルと知識を伝達することができる。仕事のサイクルと店へのドライブができれば、店へのサイクルと仕事へのドライブも可能だ。
このことから着想を得て、ポリシーネットワークの潜在記憶を2つのパーティションに切り離すことができると仮定する。
これらは、タスクの環境コンテキストに関する知識や、タスクの解決に必要な一般化可能なスキルを含んでいる。
論文 参考訳(メタデータ) (2022-05-06T10:38:01Z) - Collaborative Training of Heterogeneous Reinforcement Learning Agents in
Environments with Sparse Rewards: What and When to Share? [7.489793155793319]
本研究は,本質的なモチベーションを通じて得られた情報と,より効率的な探索と学習の高速化を目的とした情報を組み合わせることに焦点を当てる。
計算コストの少ない協調的なフレームワークが知識を共有することなく独立した学習プロセスより優れていることを示す。
論文 参考訳(メタデータ) (2022-02-24T16:15:51Z) - Help Me Explore: Minimal Social Interventions for Graph-Based Autotelic
Agents [7.644107117422287]
本稿では,双方の視点が,自己複製エージェントの学習に組み合わされ,スキル獲得が促進されることを論じる。
1) HME(Help Me Explore)と呼ばれる新しいソーシャルインタラクションプロトコルでは,個人と社会的に指導された探索の双方から,自律的なエージェントが恩恵を受けることができる。
GANGSTRは、HME内での学習において、最も複雑な構成を習得することで、個々の学習限界を克服する。
論文 参考訳(メタデータ) (2022-02-10T16:34:28Z) - Hidden Agenda: a Social Deduction Game with Diverse Learned Equilibria [57.74495091445414]
社会的推論ゲームは、個人が他人に関する潜在的に信頼できない情報を合成する方法を学ぶための道を提供する。
本研究では,未知のチームアライメントのシナリオにおいて,学習エージェントを研究するための2D環境を提供する2チームソーシャル推論ゲームであるHidden Agendaを紹介する。
Hidden Agendaで訓練された強化学習エージェントは、自然言語でのコミュニケーションを必要とせずに、協力や投票など、さまざまな行動を学ぶことができることを示した。
論文 参考訳(メタデータ) (2022-01-05T20:54:10Z) - Interpretation of Emergent Communication in Heterogeneous Collaborative
Embodied Agents [83.52684405389445]
本稿では,コラボレーティブな多目的ナビゲーションタスクCoMONを紹介する。
この課題において、オラクルエージェントは、地図の形式で詳細な環境情報を有する。
視覚的に環境を知覚するナビゲーターエージェントと通信し、目標のシーケンスを見つけるのが任務である。
創発的コミュニケーションはエージェントの観察と3次元環境の空間構造に基礎を置くことができることを示す。
論文 参考訳(メタデータ) (2021-10-12T06:56:11Z) - HALMA: Humanlike Abstraction Learning Meets Affordance in Rapid Problem
Solving [104.79156980475686]
人間は自然主義的タスクの構造に応じて構成的および因果的抽象化、つまり知識を学ぶ。
エージェントがその知識をどのように表現するかには、知覚、概念、アルゴリズムの3段階の一般化がある、と我々は主張する。
このベンチマークは、ビジュアルコンセプト開発と迅速な問題解決のための新しいタスクドメイン、HALMAを中心にしています。
論文 参考訳(メタデータ) (2021-02-22T20:37:01Z) - Learning Affordance Landscapes for Interaction Exploration in 3D
Environments [101.90004767771897]
エージェントは環境の仕組みを習得できなければならない。
相互作用探索のための強化学習手法を提案する。
AI2-iTHORで私たちのアイデアを実証します。
論文 参考訳(メタデータ) (2020-08-21T00:29:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。