Fugu-MT 論文翻訳(概要): MindForge: Empowering Embodied Agents with Theory of Mind for Lifelong Collaborative Learning

論文の概要: MindForge: Empowering Embodied Agents with Theory of Mind for Lifelong Collaborative Learning

arxiv url: http://arxiv.org/abs/2411.12977v3
Date: Wed, 19 Feb 2025 22:59:28 GMT
ステータス: 翻訳完了
システム内更新日: 2025-02-21 15:38:29.465305
Title: MindForge: Empowering Embodied Agents with Theory of Mind for Lifelong Collaborative Learning
Title（参考訳）: MindForge: 一生の協調学習のための心の理論による身体的エージェントの強化
Authors: Mircea Lică, Ojas Shirekar, Baptiste Colle, Chirag Raman,
Abstract要約: 我々は、明示的な視点による生涯学習のためのジェネレーティブ・エージェントフレームワークであるMindForgeを提示する。本稿では,(1)知覚,信念,欲求,行動をリンクする心的表現の構造化理論,(2)自然な相互通信,(3)多成分記憶システムを紹介する。
参考スコア（独自算出の注目度）: 3.187381965457262
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Contemporary embodied agents powered by large language models (LLMs), such as Voyager, have shown promising capabilities in individual learning within open-ended environments like Minecraft. However, when powered by open LLMs, they struggle with basic tasks even after domain-specific fine-tuning. We present MindForge, a generative-agent framework for collaborative lifelong learning through explicit perspective taking. We introduce three key innovations: (1) a structured theory of mind representation linking percepts, beliefs, desires, and actions; (2) natural interagent communication; and (3) a multicomponent memory system. In Minecraft experiments, MindForge agents powered by open-weight LLMs significantly outperform their Voyager counterparts in basic tasks where traditional Voyager fails without GPT-4, collecting $2.3\times$ more unique items and achieving $3\times$ more tech-tree milestones, advancing from basic wood tools to advanced iron equipment. MindForge agents demonstrate sophisticated behaviors, including expert-novice knowledge transfer, collaborative problem solving, and adaptation to out-of-distribution tasks through accumulated collaborative experiences. MindForge advances the democratization of embodied AI development through open-ended social learning, enabling peer-to-peer knowledge sharing.
Abstract（参考訳）: Voyagerのような大規模言語モデル(LLM)を利用した現代的なエンボディエージェントは、Minecraftのようなオープンな環境において、個々の学習に有望な能力を示している。しかし、オープンなLLMで動く場合、ドメイン固有の微調整をした後でも、基本的なタスクに苦労する。我々は、明示的な視点による生涯学習のためのジェネレーティブ・エージェントフレームワークであるMindForgeを提示する。本稿では,(1)知覚,信念,欲求,行動をリンクする心的表現の構造化理論,(2)自然な相互通信,(3)多成分記憶システムを紹介する。 Minecraftの実験では、オープンウェイトLLMを搭載したMindForgeのエージェントは、伝統的なボイジャーがGPT-4を使わずに失敗し、2.3\times$のユニークなアイテムを集め、3.3\times$のテックツリーのマイルストーンを達成し、基本的な木製ツールから高度な鉄製機器へと進歩する基本的なタスクにおいて、ボイジャーのエージェントを著しく上回った。 MindForgeエージェントは、専門家・初心者の知識伝達、協調的な問題解決、そして蓄積された協調体験を通じて配布外タスクへの適応を含む洗練された行動を示す。 MindForgeは、オープンエンドのソーシャルラーニングを通じて、インボディードAI開発の民主化を進め、ピアツーピアの知識共有を可能にしている。

関連論文リスト

Optimus-3: Towards Generalist Multimodal Minecraft Agents with Scalable Task Experts [54.21319853862452]
Minecraftの汎用エージェントOptimus-3を提案する。エージェント開発のためのスケーラブルで高品質なトレーニングデータを提供するための知識強化型データ生成パイプラインを提案する。視覚的多様性に対するエージェントの推論能力を高めるために,マルチモーダル推論強化学習手法を開発した。
論文参考訳（メタデータ） (2025-06-12T05:29:40Z)
Don't lie to your friends: Learning what you know from collaborative self-play [90.35507959579331]
我々は、AIエージェントが知っていることを教えるために、根本的に新しいアプローチを提案する。我々は,集団が正解に到達して報奨を受けるマルチエージェントコラボレーションを構築した。望ましいメタ知識は、相互作用の構造に組み込まれたインセンティブから生まれる。
論文参考訳（メタデータ） (2025-03-18T17:53:20Z)
Unified Mind Model: Reimagining Autonomous Agents in the LLM Era [1.3812010983144802]
大規模言語モデル(LLM)は、最近、ドメイン、タスク、言語間で顕著な機能を示した。我々は,自律エージェントの迅速な作成を促進するためのガイダンスを提供する,新しい理論認知アーキテクチャである統一マインドモデル(UMM)を提案する。
論文参考訳（メタデータ） (2025-03-05T12:49:44Z)
ADAM: An Embodied Causal Agent in Open-World Environments [3.2474668680608314]
Minecraftのエンボダイド因果エージェントであるADAMを紹介する。 ADAMは、オープンワールドを自律的にナビゲートし、マルチモーダルなコンテキストを認識し、因果世界知識を学び、生涯学習を通じて複雑なタスクに取り組むことができる。
論文参考訳（メタデータ） (2024-10-29T16:32:01Z)
Odyssey: Empowering Minecraft Agents with Open-World Skills [26.537984734738764]
Odysseyは、LLM(Large Language Model)ベースのエージェントにオープンワールドスキルを付与し、Minecraftの世界を探索する新しいフレームワークである。 Odysseyは,(1)40のプリミティブスキルと183の作曲スキルからなるオープンワールドスキルライブラリを備えた対話型エージェント,(2)Minecraft Wikiから派生した390k以上のインストラクションインストラクションを持つ大規模質問応答データセット上で訓練された微調整LLaMA-3モデル,(3)新しいエージェント能力ベンチマークの3つの重要な部分から構成される。
論文参考訳（メタデータ） (2024-07-22T02:06:59Z)
Generative agents in the streets: Exploring the use of Large Language Models (LLMs) in collecting urban perceptions [0.0]
本研究では,大規模言語モデル(LLM)を用いた生成エージェントの現況について検討する。この実験では、都市環境と対話するための生成エージェントを用いて、ストリートビューイメージを使用して、特定の目標に向けて旅を計画する。 LLMにはエンボディメントがなく、視覚領域にもアクセスできず、動きや方向の感覚も欠如しているため、エージェントが周囲の全体的理解を得るのに役立つ動きと視覚モジュールを設計した。
論文参考訳（メタデータ） (2023-12-20T15:45:54Z)
See and Think: Embodied Agent in Virtual Environment [12.801720916220823]
大規模言語モデル(LLM)は、いくつかのオープンワールドタスクにおいて印象的な進歩を遂げた。本稿では,Minecraft仮想環境における包括的で視覚的なエンボディエージェントであるSTEVEを提案する。
論文参考訳（メタデータ） (2023-11-26T06:38:16Z)
MAgIC: Investigation of Large Language Model Powered Multi-Agent in Cognition, Adaptability, Rationality and Collaboration [98.18244218156492]
大規模言語モデル(LLM)は、非常に高度な自然言語処理を持つ。アプリケーションがマルチエージェント環境に拡大するにつれて、包括的な評価フレームワークの必要性が生じる。この研究は、マルチエージェント設定内でLLMを評価するための新しい競合ベースのベンチマークフレームワークを導入している。
論文参考訳（メタデータ） (2023-11-14T21:46:27Z)
Emergence of Collective Open-Ended Exploration from Decentralized Meta-Reinforcement Learning [2.296343533657165]
近年の研究では、メタ強化学習を用いて訓練されたエージェントにおいて、自己プレイを用いたオープンエンドタスク分布において、複雑な協調行動が出現することが証明されている。我々は,自然界における一般集団探索戦略の展開を,自己プレイやその他の集中訓練技術が正確に反映していないことを論じる。
論文参考訳（メタデータ） (2023-11-01T16:56:44Z)
Unleashing the Emergent Cognitive Synergy in Large Language Models: A Task-Solving Agent through Multi-Persona Self-Collaboration [116.09561564489799]
Solo Performance Promptingは、複数のペルソナと多ターンの自己コラボレーションをすることで、単一のLCMを認知的シナジストに変換する。認知シナジスト(英: Cognitive Synergist)は、複雑なタスクにおける問題解決を強化するために、複数の心の強みと知識を協調的に結合するインテリジェントエージェントである。より詳細な分析により,LLMに複数の微粒なペルソナを割り当てることによって,単一あるいは固定数のペルソナに比べて問題解決能力が向上することが示された。
論文参考訳（メタデータ） (2023-07-11T14:45:19Z)
Building Cooperative Embodied Agents Modularly with Large Language Models [104.57849816689559]
本研究では, 分散制御, 生の知覚観察, コストのかかるコミュニケーション, 様々な実施環境下でインスタンス化された多目的タスクといった課題に対処する。我々は,LLMの常識知識,推論能力,言語理解,テキスト生成能力を活用し,認知に触発されたモジュラーフレームワークにシームレスに組み込む。 C-WAH と TDW-MAT を用いた実験により, GPT-4 で駆動される CoELA が, 強い計画に基づく手法を超越し, 創発的な効果的なコミュニケーションを示すことを示した。
論文参考訳（メタデータ） (2023-07-05T17:59:27Z)
Ghost in the Minecraft: Generally Capable Agents for Open-World Environments via Large Language Models with Text-based Knowledge and Memory [97.87093169454431]
Ghost in the Minecraft (GITM) は、LLM(Large Language Models)とテキストベースの知識と記憶を統合する新しいフレームワークである。我々は、構造化されたアクションのセットを開発し、LSMを活用してエージェントが実行するアクションプランを生成する。 LLMをベースとしたエージェントは、従来の手法を著しく上回り、成功率+47.5%という顕著な改善を達成している。
論文参考訳（メタデータ） (2023-05-25T17:59:49Z)
Voyager: An Open-Ended Embodied Agent with Large Language Models [103.76509266014165]
VoyagerはMinecraft初の生涯学習エージェントだ。常に世界を探索し、多様なスキルを身につけ、人間の介入なしに新しい発見を行う。 Voyagerは、Minecraftの新しい世界で学んだスキルライブラリを利用して、新しいタスクをゼロから解決することができる。
論文参考訳（メタデータ） (2023-05-25T17:46:38Z)
Generative Agents: Interactive Simulacra of Human Behavior [86.1026716646289]
生成エージェントを導入し,人間の振る舞いをシミュレートする計算ソフトウェアエージェントについて紹介する。エージェントの経験の完全な記録を格納するために,大規模言語モデルを拡張するアーキテクチャについて述べる。 The Simsにインスパイアされた対話型サンドボックス環境に生成エージェントを投入する。
論文参考訳（メタデータ） (2023-04-07T01:55:19Z)
MineDojo: Building Open-Ended Embodied Agents with Internet-Scale Knowledge [70.47759528596711]
私たちは、人気のMinecraftゲーム上に構築された新しいフレームワークであるMineDojoを紹介します。本稿では,学習報酬関数として,大規模な事前学習ビデオ言語モデルを活用する新しいエージェント学習アルゴリズムを提案する。我々のエージェントは、手動で設計した密なシェーピング報酬なしで、自由形式の言語で指定された様々なオープンエンドタスクを解くことができる。
論文参考訳（メタデータ） (2022-06-17T15:53:05Z)
SKILL-IL: Disentangling Skill and Knowledge in Multitask Imitation Learning [21.222568055417717]
人間はスキルと知識を伝達することができる。仕事のサイクルと店へのドライブができれば、店へのサイクルと仕事へのドライブも可能だ。このことから着想を得て、ポリシーネットワークの潜在記憶を2つのパーティションに切り離すことができると仮定する。これらは、タスクの環境コンテキストに関する知識や、タスクの解決に必要な一般化可能なスキルを含んでいる。
論文参考訳（メタデータ） (2022-05-06T10:38:01Z)
Collaborative Training of Heterogeneous Reinforcement Learning Agents in Environments with Sparse Rewards: What and When to Share? [7.489793155793319]
本研究は,本質的なモチベーションを通じて得られた情報と,より効率的な探索と学習の高速化を目的とした情報を組み合わせることに焦点を当てる。計算コストの少ない協調的なフレームワークが知識を共有することなく独立した学習プロセスより優れていることを示す。
論文参考訳（メタデータ） (2022-02-24T16:15:51Z)
Help Me Explore: Minimal Social Interventions for Graph-Based Autotelic Agents [7.644107117422287]
本稿では,双方の視点が,自己複製エージェントの学習に組み合わされ,スキル獲得が促進されることを論じる。 1) HME(Help Me Explore)と呼ばれる新しいソーシャルインタラクションプロトコルでは,個人と社会的に指導された探索の双方から,自律的なエージェントが恩恵を受けることができる。 GANGSTRは、HME内での学習において、最も複雑な構成を習得することで、個々の学習限界を克服する。
論文参考訳（メタデータ） (2022-02-10T16:34:28Z)
Hidden Agenda: a Social Deduction Game with Diverse Learned Equilibria [57.74495091445414]
社会的推論ゲームは、個人が他人に関する潜在的に信頼できない情報を合成する方法を学ぶための道を提供する。本研究では,未知のチームアライメントのシナリオにおいて,学習エージェントを研究するための2D環境を提供する2チームソーシャル推論ゲームであるHidden Agendaを紹介する。 Hidden Agendaで訓練された強化学習エージェントは、自然言語でのコミュニケーションを必要とせずに、協力や投票など、さまざまな行動を学ぶことができることを示した。
論文参考訳（メタデータ） (2022-01-05T20:54:10Z)
Interpretation of Emergent Communication in Heterogeneous Collaborative Embodied Agents [83.52684405389445]
本稿では,コラボレーティブな多目的ナビゲーションタスクCoMONを紹介する。この課題において、オラクルエージェントは、地図の形式で詳細な環境情報を有する。視覚的に環境を知覚するナビゲーターエージェントと通信し、目標のシーケンスを見つけるのが任務である。創発的コミュニケーションはエージェントの観察と3次元環境の空間構造に基礎を置くことができることを示す。
論文参考訳（メタデータ） (2021-10-12T06:56:11Z)
HALMA: Humanlike Abstraction Learning Meets Affordance in Rapid Problem Solving [104.79156980475686]
人間は自然主義的タスクの構造に応じて構成的および因果的抽象化、つまり知識を学ぶ。エージェントがその知識をどのように表現するかには、知覚、概念、アルゴリズムの3段階の一般化がある、と我々は主張する。このベンチマークは、ビジュアルコンセプト開発と迅速な問題解決のための新しいタスクドメイン、HALMAを中心にしています。
論文参考訳（メタデータ） (2021-02-22T20:37:01Z)
Learning Affordance Landscapes for Interaction Exploration in 3D Environments [101.90004767771897]
エージェントは環境の仕組みを習得できなければならない。相互作用探索のための強化学習手法を提案する。 AI2-iTHORで私たちのアイデアを実証します。
論文参考訳（メタデータ） (2020-08-21T00:29:36Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。