論文の概要: MindForge: Empowering Embodied Agents with Theory of Mind for Lifelong Collaborative Learning
- arxiv url: http://arxiv.org/abs/2411.12977v2
- Date: Mon, 25 Nov 2024 13:17:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-26 14:24:20.833208
- Title: MindForge: Empowering Embodied Agents with Theory of Mind for Lifelong Collaborative Learning
- Title(参考訳): MindForge: 一生の協調学習のための心の理論による身体的エージェントの強化
- Authors: Mircea Lică, Ojas Shirekar, Baptiste Colle, Chirag Raman,
- Abstract要約: Colllabvoyagerは、露骨な視点を取ることで、ボイジャーを生涯の協調学習で強化する新しいフレームワークである。
コラボボヤガーは、(1)知覚、信念、欲求、行動をリンクするマインド表現の理論、(2)エージェント間の自然言語コミュニケーション、(3)タスクと環境知識のセマンティックメモリの3つの重要なイノベーションを紹介している。
混合実験のMinecraft実験では、共同作業員はボイジャーのエージェントよりも優れており、作業完了率は6.6% (+39.4%) で1ブロックの土を集め、70.8% (+20.8%) で大幅に改善した。
- 参考スコア(独自算出の注目度): 3.187381965457262
- License:
- Abstract: Contemporary embodied agents, such as Voyager in Minecraft, have demonstrated promising capabilities in open-ended individual learning. However, when powered with open large language models (LLMs), these agents often struggle with rudimentary tasks, even when fine-tuned on domain-specific knowledge. Inspired by human cultural learning, we present \collabvoyager, a novel framework that enhances Voyager with lifelong collaborative learning through explicit perspective-taking. \collabvoyager introduces three key innovations: (1) theory of mind representations linking percepts, beliefs, desires, and actions; (2) natural language communication between agents; and (3) semantic memory of task and environment knowledge and episodic memory of collaboration episodes. These advancements enable agents to reason about their and others' mental states, empirically addressing two prevalent failure modes: false beliefs and faulty task executions. In mixed-expertise Minecraft experiments, \collabvoyager agents outperform Voyager counterparts, significantly improving task completion rate by $66.6\% (+39.4\%)$ for collecting one block of dirt and $70.8\% (+20.8\%)$ for collecting one wood block. They exhibit emergent behaviors like knowledge transfer from expert to novice agents and collaborative code correction. \collabvoyager agents also demonstrate the ability to adapt to out-of-distribution tasks by using their previous experiences and beliefs obtained through collaboration. In this open-ended social learning paradigm, \collabvoyager paves the way for the democratic development of embodied AI, where agents learn in deployment from both peer and environmental feedback.
- Abstract(参考訳): MinecraftのVoyagerのような現代の実施エージェントは、オープンエンドの個人学習において有望な能力を実証している。
しかしながら、オープンな大規模言語モデル(LLM)を使用する場合、ドメイン固有の知識を微調整しても、これらのエージェントは初歩的なタスクに苦労することが多い。
人間の文化学習に触発されて、私たちは、明示的な視点を取ることによって、ボイジャーを生涯の協調学習で強化する、新しいフレームワークである‘collabvoyager’を提示する。
1)知覚,信念,欲求,行動をリンクする心的表現の理論,(2)エージェント間の自然言語コミュニケーション,(3)タスクと環境知識の意味記憶,そしてコラボレーションエピソードのエピソード記憶。
これらの進歩により、エージェントは彼らの他者の精神状態について推論することができ、2つの一般的な障害モード、すなわち虚偽の信念と欠陥のあるタスク実行に経験的に対処することができる。
混成実験のマインクラフト実験では、 'collabvoyager agent' はボイジャーのエージェントよりも優れており、1ブロックの土を採取するために 6.6 % (+39.4 %)$ と 70.8 % (+20.8 %)$ の木材ブロックを収集するために 6.6 % (+39.4 %) のタスク完了率を大幅に向上した。
専門家から初心者エージェントへの知識伝達や協調的なコード修正といった、創発的な行動を示す。
\collabvoyagerエージェントはまた、以前の経験とコラボレーションを通じて得られた信念を利用して、アウト・オブ・ディストリビューション・タスクに適応する能力を示す。
このオープンな社会学習パラダイムでは、‘collabvoyager’は、エージェントがピアフィードバックと環境フィードバックの両方からデプロイメントを学ぶ、エンボディAIの民主的発展の道を開く。
関連論文リスト
- ADAM: An Embodied Causal Agent in Open-World Environments [3.2474668680608314]
Minecraftのエンボダイド因果エージェントであるADAMを紹介する。
ADAMは、オープンワールドを自律的にナビゲートし、マルチモーダルなコンテキストを認識し、因果世界知識を学び、生涯学習を通じて複雑なタスクに取り組むことができる。
論文 参考訳(メタデータ) (2024-10-29T16:32:01Z) - Odyssey: Empowering Minecraft Agents with Open-World Skills [26.537984734738764]
Odysseyは、LLM(Large Language Model)ベースのエージェントにオープンワールドスキルを付与し、Minecraftの世界を探索する新しいフレームワークである。
Odysseyは,(1)40のプリミティブスキルと183の作曲スキルからなるオープンワールドスキルライブラリを備えた対話型エージェント,(2)Minecraft Wikiから派生した390k以上のインストラクションインストラクションを持つ大規模質問応答データセット上で訓練された微調整LLaMA-3モデル,(3)新しいエージェント能力ベンチマークの3つの重要な部分から構成される。
論文 参考訳(メタデータ) (2024-07-22T02:06:59Z) - LEGENT: Open Platform for Embodied Agents [60.71847900126832]
LEGENTはLarge Language Models (LLM) とLarge Multimodal Models (LMM) を用いたエンボディエージェントを開発するためのオープンでスケーラブルなプラットフォームである。
LEGENTはリッチでインタラクティブな3D環境を提供し、コミュニケーション可能でアクション可能なエージェントをユーザフレンドリーなインターフェースと組み合わせている。
実験では、EGENT生成データに基づいて訓練された胚性視覚言語モデルが、エンボディタスクにおいてGPT-4Vを超える。
論文 参考訳(メタデータ) (2024-04-28T16:50:12Z) - See and Think: Embodied Agent in Virtual Environment [12.801720916220823]
大規模言語モデル(LLM)は、いくつかのオープンワールドタスクにおいて印象的な進歩を遂げた。
本稿では,Minecraft仮想環境における包括的で視覚的なエンボディエージェントであるSTEVEを提案する。
論文 参考訳(メタデータ) (2023-11-26T06:38:16Z) - Unleashing the Emergent Cognitive Synergy in Large Language Models: A Task-Solving Agent through Multi-Persona Self-Collaboration [116.09561564489799]
Solo Performance Promptingは、複数のペルソナと多ターンの自己コラボレーションをすることで、単一のLCMを認知的シナジストに変換する。
認知シナジスト(英: Cognitive Synergist)は、複雑なタスクにおける問題解決を強化するために、複数の心の強みと知識を協調的に結合するインテリジェントエージェントである。
より詳細な分析により,LLMに複数の微粒なペルソナを割り当てることによって,単一あるいは固定数のペルソナに比べて問題解決能力が向上することが示された。
論文 参考訳(メタデータ) (2023-07-11T14:45:19Z) - Building Cooperative Embodied Agents Modularly with Large Language
Models [104.57849816689559]
本研究では, 分散制御, 生の知覚観察, コストのかかるコミュニケーション, 様々な実施環境下でインスタンス化された多目的タスクといった課題に対処する。
我々は,LLMの常識知識,推論能力,言語理解,テキスト生成能力を活用し,認知に触発されたモジュラーフレームワークにシームレスに組み込む。
C-WAH と TDW-MAT を用いた実験により, GPT-4 で駆動される CoELA が, 強い計画に基づく手法を超越し, 創発的な効果的なコミュニケーションを示すことを示した。
論文 参考訳(メタデータ) (2023-07-05T17:59:27Z) - Ghost in the Minecraft: Generally Capable Agents for Open-World
Environments via Large Language Models with Text-based Knowledge and Memory [97.87093169454431]
Ghost in the Minecraft (GITM) は、LLM(Large Language Models)とテキストベースの知識と記憶を統合する新しいフレームワークである。
我々は、構造化されたアクションのセットを開発し、LSMを活用してエージェントが実行するアクションプランを生成する。
LLMをベースとしたエージェントは、従来の手法を著しく上回り、成功率+47.5%という顕著な改善を達成している。
論文 参考訳(メタデータ) (2023-05-25T17:59:49Z) - Voyager: An Open-Ended Embodied Agent with Large Language Models [103.76509266014165]
VoyagerはMinecraft初の生涯学習エージェントだ。
常に世界を探索し、多様なスキルを身につけ、人間の介入なしに新しい発見を行う。
Voyagerは、Minecraftの新しい世界で学んだスキルライブラリを利用して、新しいタスクをゼロから解決することができる。
論文 参考訳(メタデータ) (2023-05-25T17:46:38Z) - MineDojo: Building Open-Ended Embodied Agents with Internet-Scale
Knowledge [70.47759528596711]
私たちは、人気のMinecraftゲーム上に構築された新しいフレームワークであるMineDojoを紹介します。
本稿では,学習報酬関数として,大規模な事前学習ビデオ言語モデルを活用する新しいエージェント学習アルゴリズムを提案する。
我々のエージェントは、手動で設計した密なシェーピング報酬なしで、自由形式の言語で指定された様々なオープンエンドタスクを解くことができる。
論文 参考訳(メタデータ) (2022-06-17T15:53:05Z) - Help Me Explore: Minimal Social Interventions for Graph-Based Autotelic
Agents [7.644107117422287]
本稿では,双方の視点が,自己複製エージェントの学習に組み合わされ,スキル獲得が促進されることを論じる。
1) HME(Help Me Explore)と呼ばれる新しいソーシャルインタラクションプロトコルでは,個人と社会的に指導された探索の双方から,自律的なエージェントが恩恵を受けることができる。
GANGSTRは、HME内での学習において、最も複雑な構成を習得することで、個々の学習限界を克服する。
論文 参考訳(メタデータ) (2022-02-10T16:34:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。