論文の概要: Building Cooperative Embodied Agents Modularly with Large Language
Models
- arxiv url: http://arxiv.org/abs/2307.02485v2
- Date: Sat, 17 Feb 2024 05:27:56 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-21 06:20:09.355209
- Title: Building Cooperative Embodied Agents Modularly with Large Language
Models
- Title(参考訳): 大規模言語モデルを用いた協調作業型エージェントの構築
- Authors: Hongxin Zhang, Weihua Du, Jiaming Shan, Qinhong Zhou, Yilun Du, Joshua
B. Tenenbaum, Tianmin Shu, Chuang Gan
- Abstract要約: 本研究では, 分散制御, 生の知覚観察, コストのかかるコミュニケーション, 様々な実施環境下でインスタンス化された多目的タスクといった課題に対処する。
我々は,LLMの常識知識,推論能力,言語理解,テキスト生成能力を活用し,認知に触発されたモジュラーフレームワークにシームレスに組み込む。
C-WAH と TDW-MAT を用いた実験により, GPT-4 で駆動される CoELA が, 強い計画に基づく手法を超越し, 創発的な効果的なコミュニケーションを示すことを示した。
- 参考スコア(独自算出の注目度): 104.57849816689559
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this work, we address challenging multi-agent cooperation problems with
decentralized control, raw sensory observations, costly communication, and
multi-objective tasks instantiated in various embodied environments. While
previous research either presupposes a cost-free communication channel or
relies on a centralized controller with shared observations, we harness the
commonsense knowledge, reasoning ability, language comprehension, and text
generation prowess of LLMs and seamlessly incorporate them into a
cognitive-inspired modular framework that integrates with perception, memory,
and execution. Thus building a Cooperative Embodied Language Agent CoELA, who
can plan, communicate, and cooperate with others to accomplish long-horizon
tasks efficiently. Our experiments on C-WAH and TDW-MAT demonstrate that CoELA
driven by GPT-4 can surpass strong planning-based methods and exhibit emergent
effective communication. Though current Open LMs like LLAMA-2 still
underperform, we fine-tune a CoELA with data collected with our agents and show
how they can achieve promising performance. We also conducted a user study for
human-agent interaction and discovered that CoELA communicating in natural
language can earn more trust and cooperate more effectively with humans. Our
research underscores the potential of LLMs for future research in multi-agent
cooperation. Videos can be found on the project website
https://vis-www.cs.umass.edu/Co-LLM-Agents/.
- Abstract(参考訳): 本研究では, 分散制御, 生の感覚観察, コストのかかるコミュニケーション, 様々な環境下でインスタンス化された多目的タスクによる多目的協調問題に対処する。
これまでの研究は、コストのないコミュニケーションチャネルを前提にするか、あるいは共有観察を持つ集中型コントローラに依存しているが、共通認識知識、推論能力、言語理解、llmのテキスト生成能力を利用して、認識、記憶、実行と統合した認知的インスパイアされたモジュラーフレームワークにシームレスに統合する。
このようにして、長期的タスクを効率的に達成するために、計画、コミュニケーション、協力が可能な協力型言語エージェント CoELA を構築する。
C-WAH と TDW-MAT を用いた実験により, GPT-4 で駆動される CoELA が, 強い計画に基づく手法を超越し, 創発的な効果的なコミュニケーションを示すことを示した。
LLAMA-2のような現在のOpen LMはまだパフォーマンスが低いが、エージェントで収集したデータをCoELAに微調整し、有望なパフォーマンスを実現する方法を示す。
また,人間とエージェントのインタラクションに関するユーザ調査を行い,自然言語でコミュニケーションするcoelaは,より信頼を得て,より効果的に人間と協力できることを発見した。
本研究は,マルチエージェント共同研究におけるLCMの可能性を明らかにするものである。
ビデオはプロジェクトのWebサイトhttps://vis-www.cs.umass.edu/Co-LLM-Agents/で見ることができる。
関連論文リスト
- Mutual Theory of Mind in Human-AI Collaboration: An Empirical Study with LLM-driven AI Agents in a Real-time Shared Workspace Task [56.92961847155029]
心の理論(ToM)は、他人を理解する上で重要な能力として、人間の協調とコミュニケーションに大きな影響を及ぼす。
Mutual Theory of Mind (MToM) は、ToM能力を持つAIエージェントが人間と協力するときに発生する。
エージェントのToM能力はチームのパフォーマンスに大きな影響を与えず,エージェントの人間的理解を高めていることがわかった。
論文 参考訳(メタデータ) (2024-09-13T13:19:48Z) - Your Co-Workers Matter: Evaluating Collaborative Capabilities of Language Models in Blocks World [13.005764902339523]
2つのエージェントがそれぞれ独自の目標とスキルを持ち、ターゲット構造を一緒に構築するブロックワールド環境を設計する。
目標を達成するために、彼らは世界で行動し、自然言語でコミュニケーションすることができる。
パートナーの状態をモデル化し、実行エラーを特定し、修正するための中間的推論ステップを含む、チェーンオブ思想のプロンプトを採用しています。
論文 参考訳(メタデータ) (2024-03-30T04:48:38Z) - Embodied LLM Agents Learn to Cooperate in Organized Teams [46.331162216503344]
大規模言語モデル(LLM)は、推論、計画、意思決定のための統合的なツールとして登場した。
本稿では,これらの問題を緩和するために,LSMエージェントにプロンプトベースの組織構造を課す枠組みを提案する。
論文 参考訳(メタデータ) (2024-03-19T06:39:47Z) - Cooperation on the Fly: Exploring Language Agents for Ad Hoc Teamwork in
the Avalon Game [25.823665278297057]
本研究は,自然言語によって駆動される環境下でエージェントが動作する,アドホックなチームワークの問題に焦点を当てる。
チームコラボレーションにおけるLLMエージェントの可能性を明らかにするとともに,コミュニケーションにおける幻覚に関連する課題を明らかにする。
この問題に対処するため,LLMに拡張メモリとコード駆動推論を備えた汎用エージェントであるCodeActを開発した。
論文 参考訳(メタデータ) (2023-12-29T08:26:54Z) - Large Language Model Enhanced Multi-Agent Systems for 6G Communications [94.45712802626794]
本稿では,自然言語を用いたコミュニケーション関連タスクを解くための,カスタマイズされたコミュニケーション知識とツールを備えたマルチエージェントシステムを提案する。
セマンティック通信システムの設計により,提案方式の有効性を検証した。
論文 参考訳(メタデータ) (2023-12-13T02:35:57Z) - MAgIC: Investigation of Large Language Model Powered Multi-Agent in
Cognition, Adaptability, Rationality and Collaboration [102.41118020705876]
大規模言語モデル(LLM)は自然言語処理の分野で大きな進歩を遂げている。
アプリケーションがマルチエージェント環境に拡張されるにつれ、包括的な評価フレームワークの必要性が高まっている。
この研究は、マルチエージェント設定内でLLMを評価するために特別に設計された新しいベンチマークフレームワークを導入している。
論文 参考訳(メタデータ) (2023-11-14T21:46:27Z) - Cooperation, Competition, and Maliciousness: LLM-Stakeholders Interactive Negotiation [52.930183136111864]
我々は,大言語モデル(LLM)を評価するためにスコーラブルネゴシエーション(scorable negotiations)を提案する。
合意に達するには、エージェントは強力な算術、推論、探索、計画能力を持つ必要がある。
我々は、新しいゲームを作成し、進化するベンチマークを持つことの難しさを増大させる手順を提供する。
論文 参考訳(メタデータ) (2023-09-29T13:33:06Z) - CAMEL: Communicative Agents for "Mind" Exploration of Large Language
Model Society [58.04479313658851]
本稿では,コミュニケーションエージェント間の自律的協調を支援するスケーラブルな手法の構築の可能性について検討する。
本稿では,ロールプレイングという新しいコミュニケーションエージェントフレームワークを提案する。
コントリビューションには、新しいコミュニケーティブエージェントフレームワークの導入、マルチエージェントシステムの協調行動や能力を研究するためのスケーラブルなアプローチの提供などが含まれます。
論文 参考訳(メタデータ) (2023-03-31T01:09:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。