論文の概要: LLM-Coordination: Evaluating and Analyzing Multi-agent Coordination Abilities in Large Language Models
- arxiv url: http://arxiv.org/abs/2310.03903v2
- Date: Tue, 2 Apr 2024 22:35:39 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-04 23:08:03.580918
- Title: LLM-Coordination: Evaluating and Analyzing Multi-agent Coordination Abilities in Large Language Models
- Title(参考訳): LLMコーディネーション:大規模言語モデルにおけるマルチエージェントコーディネーション能力の評価と解析
- Authors: Saaket Agashe, Yue Fan, Anthony Reyna, Xin Eric Wang,
- Abstract要約: 本研究では,Pure Coordination Games の文脈におけるLarge Language Models (LLM) の詳細な解析を目的とした。
以上の結果から, GPT-4-turbo を併用した LLM エージェントは, 最先端の強化学習法に匹敵する性能を示した。
コーディネーションQAの結果は、LLMのマインド推論と共同計画能力の向上のための大きな空間を示している。
- 参考スコア(独自算出の注目度): 23.092480882456048
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The emergent reasoning and Theory of Mind (ToM) abilities demonstrated by Large Language Models (LLMs) make them promising candidates for developing coordination agents. In this study, we introduce a new LLM-Coordination Benchmark aimed at a detailed analysis of LLMs within the context of Pure Coordination Games, where participating agents need to cooperate for the most gain. This benchmark evaluates LLMs through two distinct tasks: (1) \emph{Agentic Coordination}, where LLMs act as proactive participants for cooperation in 4 pure coordination games; (2) \emph{Coordination Question Answering (QA)}, where LLMs are prompted to answer 198 multiple-choice questions from the 4 games for evaluation of three key reasoning abilities: Environment Comprehension, ToM Reasoning, and Joint Planning. Furthermore, to enable LLMs for multi-agent coordination, we introduce a Cognitive Architecture for Coordination (CAC) framework that can easily integrate different LLMs as plug-and-play modules for pure coordination games. Our findings indicate that LLM agents equipped with GPT-4-turbo achieve comparable performance to state-of-the-art reinforcement learning methods in games that require commonsense actions based on the environment. Besides, zero-shot coordination experiments reveal that, unlike RL methods, LLM agents are robust to new unseen partners. However, results on Coordination QA show a large room for improvement in the Theory of Mind reasoning and joint planning abilities of LLMs. The analysis also sheds light on how the ability of LLMs to understand their environment and their partner's beliefs and intentions plays a part in their ability to plan for coordination. Our code is available at \url{https://github.com/eric-ai-lab/llm_coordination}.
- Abstract(参考訳): 大規模言語モデル(LLM)によって実証された、創発的推論と心の理論(ToM)能力は、調整エージェントを開発するための有望な候補となる。
本研究では,Pure Coordination Games の文脈における LLM の詳細な分析を目的とした新しい LLM-Coordination Benchmark を提案する。
本ベンチマークは,(1) 環境理解,ToM推論,共同計画の3つの主要な理由付け能力を評価するために,LLMが4つの純粋な協調ゲームにおいて協調のための積極的な参加者として機能する,(2) の2つの異なるタスクを通じてLLMを評価する。
さらに,マルチエージェントコーディネーションのためのLLMを実現するために,純粋コーディネーションゲームのためのプラグイン・アンド・プレイモジュールとして,異なるLLMを簡単に統合できるCognitive Architecture for Coordination (CAC)フレームワークを導入する。
本研究により, GPT-4-turbo を組み込んだ LLM エージェントは, 環境に応じたコモンセンス動作を必要とするゲームにおいて, 最先端の強化学習手法に匹敵する性能を達成できることが示唆された。
さらに、ゼロショット調整実験では、RL法とは異なり、LLMエージェントは新しい未知のパートナーに対して堅牢であることが示された。
しかし, コーディネーションQAの結果は, LLMのマインド推論と共同計画能力の向上の余地が大きい。
この分析は、LLMが自身の環境とパートナーの信念や意図を理解する能力が、調整計画の能力にどのように貢献するかについても光を当てている。
我々のコードは \url{https://github.com/eric-ai-lab/llm_coordination} で利用可能です。
関連論文リスト
- Evaluating and Enhancing LLMs Agent based on Theory of Mind in Guandan: A Multi-Player Cooperative Game under Imperfect Information [36.11862095329315]
大規模言語モデル(LLM)は、不完全な情報で単純なゲームを扱うことに成功している。
本研究では,オープンソースのLLMとAPIベースのLLMが獲得した知識を,洗練されたテキストベースのゲームに適用する可能性について検討する。
論文 参考訳(メタデータ) (2024-08-05T15:36:46Z) - A Survey of Useful LLM Evaluation [20.048914787813263]
2段階フレームワーク:コア能力からエージェントへ」
コア能力」の段階では, LLMの推論能力, 社会的影響, ドメイン知識について議論した。
エージェントの段階では, LLMエージェントアプリケーションの動作, 計画, ツール学習の具体化を実演した。
論文 参考訳(メタデータ) (2024-06-03T02:20:03Z) - Towards Efficient LLM Grounding for Embodied Multi-Agent Collaboration [70.09561665520043]
本稿では,多エージェント協調のための新しいフレームワークを提案する。これは,効率的な自己調整のための強化アドバンテージフィードバック(Reinforced Advantage feedback, ReAd)を導入する。
強化学習における重み付き回帰を多エージェントシステムに拡張して理論的解析を行う。
Over-AIと難解なRoCoBenchの実験は、ReAdが成功率のベースラインを超え、エージェントの相互作用ステップを著しく減少させることを示している。
論文 参考訳(メタデータ) (2024-05-23T08:33:19Z) - GTBench: Uncovering the Strategic Reasoning Limitations of LLMs via Game-Theoretic Evaluations [87.99872683336395]
大規模言語モデル(LLM)は、重要な現実世界のアプリケーションに統合される。
本稿では,LLMの競合環境における推論能力について検討する。
まず,広く認識されている10のタスクを構成する言語駆動型環境であるGTBenchを提案する。
論文 参考訳(メタデータ) (2024-02-19T18:23:36Z) - MAgIC: Investigation of Large Language Model Powered Multi-Agent in
Cognition, Adaptability, Rationality and Collaboration [102.41118020705876]
大規模言語モデル(LLM)は自然言語処理の分野で大きな進歩を遂げている。
アプリケーションがマルチエージェント環境に拡張されるにつれ、包括的な評価フレームワークの必要性が高まっている。
この研究は、マルチエージェント設定内でLLMを評価するために特別に設計された新しいベンチマークフレームワークを導入している。
論文 参考訳(メタデータ) (2023-11-14T21:46:27Z) - Theory of Mind for Multi-Agent Collaboration via Large Language Models [5.2767999863286645]
本研究では,多エージェント協調型テキストゲームにおけるLarge Language Models (LLMs) ベースのエージェントを,理論オブマインド (ToM) 推論タスクを用いて評価する。
LLMをベースとしたエージェント間の創発的協調行動と高次マインド理論の実証を行った。
論文 参考訳(メタデータ) (2023-10-16T07:51:19Z) - Cooperation, Competition, and Maliciousness: LLM-Stakeholders Interactive Negotiation [52.930183136111864]
我々は,大言語モデル(LLM)を評価するためにスコーラブルネゴシエーション(scorable negotiations)を提案する。
合意に達するには、エージェントは強力な算術、推論、探索、計画能力を持つ必要がある。
我々は、新しいゲームを作成し、進化するベンチマークを持つことの難しさを増大させる手順を提供する。
論文 参考訳(メタデータ) (2023-09-29T13:33:06Z) - BOLAA: Benchmarking and Orchestrating LLM-augmented Autonomous Agents [103.28404907655542]
大規模言語モデル(LLM)は、自律エージェント(LAA)の新たな探索に繋がった。
本稿では,エージェントアーキテクチャとLLMバックボーンの両方の観点から,LAAの包括的な比較を行う。
我々は、複数のLAAを編成する新しい戦略を提案し、各LAAは、複数のエージェント間の通信を管理する制御器であるテキストティティ(textiti.e. BOLAA)に焦点をあてる。
論文 参考訳(メタデータ) (2023-08-11T06:37:54Z) - Building Cooperative Embodied Agents Modularly with Large Language
Models [104.57849816689559]
本研究では, 分散制御, 生の知覚観察, コストのかかるコミュニケーション, 様々な実施環境下でインスタンス化された多目的タスクといった課題に対処する。
我々は,LLMの常識知識,推論能力,言語理解,テキスト生成能力を活用し,認知に触発されたモジュラーフレームワークにシームレスに組み込む。
C-WAH と TDW-MAT を用いた実験により, GPT-4 で駆動される CoELA が, 強い計画に基づく手法を超越し, 創発的な効果的なコミュニケーションを示すことを示した。
論文 参考訳(メタデータ) (2023-07-05T17:59:27Z) - Examining Inter-Consistency of Large Language Models Collaboration: An
In-depth Analysis via Debate [41.949869545423375]
大きな言語モデル(LLM)は、様々なアプリケーションで印象的な機能を示しているが、それでも様々な矛盾問題に直面している。
LLMが効果的に協力して共有目標のコンセンサスを達成するためには,コモンセンス推論に焦点をあてる。
我々の研究は,LLM間の一貫性の理解に寄与し,今後のコラボレーション手法開発の基礎を築いた。
論文 参考訳(メタデータ) (2023-05-19T11:15:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。