論文の概要: Evaluating Multi-Agent Coordination Abilities in Large Language Models
- arxiv url: http://arxiv.org/abs/2310.03903v1
- Date: Thu, 5 Oct 2023 21:18:15 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-10 06:23:21.145695
- Title: Evaluating Multi-Agent Coordination Abilities in Large Language Models
- Title(参考訳): 大規模言語モデルにおけるマルチエージェント協調能力の評価
- Authors: Saaket Agashe, Yue Fan, Xin Eric Wang
- Abstract要約: 大きな言語モデル(LLM)は、人間のような方法で言語を理解し、生成し、解釈する顕著な能力を持っている。
各種調整シナリオにおける LLM を用いたエージェントの有効性の構築と評価を行う。
- 参考スコア(独自算出の注目度): 28.352480978451865
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: A pivotal aim in contemporary AI research is to develop agents proficient in
multi-agent coordination, enabling effective collaboration with both humans and
other systems. Large Language Models (LLMs), with their notable ability to
understand, generate, and interpret language in a human-like manner, stand out
as promising candidates for the development of such agents. In this study, we
build and assess the effectiveness of agents crafted using LLMs in various
coordination scenarios. We introduce the LLM-Coordination (LLM-Co) Framework,
specifically designed to enable LLMs to play coordination games. With the
LLM-Co framework, we conduct our evaluation with three game environments and
organize the evaluation into five aspects: Theory of Mind, Situated Reasoning,
Sustained Coordination, Robustness to Partners, and Explicit Assistance. First,
the evaluation of the Theory of Mind and Situated Reasoning reveals the
capabilities of LLM to infer the partner's intention and reason actions
accordingly. Then, the evaluation around Sustained Coordination and Robustness
to Partners further showcases the ability of LLMs to coordinate with an unknown
partner in complex long-horizon tasks, outperforming Reinforcement Learning
baselines. Lastly, to test Explicit Assistance, which refers to the ability of
an agent to offer help proactively, we introduce two novel layouts into the
Overcooked-AI benchmark, examining if agents can prioritize helping their
partners, sacrificing time that could have been spent on their tasks. This
research underscores the promising capabilities of LLMs in sophisticated
coordination environments and reveals the potential of LLMs in building strong
real-world agents for multi-agent coordination.
- Abstract(参考訳): 現代のai研究の重要な目的は、マルチエージェント協調に熟練したエージェントを開発し、人間と他のシステムとの効果的なコラボレーションを可能にすることである。
言語を人間のような方法で理解し、生成し、解釈する能力を持つ大規模言語モデル(llm)は、そのようなエージェントの開発に有望な候補として際立っている。
本研究では, 様々な調整シナリオにおいて, LLMを用いたエージェントの有効性を構築し, 評価する。
LLM-Coordination (LLM-Co) Frameworkを導入する。
llm-coフレームワークでは,3つのゲーム環境を用いて評価を行い,心の理論,位置推論,継続協調,パートナーに対する堅牢性,明示的な支援という5つの側面に評価を整理する。
第一に、心の理論と感性推論の評価は、LLMがパートナーの意図や理性的な行動を推論する能力を明らかにする。
そして、パートナーに対する継続的な調整と堅牢性に関する評価は、強化学習ベースラインよりも優れた、複雑なロングホライゾンタスクにおいて未知のパートナーと協調するllmの能力を示す。
最後に、エージェントが積極的に助けを提供する能力を示す明示的な支援をテストするために、過剰調理されたaiベンチマークに2つの新しいレイアウトを導入し、エージェントがパートナーを助けるのを優先できるかどうかを調べ、タスクに費やされた時間を犠牲にする。
本研究は、高度調整環境におけるLLMの有望な能力と、マルチエージェント協調のための強力な現実世界エージェント構築におけるLLMの可能性を明らかにする。
関連論文リスト
- Evaluating and Enhancing LLMs Agent based on Theory of Mind in Guandan: A Multi-Player Cooperative Game under Imperfect Information [36.11862095329315]
大規模言語モデル(LLM)は、不完全な情報で単純なゲームを扱うことに成功している。
本研究では,オープンソースのLLMとAPIベースのLLMが獲得した知識を,洗練されたテキストベースのゲームに適用する可能性について検討する。
論文 参考訳(メタデータ) (2024-08-05T15:36:46Z) - A Survey of Useful LLM Evaluation [20.048914787813263]
2段階フレームワーク:コア能力からエージェントへ」
コア能力」の段階では, LLMの推論能力, 社会的影響, ドメイン知識について議論した。
エージェントの段階では, LLMエージェントアプリケーションの動作, 計画, ツール学習の具体化を実演した。
論文 参考訳(メタデータ) (2024-06-03T02:20:03Z) - Towards Efficient LLM Grounding for Embodied Multi-Agent Collaboration [70.09561665520043]
本稿では,多エージェント協調のための新しいフレームワークを提案する。これは,効率的な自己調整のための強化アドバンテージフィードバック(Reinforced Advantage feedback, ReAd)を導入する。
強化学習における重み付き回帰を多エージェントシステムに拡張して理論的解析を行う。
Over-AIと難解なRoCoBenchの実験は、ReAdが成功率のベースラインを超え、エージェントの相互作用ステップを著しく減少させることを示している。
論文 参考訳(メタデータ) (2024-05-23T08:33:19Z) - GTBench: Uncovering the Strategic Reasoning Limitations of LLMs via Game-Theoretic Evaluations [87.99872683336395]
大規模言語モデル(LLM)は、重要な現実世界のアプリケーションに統合される。
本稿では,LLMの競合環境における推論能力について検討する。
まず,広く認識されている10のタスクを構成する言語駆動型環境であるGTBenchを提案する。
論文 参考訳(メタデータ) (2024-02-19T18:23:36Z) - MAgIC: Investigation of Large Language Model Powered Multi-Agent in
Cognition, Adaptability, Rationality and Collaboration [102.41118020705876]
大規模言語モデル(LLM)は自然言語処理の分野で大きな進歩を遂げている。
アプリケーションがマルチエージェント環境に拡張されるにつれ、包括的な評価フレームワークの必要性が高まっている。
この研究は、マルチエージェント設定内でLLMを評価するために特別に設計された新しいベンチマークフレームワークを導入している。
論文 参考訳(メタデータ) (2023-11-14T21:46:27Z) - Theory of Mind for Multi-Agent Collaboration via Large Language Models [5.2767999863286645]
本研究では,多エージェント協調型テキストゲームにおけるLarge Language Models (LLMs) ベースのエージェントを,理論オブマインド (ToM) 推論タスクを用いて評価する。
LLMをベースとしたエージェント間の創発的協調行動と高次マインド理論の実証を行った。
論文 参考訳(メタデータ) (2023-10-16T07:51:19Z) - Cooperation, Competition, and Maliciousness: LLM-Stakeholders Interactive Negotiation [52.930183136111864]
我々は,大言語モデル(LLM)を評価するためにスコーラブルネゴシエーション(scorable negotiations)を提案する。
合意に達するには、エージェントは強力な算術、推論、探索、計画能力を持つ必要がある。
我々は、新しいゲームを作成し、進化するベンチマークを持つことの難しさを増大させる手順を提供する。
論文 参考訳(メタデータ) (2023-09-29T13:33:06Z) - BOLAA: Benchmarking and Orchestrating LLM-augmented Autonomous Agents [103.28404907655542]
大規模言語モデル(LLM)は、自律エージェント(LAA)の新たな探索に繋がった。
本稿では,エージェントアーキテクチャとLLMバックボーンの両方の観点から,LAAの包括的な比較を行う。
我々は、複数のLAAを編成する新しい戦略を提案し、各LAAは、複数のエージェント間の通信を管理する制御器であるテキストティティ(textiti.e. BOLAA)に焦点をあてる。
論文 参考訳(メタデータ) (2023-08-11T06:37:54Z) - Building Cooperative Embodied Agents Modularly with Large Language
Models [104.57849816689559]
本研究では, 分散制御, 生の知覚観察, コストのかかるコミュニケーション, 様々な実施環境下でインスタンス化された多目的タスクといった課題に対処する。
我々は,LLMの常識知識,推論能力,言語理解,テキスト生成能力を活用し,認知に触発されたモジュラーフレームワークにシームレスに組み込む。
C-WAH と TDW-MAT を用いた実験により, GPT-4 で駆動される CoELA が, 強い計画に基づく手法を超越し, 創発的な効果的なコミュニケーションを示すことを示した。
論文 参考訳(メタデータ) (2023-07-05T17:59:27Z) - Examining Inter-Consistency of Large Language Models Collaboration: An
In-depth Analysis via Debate [41.949869545423375]
大きな言語モデル(LLM)は、様々なアプリケーションで印象的な機能を示しているが、それでも様々な矛盾問題に直面している。
LLMが効果的に協力して共有目標のコンセンサスを達成するためには,コモンセンス推論に焦点をあてる。
我々の研究は,LLM間の一貫性の理解に寄与し,今後のコラボレーション手法開発の基礎を築いた。
論文 参考訳(メタデータ) (2023-05-19T11:15:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。