論文の概要: MAgIC: Investigation of Large Language Model Powered Multi-Agent in
Cognition, Adaptability, Rationality and Collaboration
- arxiv url: http://arxiv.org/abs/2311.08562v2
- Date: Thu, 16 Nov 2023 11:40:26 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-17 11:23:31.573945
- Title: MAgIC: Investigation of Large Language Model Powered Multi-Agent in
Cognition, Adaptability, Rationality and Collaboration
- Title(参考訳): MAgIC:認知・適応性・合理性・協調性を考慮した大規模言語モデルの検討
- Authors: Lin Xu, Zhiyuan Hu, Daquan Zhou, Hongyu Ren, Zhen Dong, Kurt Keutzer,
See Kiong Ng, Jiashi Feng
- Abstract要約: 大規模言語モデル(LLM)は自然言語処理の分野で大きな進歩を遂げている。
アプリケーションがマルチエージェント環境に拡張されるにつれ、包括的な評価フレームワークの必要性が高まっている。
この研究は、マルチエージェント設定内でLLMを評価するために特別に設計された新しいベンチマークフレームワークを導入している。
- 参考スコア(独自算出の注目度): 102.41118020705876
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Models (LLMs) have marked a significant advancement in the
field of natural language processing, demonstrating exceptional capabilities in
reasoning, tool usage, and memory. As their applications extend into
multi-agent environments, a need has arisen for a comprehensive evaluation
framework that captures their abilities in reasoning, planning, collaboration,
and more. This work introduces a novel benchmarking framework specifically
tailored to assess LLMs within multi-agent settings, providing quantitative
metrics to evaluate their judgment, reasoning, deception, self-awareness,
cooperation, coordination, and rationality. We utilize games such as Chameleon
and Undercover, alongside game theory scenarios like Cost Sharing, Multi-player
Prisoner's Dilemma, and Public Good, to create diverse testing environments.
Our framework is fortified with the Probabilistic Graphical Modeling (PGM)
method, enhancing the LLMs' capabilities in navigating complex social and
cognitive dimensions. The benchmark evaluates seven multi-agent systems powered
by different LLMs, quantitatively highlighting a significant capability gap
over threefold between the strongest, GPT-4, and the weakest, Llama-2-70B. It
also confirms that our PGM enhancement boosts the inherent abilities of all
selected models by 50% on average. Our codes are released here
https://github.com/cathyxl/MAgIC.
- Abstract(参考訳): 大規模言語モデル(LLM)は自然言語処理の分野で大きな進歩を遂げており、推論、ツールの使用、メモリにおける例外的な能力を示している。
アプリケーションがマルチエージェント環境に広がるにつれて、推論、計画、コラボレーションなどにおける彼らの能力を捉える包括的な評価フレームワークの必要性が生まれている。
本研究は,マルチエージェント環境でllmを評価するために特別に調整された新しいベンチマークフレームワークを導入し,その判断,推論,騙し,自己認識,協調,合理性を評価するための定量的指標を提供する。
chameleonやundercoverといったゲームと、コスト共有、マルチプレイヤー囚人のジレンマ、パブリックグッドといったゲーム理論のシナリオを使って、さまざまなテスト環境を作ります。
我々のフレームワークは確率的グラフィカルモデリング(PGM)法で強化されており、複雑な社会的・認知的な次元をナビゲートするLLMの能力を高めている。
ベンチマークでは、異なるLLMを動力とする7つのマルチエージェントシステムを評価し、最強のGPT-4と最弱のLlama-2-70Bの3倍の能力ギャップを定量的に強調した。
また、我々のPGMの強化により、選択された全てのモデル固有の能力が平均50%向上することを確認した。
私たちのコードは、https://github.com/cathyxl/MAgIC.comでリリースされています。
関連論文リスト
- FAC$^2$E: Better Understanding Large Language Model Capabilities by Dissociating Language and Cognition [56.76951887823882]
大規模言語モデル(LLM)は、主に様々なテキスト理解および生成タスクにおける全体的なパフォーマンスによって評価される。
FAC$2$E, FAC$2$Eについて述べる。
論文 参考訳(メタデータ) (2024-02-29T21:05:37Z) - LLMArena: Assessing Capabilities of Large Language Models in Dynamic
Multi-Agent Environments [35.926581910260076]
マルチエージェント動的環境における大規模言語モデルの能力を評価するためのフレームワークであるLLMArenaを紹介する。
LLArenaはTrueskillスコアを使用して、空間推論、戦略的計画、数値推論、リスク評価、コミュニケーション、相手モデリング、チームコラボレーションなど、LLMエージェントの重要な能力を評価する。
我々は、LLMの規模や種類によって、広範囲にわたる実験と人的評価を行い、LLMは、完全に自律的なエージェントへと発展する上で、依然として重要な道のりを歩んでいることを示す。
論文 参考訳(メタデータ) (2024-02-26T11:31:48Z) - Dynamic Evaluation of Large Language Models by Meta Probing Agents [44.20074234421295]
大規模言語モデル(LLM)を評価するためのメタ・プロブリング・エージェント(MPA)を提案する。
MPAはDyVal 2の重要なコンポーネントであり、DyValcitepzhu2023dyvalを自然に拡張している。
MPAは、探索および判定エージェントを設計し、元の評価問題を心理測定理論に従って新しいものに自動的に変換する。
論文 参考訳(メタデータ) (2024-02-21T06:46:34Z) - Ocassionally Secure: A Comparative Analysis of Code Generation
Assistants [8.573156248244695]
本稿では,LLMを効果的かつ安全に展開できる状況と状況を特定し,理解することに焦点を当てる。
Google の ChatGPT と Bard と Gemini を用いた 4 つの高度な LLM--GPT-3.5 と GPT-4 の比較分析を行い,各モデルのコード生成能力を評価した。
61のコードアウトプットを収集し、機能、セキュリティ、パフォーマンス、複雑さ、信頼性など、さまざまな側面で分析しました。
論文 参考訳(メタデータ) (2024-02-01T15:49:47Z) - LMRL Gym: Benchmarks for Multi-Turn Reinforcement Learning with Language
Models [56.25156596019168]
本稿では,LMRL-Gymベンチマークを用いて,大規模言語モデル(LLM)のマルチターンRLの評価を行う。
我々のベンチマークは8つの異なる言語タスクで構成されており、複数ラウンドの言語相互作用が必要であり、オープンエンド対話やテキストゲームにおける様々なタスクをカバーする。
論文 参考訳(メタデータ) (2023-11-30T03:59:31Z) - Language Agent Tree Search Unifies Reasoning Acting and Planning in Language Models [31.509994889286183]
我々はLanguage Agent Tree Search (LATS)を紹介した。Language Agent Tree Search (LATS)は、推論、行動、計画において言語モデル(LM)の能力を相乗化する最初の一般的なフレームワークである。
当社のアプローチの重要な特徴は、より意図的で適応的な問題解決メカニズムを提供する外部フィードバック環境の導入である。
LATSは、GPT-4でHumanEval上でプログラミングするための最先端パス@1精度(92.7%)を達成し、GPTによるWebShop上のWebナビゲーションの勾配ベースの微調整に匹敵する勾配なし性能(平均スコア75.9)を示す。
論文 参考訳(メタデータ) (2023-10-06T17:55:11Z) - Cooperation, Competition, and Maliciousness: LLM-Stakeholders Interactive Negotiation [52.930183136111864]
我々は,大言語モデル(LLM)を評価するためにスコーラブルネゴシエーション(scorable negotiations)を提案する。
合意に達するには、エージェントは強力な算術、推論、探索、計画能力を持つ必要がある。
我々は、新しいゲームを作成し、進化するベンチマークを持つことの難しさを増大させる手順を提供する。
論文 参考訳(メタデータ) (2023-09-29T13:33:06Z) - AgentBench: Evaluating LLMs as Agents [88.45506148281379]
大規模言語モデル(LLM)は、従来のNLPタスクを超えた現実的な実用的ミッションをターゲットとして、ますます賢く自律的になってきています。
我々は,現在8つの異なる環境からなるベンチマークであるAgentBenchを紹介し,LLM-as-Agentの推論と意思決定能力を評価する。
論文 参考訳(メタデータ) (2023-08-07T16:08:11Z) - LAMM: Language-Assisted Multi-Modal Instruction-Tuning Dataset,
Framework, and Benchmark [81.42376626294812]
本稿では,Language-Assisted Multi-Modalインストラクションチューニングデータセット,フレームワーク,ベンチマークを提案する。
我々の目標は、MLLMのトレーニングと評価のための成長するエコシステムとしてLAMMを確立することです。
本稿では,2次元および3次元視覚のための広範囲な視覚タスクをカバーする包括的データセットとベンチマークを提案する。
論文 参考訳(メタデータ) (2023-06-11T14:01:17Z) - Multi-Agent Collaboration: Harnessing the Power of Intelligent LLM
Agents [0.0]
本稿では,マルチエージェントシステムのパワーを活用した大規模言語モデル(LLM)の能力向上のための新しいフレームワークを提案する。
本フレームワークでは,複数の知的エージェントコンポーネントがそれぞれ特有な属性と役割を持つ協調環境を導入し,複雑なタスクをより効率的に効率的に処理する。
論文 参考訳(メタデータ) (2023-06-05T23:55:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。