論文の概要: LLM-Deliberation: Evaluating LLMs with Interactive Multi-Agent
Negotiation Games
- arxiv url: http://arxiv.org/abs/2309.17234v1
- Date: Fri, 29 Sep 2023 13:33:06 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-02 13:43:15.004833
- Title: LLM-Deliberation: Evaluating LLMs with Interactive Multi-Agent
Negotiation Games
- Title(参考訳): LLM-Deliberation:対話型マルチエージェントネゴシエーションゲームを用いたLLMの評価
- Authors: Sahar Abdelnabi, Amr Gomaa, Sarath Sivaprasad, Lea Sch\"onherr, Mario
Fritz
- Abstract要約: 本稿では,大規模言語モデルのための新たな評価フレームワークとして交渉ゲームを提案する。
我々は、エージェントが交渉し、常に成功する取引に到達できることを示します。
これらのゲームは、グリーディと敵プレイヤーの存在下でのエージェント間の相互作用のダイナミクスなど、他の重要な側面を評価するのに役立つ。
- 参考スコア(独自算出の注目度): 53.927705340086334
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: There is a growing interest in using Large Language Models (LLMs) as agents
to tackle real-world tasks that may require assessing complex situations. Yet,
we have a limited understanding of LLMs' reasoning and decision-making
capabilities, partly stemming from a lack of dedicated evaluation benchmarks.
As negotiating and compromising are key aspects of our everyday communication
and collaboration, we propose using scorable negotiation games as a new
evaluation framework for LLMs. We create a testbed of diverse text-based,
multi-agent, multi-issue, semantically rich negotiation games, with easily
tunable difficulty. To solve the challenge, agents need to have strong
arithmetic, inference, exploration, and planning capabilities, while seamlessly
integrating them. Via a systematic zero-shot Chain-of-Thought prompting (CoT),
we show that agents can negotiate and consistently reach successful deals. We
quantify the performance with multiple metrics and observe a large gap between
GPT-4 and earlier models. Importantly, we test the generalization to new games
and setups. Finally, we show that these games can help evaluate other critical
aspects, such as the interaction dynamics between agents in the presence of
greedy and adversarial players.
- Abstract(参考訳): 複雑な状況の評価を必要とする現実的なタスクに取り組むエージェントとして,LLM(Large Language Models)の使用に対する関心が高まっている。
しかし、私たちはLSMの推論と意思決定能力について限定的な理解をしており、部分的には専用の評価ベンチマークの欠如から生じている。
日常的なコミュニケーションやコラボレーションにおいて,交渉や妥協が重要な側面であるので,LLMの新たな評価フレームワークとしてスコーラブルネゴシエーションゲームを提案する。
多様なテキストベース,マルチエージェント,マルチイシュー,セマンティックにリッチなネゴシエーションゲームによるテストベッドを,容易に調整可能な難易度で作成する。
この課題を解決するには、エージェントはシームレスに統合しながら、強力な算術、推論、探索、計画能力を持つ必要がある。
組織的なゼロショットの連鎖促進(CoT)によって、エージェントが交渉し、常に成功する取引に到達できることが示される。
複数のメトリクスで性能を定量化し、GPT-4とそれ以前のモデルの間の大きなギャップを観察する。
重要なのは、新しいゲームやセットアップへの一般化をテストすることです。
最後に、これらのゲームは、欲望と敵プレイヤーの存在下でのエージェント間の相互作用ダイナミクスなど、他の重要な側面を評価するのに役立ちます。
関連論文リスト
- BattleAgentBench: A Benchmark for Evaluating Cooperation and Competition Capabilities of Language Models in Multi-Agent Systems [15.159418172629701]
大規模言語モデル(LLM)はますます強力になり、複雑なタスクを処理できるようになる。
シングルエージェントと比較して、マルチエージェントシステムは言語モデルの協調機能により高い要求がある。
我々は,3つの難易度の7つのサブステージを定義したBattleAgentBenchというベンチマークを提案する。
論文 参考訳(メタデータ) (2024-08-28T17:43:55Z) - Richelieu: Self-Evolving LLM-Based Agents for AI Diplomacy [24.521882655442187]
外交は、特に必要な交渉段階を考慮して、決定空間の停滞を伴う。
従来のAIエージェントは、マルチエージェントタスクにおいて、マルチステップゲームと大きなアクションスペースを扱う能力を示した。
我々は、包括的なマルチエージェントミッションを実行することができる人間のようなエージェントを作成するAIの可能性を探究することを目的としている。
論文 参考訳(メタデータ) (2024-07-09T12:37:54Z) - CoMM: Collaborative Multi-Agent, Multi-Reasoning-Path Prompting for Complex Problem Solving [9.446546965008249]
協調型マルチエージェント・マルチレゾニングパス(CoMM)プロンプトフレームワークを提案する。
具体的には、LLMが問題解決チームで異なる役割を演じるように促し、異なるロールプレイエージェントが目的のタスクを協調的に解決するように促します。
2つの大学レベルの科学問題に対する提案手法の有効性を実証した。
論文 参考訳(メタデータ) (2024-04-26T23:29:12Z) - AntEval: Evaluation of Social Interaction Competencies in LLM-Driven
Agents [65.16893197330589]
大規模言語モデル(LLM)は、幅広いシナリオで人間の振る舞いを再現する能力を示した。
しかし、複雑なマルチ文字のソーシャルインタラクションを扱う能力については、まだ完全には研究されていない。
本稿では,新しいインタラクションフレームワークと評価手法を含むマルチエージェントインタラクション評価フレームワーク(AntEval)を紹介する。
論文 参考訳(メタデータ) (2024-01-12T11:18:00Z) - MAgIC: Investigation of Large Language Model Powered Multi-Agent in
Cognition, Adaptability, Rationality and Collaboration [102.41118020705876]
大規模言語モデル(LLM)は自然言語処理の分野で大きな進歩を遂げている。
アプリケーションがマルチエージェント環境に拡張されるにつれ、包括的な評価フレームワークの必要性が高まっている。
この研究は、マルチエージェント設定内でLLMを評価するために特別に設計された新しいベンチマークフレームワークを導入している。
論文 参考訳(メタデータ) (2023-11-14T21:46:27Z) - Multi-Agent Consensus Seeking via Large Language Models [6.922356864800498]
大規模言語モデル(LLM)によって駆動されるマルチエージェントシステムは、複雑なタスクを協調的に解決する有望な能力を示している。
この研究は、マルチエージェントコラボレーションにおける根本的な問題であるコンセンサス探索について考察する。
論文 参考訳(メタデータ) (2023-10-31T03:37:11Z) - MindAgent: Emergent Gaming Interaction [103.73707345211892]
大規模言語モデル(LLM)は、マルチエージェントシステムで複雑なスケジューリングを行う能力を持つ。
我々はMindAgentを提案し,ゲームインタラクションにおける創発的能力の評価・調整を行う。
論文 参考訳(メタデータ) (2023-09-18T17:52:22Z) - AgentVerse: Facilitating Multi-Agent Collaboration and Exploring
Emergent Behaviors [93.38830440346783]
本稿では,その構成をより高機能なシステムとして協調的に調整できるマルチエージェントフレームワークを提案する。
実験により,フレームワークが単一エージェントより優れたマルチエージェントグループを効果的に展開できることが実証された。
これらの振舞いの観点から、我々は、ポジティブなものを活用し、ネガティブなものを緩和し、マルチエージェントグループの協調可能性を改善するためのいくつかの戦略について議論する。
論文 参考訳(メタデータ) (2023-08-21T16:47:11Z) - Building Cooperative Embodied Agents Modularly with Large Language
Models [104.57849816689559]
本研究では, 分散制御, 生の知覚観察, コストのかかるコミュニケーション, 様々な実施環境下でインスタンス化された多目的タスクといった課題に対処する。
我々は,LLMの常識知識,推論能力,言語理解,テキスト生成能力を活用し,認知に触発されたモジュラーフレームワークにシームレスに組み込む。
C-WAH と TDW-MAT を用いた実験により, GPT-4 で駆動される CoELA が, 強い計画に基づく手法を超越し, 創発的な効果的なコミュニケーションを示すことを示した。
論文 参考訳(メタデータ) (2023-07-05T17:59:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。