論文の概要: Cooperation, Competition, and Maliciousness: LLM-Stakeholders Interactive Negotiation
- arxiv url: http://arxiv.org/abs/2309.17234v2
- Date: Mon, 10 Jun 2024 14:43:34 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-12 05:07:26.449185
- Title: Cooperation, Competition, and Maliciousness: LLM-Stakeholders Interactive Negotiation
- Title(参考訳): 協力, 競争, 悪意: LLM-Stakeholders Interactive Negotiation
- Authors: Sahar Abdelnabi, Amr Gomaa, Sarath Sivaprasad, Lea Schönherr, Mario Fritz,
- Abstract要約: 我々は,大言語モデル(LLM)を評価するためにスコーラブルネゴシエーション(scorable negotiations)を提案する。
合意に達するには、エージェントは強力な算術、推論、探索、計画能力を持つ必要がある。
我々は、新しいゲームを作成し、進化するベンチマークを持つことの難しさを増大させる手順を提供する。
- 参考スコア(独自算出の注目度): 52.930183136111864
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: There is an growing interest in using Large Language Models (LLMs) in multi-agent systems to tackle interactive real-world tasks that require effective collaboration and assessing complex situations. Yet, we still have a limited understanding of LLMs' communication and decision-making abilities in multi-agent setups. The fundamental task of negotiation spans many key features of communication, such as cooperation, competition, and manipulation potentials. Thus, we propose using scorable negotiation to evaluate LLMs. We create a testbed of complex multi-agent, multi-issue, and semantically rich negotiation games. To reach an agreement, agents must have strong arithmetic, inference, exploration, and planning capabilities while integrating them in a dynamic and multi-turn setup. We propose multiple metrics to rigorously quantify agents' performance and alignment with the assigned role. We provide procedures to create new games and increase games' difficulty to have an evolving benchmark. Importantly, we evaluate critical safety aspects such as the interaction dynamics between agents influenced by greedy and adversarial players. Our benchmark is highly challenging; GPT-3.5 and small models mostly fail, and GPT-4 and SoTA large models (e.g., Llama-3 70b) still underperform.
- Abstract(参考訳): マルチエージェントシステムにおいて,効果的なコラボレーションや複雑な状況の評価を必要とする対話型実世界のタスクに取り組むために,LLM(Large Language Models)の使用に対する関心が高まっている。
しかし,マルチエージェント環境におけるLLMのコミュニケーションと意思決定能力については,まだ限定的な理解が得られていない。
交渉の基本的な課題は、協力、競争、操作の可能性など、コミュニケーションの多くの重要な特徴にまたがる。
そこで本稿では,LLMの評価にスコーラブルネゴシエーションを用いた手法を提案する。
複雑なマルチエージェント、マルチイシュー、セマンティックにリッチなネゴシエーションゲームのテストベッドを作成します。
合意に達するには、エージェントは強力な算術、推論、探索、計画能力を持ちながら、それらを動的かつマルチターンのセットアップに統合する必要がある。
エージェントのパフォーマンスと、割り当てられた役割との整合性を厳格に定量化するために、複数のメトリクスを提案する。
我々は、新しいゲームを作成し、進化するベンチマークを持つことの難しさを増大させる手順を提供する。
重要なことは、グリーディと敵プレイヤーに影響されたエージェント間の相互作用のダイナミクスなど、重要な安全性の側面を評価することである。
GPT-4 と SoTA の大規模モデル (例えば Llama-3 70b ) は依然として性能が劣っている。
関連論文リスト
- BattleAgentBench: A Benchmark for Evaluating Cooperation and Competition Capabilities of Language Models in Multi-Agent Systems [15.159418172629701]
大規模言語モデル(LLM)はますます強力になり、複雑なタスクを処理できるようになる。
シングルエージェントと比較して、マルチエージェントシステムは言語モデルの協調機能により高い要求がある。
我々は,3つの難易度の7つのサブステージを定義したBattleAgentBenchというベンチマークを提案する。
論文 参考訳(メタデータ) (2024-08-28T17:43:55Z) - Richelieu: Self-Evolving LLM-Based Agents for AI Diplomacy [24.521882655442187]
外交は、特に必要な交渉段階を考慮して、決定空間の停滞を伴う。
従来のAIエージェントは、マルチエージェントタスクにおいて、マルチステップゲームと大きなアクションスペースを扱う能力を示した。
我々は、包括的なマルチエージェントミッションを実行することができる人間のようなエージェントを作成するAIの可能性を探究することを目的としている。
論文 参考訳(メタデータ) (2024-07-09T12:37:54Z) - CoMM: Collaborative Multi-Agent, Multi-Reasoning-Path Prompting for Complex Problem Solving [9.446546965008249]
協調型マルチエージェント・マルチレゾニングパス(CoMM)プロンプトフレームワークを提案する。
具体的には、LLMが問題解決チームで異なる役割を演じるように促し、異なるロールプレイエージェントが目的のタスクを協調的に解決するように促します。
2つの大学レベルの科学問題に対する提案手法の有効性を実証した。
論文 参考訳(メタデータ) (2024-04-26T23:29:12Z) - AntEval: Evaluation of Social Interaction Competencies in LLM-Driven
Agents [65.16893197330589]
大規模言語モデル(LLM)は、幅広いシナリオで人間の振る舞いを再現する能力を示した。
しかし、複雑なマルチ文字のソーシャルインタラクションを扱う能力については、まだ完全には研究されていない。
本稿では,新しいインタラクションフレームワークと評価手法を含むマルチエージェントインタラクション評価フレームワーク(AntEval)を紹介する。
論文 参考訳(メタデータ) (2024-01-12T11:18:00Z) - MAgIC: Investigation of Large Language Model Powered Multi-Agent in
Cognition, Adaptability, Rationality and Collaboration [102.41118020705876]
大規模言語モデル(LLM)は自然言語処理の分野で大きな進歩を遂げている。
アプリケーションがマルチエージェント環境に拡張されるにつれ、包括的な評価フレームワークの必要性が高まっている。
この研究は、マルチエージェント設定内でLLMを評価するために特別に設計された新しいベンチマークフレームワークを導入している。
論文 参考訳(メタデータ) (2023-11-14T21:46:27Z) - Multi-Agent Consensus Seeking via Large Language Models [6.922356864800498]
大規模言語モデル(LLM)によって駆動されるマルチエージェントシステムは、複雑なタスクを協調的に解決する有望な能力を示している。
この研究は、マルチエージェントコラボレーションにおける根本的な問題であるコンセンサス探索について考察する。
論文 参考訳(メタデータ) (2023-10-31T03:37:11Z) - MindAgent: Emergent Gaming Interaction [103.73707345211892]
大規模言語モデル(LLM)は、マルチエージェントシステムで複雑なスケジューリングを行う能力を持つ。
我々はMindAgentを提案し,ゲームインタラクションにおける創発的能力の評価・調整を行う。
論文 参考訳(メタデータ) (2023-09-18T17:52:22Z) - AgentVerse: Facilitating Multi-Agent Collaboration and Exploring
Emergent Behaviors [93.38830440346783]
本稿では,その構成をより高機能なシステムとして協調的に調整できるマルチエージェントフレームワークを提案する。
実験により,フレームワークが単一エージェントより優れたマルチエージェントグループを効果的に展開できることが実証された。
これらの振舞いの観点から、我々は、ポジティブなものを活用し、ネガティブなものを緩和し、マルチエージェントグループの協調可能性を改善するためのいくつかの戦略について議論する。
論文 参考訳(メタデータ) (2023-08-21T16:47:11Z) - Building Cooperative Embodied Agents Modularly with Large Language
Models [104.57849816689559]
本研究では, 分散制御, 生の知覚観察, コストのかかるコミュニケーション, 様々な実施環境下でインスタンス化された多目的タスクといった課題に対処する。
我々は,LLMの常識知識,推論能力,言語理解,テキスト生成能力を活用し,認知に触発されたモジュラーフレームワークにシームレスに組み込む。
C-WAH と TDW-MAT を用いた実験により, GPT-4 で駆動される CoELA が, 強い計画に基づく手法を超越し, 創発的な効果的なコミュニケーションを示すことを示した。
論文 参考訳(メタデータ) (2023-07-05T17:59:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。