Fugu-MT 論文翻訳(概要): LLM-Deliberation: Evaluating LLMs with Interactive Multi-Agent Negotiation Games

論文の概要: LLM-Deliberation: Evaluating LLMs with Interactive Multi-Agent Negotiation Games

arxiv url: http://arxiv.org/abs/2309.17234v1
Date: Fri, 29 Sep 2023 13:33:06 GMT
ステータス: 翻訳完了
システム内更新日: 2023-10-02 13:43:15.004833
Title: LLM-Deliberation: Evaluating LLMs with Interactive Multi-Agent Negotiation Games
Title（参考訳）: LLM-Deliberation:対話型マルチエージェントネゴシエーションゲームを用いたLLMの評価
Authors: Sahar Abdelnabi, Amr Gomaa, Sarath Sivaprasad, Lea Sch\"onherr, Mario Fritz
Abstract要約: 本稿では,大規模言語モデルのための新たな評価フレームワークとして交渉ゲームを提案する。我々は、エージェントが交渉し、常に成功する取引に到達できることを示します。これらのゲームは、グリーディと敵プレイヤーの存在下でのエージェント間の相互作用のダイナミクスなど、他の重要な側面を評価するのに役立つ。
参考スコア（独自算出の注目度）: 53.927705340086334
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: There is a growing interest in using Large Language Models (LLMs) as agents to tackle real-world tasks that may require assessing complex situations. Yet, we have a limited understanding of LLMs' reasoning and decision-making capabilities, partly stemming from a lack of dedicated evaluation benchmarks. As negotiating and compromising are key aspects of our everyday communication and collaboration, we propose using scorable negotiation games as a new evaluation framework for LLMs. We create a testbed of diverse text-based, multi-agent, multi-issue, semantically rich negotiation games, with easily tunable difficulty. To solve the challenge, agents need to have strong arithmetic, inference, exploration, and planning capabilities, while seamlessly integrating them. Via a systematic zero-shot Chain-of-Thought prompting (CoT), we show that agents can negotiate and consistently reach successful deals. We quantify the performance with multiple metrics and observe a large gap between GPT-4 and earlier models. Importantly, we test the generalization to new games and setups. Finally, we show that these games can help evaluate other critical aspects, such as the interaction dynamics between agents in the presence of greedy and adversarial players.
Abstract（参考訳）: 複雑な状況の評価を必要とする現実的なタスクに取り組むエージェントとして,LLM(Large Language Models)の使用に対する関心が高まっている。しかし、私たちはLSMの推論と意思決定能力について限定的な理解をしており、部分的には専用の評価ベンチマークの欠如から生じている。日常的なコミュニケーションやコラボレーションにおいて,交渉や妥協が重要な側面であるので,LLMの新たな評価フレームワークとしてスコーラブルネゴシエーションゲームを提案する。多様なテキストベース,マルチエージェント,マルチイシュー,セマンティックにリッチなネゴシエーションゲームによるテストベッドを,容易に調整可能な難易度で作成する。この課題を解決するには、エージェントはシームレスに統合しながら、強力な算術、推論、探索、計画能力を持つ必要がある。組織的なゼロショットの連鎖促進(CoT)によって、エージェントが交渉し、常に成功する取引に到達できることが示される。複数のメトリクスで性能を定量化し、GPT-4とそれ以前のモデルの間の大きなギャップを観察する。重要なのは、新しいゲームやセットアップへの一般化をテストすることです。最後に、これらのゲームは、欲望と敵プレイヤーの存在下でのエージェント間の相互作用ダイナミクスなど、他の重要な側面を評価するのに役立ちます。

関連論文リスト

Corrupted by Reasoning: Reasoning Language Models Become Free-Riders in Public Goods Games [87.5673042805229]
大規模言語モデルは、アライメント、堅牢性、安全なデプロイメントを保証する上で、いかに自己関心と集合的幸福のバランスをとるかが重要な課題である。我々は、行動経済学から制度的に選択した公共財ゲームに適応し、異なるLLMがいかに社会的ジレンマをナビゲートするかを観察することができる。意外なことに、o1シリーズのようなLCMの推論は、協調にかなり苦労している。
論文参考訳（メタデータ） (2025-06-29T15:02:47Z)
Beyond Single-Turn: A Survey on Multi-Turn Interactions with Large Language Models [8.08979200534563]
現実世界のアプリケーションは洗練されたマルチターンインタラクションを必要とする。大規模言語モデル(LLM)の最近の進歩は、シングルターンタスクを扱う能力に革命をもたらした。
論文参考訳（メタデータ） (2025-04-07T04:00:08Z)
MultiAgentBench: Evaluating the Collaboration and Competition of LLM agents [59.825725526176655]
大規模言語モデル(LLM)は、自律的なエージェントとして顕著な能力を示している。既存のベンチマークでは、単一エージェントタスクにフォーカスするか、狭いドメインに限定されており、マルチエージェントのコーディネーションと競合のダイナミクスを捉えていない。多様な対話シナリオにまたがってLLMベースのマルチエージェントシステムを評価するためのベンチマークであるMultiAgentBenchを紹介する。
論文参考訳（メタデータ） (2025-03-03T05:18:50Z)
COMMA: A Communicative Multimodal Multi-Agent Benchmark [7.831385481814481]
本稿では,言語コミュニケーションによるマルチモーダルマルチエージェントシステムの協調性能を評価するための新しいベンチマークを提案する。 GPT-4oのようなプロプライエタリなモデルを含む最先端モデルの驚くべき弱点が明らかになった。
論文参考訳（メタデータ） (2024-10-10T02:49:47Z)
BattleAgentBench: A Benchmark for Evaluating Cooperation and Competition Capabilities of Language Models in Multi-Agent Systems [15.159418172629701]
大規模言語モデル(LLM)はますます強力になり、複雑なタスクを処理できるようになる。シングルエージェントと比較して、マルチエージェントシステムは言語モデルの協調機能により高い要求がある。我々は,3つの難易度の7つのサブステージを定義したBattleAgentBenchというベンチマークを提案する。
論文参考訳（メタデータ） (2024-08-28T17:43:55Z)
Richelieu: Self-Evolving LLM-Based Agents for AI Diplomacy [24.521882655442187]
外交は、特に必要な交渉段階を考慮して、決定空間の停滞を伴う。従来のAIエージェントは、マルチエージェントタスクにおいて、マルチステップゲームと大きなアクションスペースを扱う能力を示した。我々は、包括的なマルチエージェントミッションを実行することができる人間のようなエージェントを作成するAIの可能性を探究することを目的としている。
論文参考訳（メタデータ） (2024-07-09T12:37:54Z)
CoMM: Collaborative Multi-Agent, Multi-Reasoning-Path Prompting for Complex Problem Solving [9.446546965008249]
協調型マルチエージェント・マルチレゾニングパス(CoMM)プロンプトフレームワークを提案する。具体的には、LLMが問題解決チームで異なる役割を演じるように促し、異なるロールプレイエージェントが目的のタスクを協調的に解決するように促します。 2つの大学レベルの科学問題に対する提案手法の有効性を実証した。
論文参考訳（メタデータ） (2024-04-26T23:29:12Z)
AntEval: Evaluation of Social Interaction Competencies in LLM-Driven Agents [65.16893197330589]
大規模言語モデル(LLM)は、幅広いシナリオで人間の振る舞いを再現する能力を示した。しかし、複雑なマルチ文字のソーシャルインタラクションを扱う能力については、まだ完全には研究されていない。本稿では,新しいインタラクションフレームワークと評価手法を含むマルチエージェントインタラクション評価フレームワーク(AntEval)を紹介する。
論文参考訳（メタデータ） (2024-01-12T11:18:00Z)
MAgIC: Investigation of Large Language Model Powered Multi-Agent in Cognition, Adaptability, Rationality and Collaboration [102.41118020705876]
大規模言語モデル(LLM)は自然言語処理の分野で大きな進歩を遂げている。アプリケーションがマルチエージェント環境に拡張されるにつれ、包括的な評価フレームワークの必要性が高まっている。この研究は、マルチエージェント設定内でLLMを評価するために特別に設計された新しいベンチマークフレームワークを導入している。
論文参考訳（メタデータ） (2023-11-14T21:46:27Z)
Multi-Agent Consensus Seeking via Large Language Models [6.922356864800498]
大規模言語モデル(LLM)によって駆動されるマルチエージェントシステムは、複雑なタスクを協調的に解決する有望な能力を示している。この研究は、マルチエージェントコラボレーションにおける根本的な問題であるコンセンサス探索について考察する。
論文参考訳（メタデータ） (2023-10-31T03:37:11Z)
MindAgent: Emergent Gaming Interaction [103.73707345211892]
大規模言語モデル(LLM)は、マルチエージェントシステムで複雑なスケジューリングを行う能力を持つ。我々はMindAgentを提案し,ゲームインタラクションにおける創発的能力の評価・調整を行う。
論文参考訳（メタデータ） (2023-09-18T17:52:22Z)
AgentVerse: Facilitating Multi-Agent Collaboration and Exploring Emergent Behaviors [93.38830440346783]
本稿では,その構成をより高機能なシステムとして協調的に調整できるマルチエージェントフレームワークを提案する。実験により,フレームワークが単一エージェントより優れたマルチエージェントグループを効果的に展開できることが実証された。これらの振舞いの観点から、我々は、ポジティブなものを活用し、ネガティブなものを緩和し、マルチエージェントグループの協調可能性を改善するためのいくつかの戦略について議論する。
論文参考訳（メタデータ） (2023-08-21T16:47:11Z)
Building Cooperative Embodied Agents Modularly with Large Language Models [104.57849816689559]
本研究では, 分散制御, 生の知覚観察, コストのかかるコミュニケーション, 様々な実施環境下でインスタンス化された多目的タスクといった課題に対処する。我々は,LLMの常識知識,推論能力,言語理解,テキスト生成能力を活用し,認知に触発されたモジュラーフレームワークにシームレスに組み込む。 C-WAH と TDW-MAT を用いた実験により, GPT-4 で駆動される CoELA が, 強い計画に基づく手法を超越し, 創発的な効果的なコミュニケーションを示すことを示した。
論文参考訳（メタデータ） (2023-07-05T17:59:27Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。