論文の概要: LLM-Deliberation: Evaluating LLMs with Interactive Multi-Agent
Negotiation Games
- arxiv url: http://arxiv.org/abs/2309.17234v1
- Date: Fri, 29 Sep 2023 13:33:06 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-02 13:43:15.004833
- Title: LLM-Deliberation: Evaluating LLMs with Interactive Multi-Agent
Negotiation Games
- Title(参考訳): LLM-Deliberation:対話型マルチエージェントネゴシエーションゲームを用いたLLMの評価
- Authors: Sahar Abdelnabi, Amr Gomaa, Sarath Sivaprasad, Lea Sch\"onherr, Mario
Fritz
- Abstract要約: 本稿では,大規模言語モデルのための新たな評価フレームワークとして交渉ゲームを提案する。
我々は、エージェントが交渉し、常に成功する取引に到達できることを示します。
これらのゲームは、グリーディと敵プレイヤーの存在下でのエージェント間の相互作用のダイナミクスなど、他の重要な側面を評価するのに役立つ。
- 参考スコア(独自算出の注目度): 53.927705340086334
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: There is a growing interest in using Large Language Models (LLMs) as agents
to tackle real-world tasks that may require assessing complex situations. Yet,
we have a limited understanding of LLMs' reasoning and decision-making
capabilities, partly stemming from a lack of dedicated evaluation benchmarks.
As negotiating and compromising are key aspects of our everyday communication
and collaboration, we propose using scorable negotiation games as a new
evaluation framework for LLMs. We create a testbed of diverse text-based,
multi-agent, multi-issue, semantically rich negotiation games, with easily
tunable difficulty. To solve the challenge, agents need to have strong
arithmetic, inference, exploration, and planning capabilities, while seamlessly
integrating them. Via a systematic zero-shot Chain-of-Thought prompting (CoT),
we show that agents can negotiate and consistently reach successful deals. We
quantify the performance with multiple metrics and observe a large gap between
GPT-4 and earlier models. Importantly, we test the generalization to new games
and setups. Finally, we show that these games can help evaluate other critical
aspects, such as the interaction dynamics between agents in the presence of
greedy and adversarial players.
- Abstract(参考訳): 複雑な状況の評価を必要とする現実的なタスクに取り組むエージェントとして,LLM(Large Language Models)の使用に対する関心が高まっている。
しかし、私たちはLSMの推論と意思決定能力について限定的な理解をしており、部分的には専用の評価ベンチマークの欠如から生じている。
日常的なコミュニケーションやコラボレーションにおいて,交渉や妥協が重要な側面であるので,LLMの新たな評価フレームワークとしてスコーラブルネゴシエーションゲームを提案する。
多様なテキストベース,マルチエージェント,マルチイシュー,セマンティックにリッチなネゴシエーションゲームによるテストベッドを,容易に調整可能な難易度で作成する。
この課題を解決するには、エージェントはシームレスに統合しながら、強力な算術、推論、探索、計画能力を持つ必要がある。
組織的なゼロショットの連鎖促進(CoT)によって、エージェントが交渉し、常に成功する取引に到達できることが示される。
複数のメトリクスで性能を定量化し、GPT-4とそれ以前のモデルの間の大きなギャップを観察する。
重要なのは、新しいゲームやセットアップへの一般化をテストすることです。
最後に、これらのゲームは、欲望と敵プレイヤーの存在下でのエージェント間の相互作用ダイナミクスなど、他の重要な側面を評価するのに役立ちます。
関連論文リスト
- Are LLMs Effective Negotiators? Systematic Evaluation of the
Multifaceted Capabilities of LLMs in Negotiation Dialogues [5.021504231639885]
LLMは、対話システムの設計から教育的なフィードバックの提供、データ収集のプラクティスのスケールアップに至るまで、交渉研究のさまざまな側面を前進させることができる。
本分析は, GPT-4の諸課題における優位性の増大を裏付けるものである。
例えば、交渉対話に関する主観的な評価を行うとき、モデルは人間のプレイヤーとあまり相関しない。
論文 参考訳(メタデータ) (2024-02-21T06:11:03Z) - How Well Can LLMs Negotiate? NegotiationArena Platform and Analysis [50.15061156253347]
人間は自動車の価格から共通の資源の共有方法まで、あらゆることを交渉する。
大規模言語モデル(LLM)を人間の代理エージェントとして使うことへの関心が急速に高まっているため、そのようなLLMエージェントも交渉できる必要がある。
我々は,LLMエージェントの交渉能力を評価し,検証するためのフレキシブルなフレームワークであるNegotiationArenaを開発した。
論文 参考訳(メタデータ) (2024-02-08T17:51:48Z) - Evaluating Language Model Agency through Negotiations [41.87206983126212]
言語モデル(LM)は、自律性を高めてタスクを実行するためにますます使われています。
交渉ゲームにおけるレンズによるLM性能の評価とアライメントを提案する。
我々は,様々なネゴシエーションゲームにおいて,公にアクセスできる6つのLMの結果を報告し,セルフプレイとクロスプレイのパフォーマンスを評価した。
論文 参考訳(メタデータ) (2024-01-09T13:19:37Z) - MAgIC: Investigation of Large Language Model Powered Multi-Agent in
Cognition, Adaptability, Rationality and Collaboration [102.41118020705876]
大規模言語モデル(LLM)は自然言語処理の分野で大きな進歩を遂げている。
アプリケーションがマルチエージェント環境に拡張されるにつれ、包括的な評価フレームワークの必要性が高まっている。
この研究は、マルチエージェント設定内でLLMを評価するために特別に設計された新しいベンチマークフレームワークを導入している。
論文 参考訳(メタデータ) (2023-11-14T21:46:27Z) - Leveraging Word Guessing Games to Assess the Intelligence of Large
Language Models [105.39236338147715]
この論文は人気のある言語ゲーム『Who is Spy』にインスパイアされている。
本研究は,LEMの表現と変形能力を評価するためのDEEPを開発する。
次に、インタラクティブなマルチエージェントフレームワークであるSpyGameを紹介します。
論文 参考訳(メタデータ) (2023-10-31T14:37:42Z) - Multi-Agent Consensus Seeking via Large Language Models [6.922356864800498]
大規模言語モデル(LLM)によって駆動されるマルチエージェントシステムは、複雑なタスクを協調的に解決する有望な能力を示している。
この研究は、マルチエージェントコラボレーションにおける根本的な問題であるコンセンサス探索について考察する。
論文 参考訳(メタデータ) (2023-10-31T03:37:11Z) - MindAgent: Emergent Gaming Interaction [103.73707345211892]
大規模言語モデル(LLM)は、マルチエージェントシステムで複雑なスケジューリングを行う能力を持つ。
我々はMindAgentを提案し,ゲームインタラクションにおける創発的能力の評価・調整を行う。
論文 参考訳(メタデータ) (2023-09-18T17:52:22Z) - Encouraging Divergent Thinking in Large Language Models through
Multi-Agent Debate [56.23037393834715]
複数のエージェントが"tit for tat"の状態で議論を表現するマルチエージェント議論(MAD)フレームワークを提案し、審査員が議論プロセスを管理して最終解を得る。
我々のフレームワークは、深い熟考を必要とするタスクに役立ちそうなLSMにおける散発的思考を奨励する。
論文 参考訳(メタデータ) (2023-05-30T15:25:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。