論文の概要: PieArena: Frontier Language Agents Achieve MBA-Level Negotiation Performance and Reveal Novel Behavioral Differences
- arxiv url: http://arxiv.org/abs/2602.05302v1
- Date: Thu, 05 Feb 2026 04:52:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-06 18:49:08.762629
- Title: PieArena: Frontier Language Agents Achieve MBA-Level Negotiation Performance and Reveal Novel Behavioral Differences
- Title(参考訳): PieArena: MBAレベルのネゴシエーション性能を向上するフロンティア言語エージェント
- Authors: Chris Zhu, Sasha Cui, Will Sanok Dufallo, Runzhi Jin, Zhen Xu, Linjun Zhang, Daylian Cain,
- Abstract要約: マルチエージェントインタラクションを基盤とした大規模ベンチマークベンチマークであるPieArenaを紹介する。
代表的フロンティアエージェントがビジネススクールの学生より優れるAGIレベルのパフォーマンスの体系的証拠を見出した。
- 参考スコア(独自算出の注目度): 13.759960839511807
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present an in-depth evaluation of LLMs' ability to negotiate, a central business task that requires strategic reasoning, theory of mind, and economic value creation. To do so, we introduce PieArena, a large-scale negotiation benchmark grounded in multi-agent interactions over realistic scenarios drawn from an MBA negotiation course at an elite business school. We find systematic evidence of AGI-level performance in which a representative frontier agent (GPT-5) matches or outperforms trained business-school students, despite a semester of general negotiation instruction and targeted coaching immediately prior to the task. We further study the effects of joint-intentionality agentic scaffolding and find asymmetric gains, with large improvements for mid- and lower-tier LMs and diminishing returns for frontier LMs. Beyond deal outcomes, PieArena provides a multi-dimensional negotiation behavioral profile, revealing novel cross-model heterogeneity, masked by deal-outcome-only benchmarks, in deception, computation accuracy, instruction compliance, and perceived reputation. Overall, our results suggest that frontier language agents are already intellectually and psychologically capable of deployment in high-stakes economic settings, but deficiencies in robustness and trustworthiness remain open challenges.
- Abstract(参考訳): 本稿では, LLMの交渉能力, 戦略的推論, 心の理論, 経済価値創造を必要とする中心的ビジネス課題について, 深く評価する。
そこで我々は,エリートビジネススクールのMBA交渉コースから引き出された現実的なシナリオに対するマルチエージェントインタラクションを基礎とした大規模評価ベンチマークであるPieArenaを紹介する。
AGIレベルのパフォーマンスの体系的証拠として,代表的フロンティアエージェント(GPT-5)が訓練されたビジネススクールの学生と一致したり,成績が良くなった。
さらに,中層および下層のLMに対して大きく改善され,フロンティアのLMに対するリターンが低下するなど,結合意図性エージェント足場の効果と非対称ゲインの発見について検討した。
取引結果以外にも、PieArenaは複数次元の交渉行動プロファイルを提供し、トランザクションアウトカムのみのベンチマークによって隠蔽された、新しいクロスモデル不均一性を、偽造、計算精度、命令コンプライアンス、認識された評価によって明らかにしている。
総じて,フロンティア言語エージェントは知的・心理的に高い経済環境に展開できるが,堅牢性や信頼性の欠如は未解決の課題である。
関連論文リスト
- How Far Can LLMs Emulate Human Behavior?: A Strategic Analysis via the Buy-and-Sell Negotiation Game [0.8353024005684598]
大規模言語モデル(LLM)の人間の感情的・行動的模倣と戦略的意思決定能力を定量的に評価する手法を提案する。
具体的には、複数のLLMに異なるペルソナを割り当て、バイヤーとセラーの交渉を行い、勝利率、取引価格、SHAP値などの結果を包括的に分析する。
実験の結果,既存のベンチマークスコアが高いモデルでは,全体の交渉性能が向上することが示された。
論文 参考訳(メタデータ) (2025-11-22T09:07:29Z) - EQ-Negotiator: Dynamic Emotional Personas Empower Small Language Models for Edge-Deployable Credit Negotiation [66.09161596959771]
小型言語モデル (SLM) は実用的な代替手段を提供するが、大規模言語モデル (LLM) と比較して大きな性能差がある。
本稿では,感情的ペルソナを用いて,この能力ギャップを橋渡しする新しいフレームワークであるEQ-Negotiatorを紹介する。
EQ-Negotiator を用いた 7B パラメータ言語モデルは,ベースライン LLM の 10 倍以上の大きさで,債務回復と交渉効率が向上することを示す。
論文 参考訳(メタデータ) (2025-11-05T11:25:07Z) - Strategic Tradeoffs Between Humans and AI in Multi-Agent Bargaining [6.455342700410145]
我々は,人間,大言語モデル,ベイズエージェントの動的交渉条件における結果と行動力学を比較した。
パフォーマンスの同等性は、プロセスとアライメントの根本的な違いを隠蔽する可能性がある。
この研究は、より応用され、変数リッチな環境における将来の研究のベースラインを提供する。
論文 参考訳(メタデータ) (2025-09-11T00:25:07Z) - CRMArena-Pro: Holistic Assessment of LLM Agents Across Diverse Business Scenarios and Interactions [85.88573535033406]
CRMArena-Proは、多種多様なプロフェッショナル環境でのLLMエージェントの総合的で現実的な評価のための新しいベンチマークである。
多様なペルソナと堅牢な機密性意識評価によって導かれるマルチターンインタラクションが組み込まれている。
実験によると、主要なLLMエージェントはCRMArena-Proで58%のシングルターン成功しか達成せず、パフォーマンスはマルチターン設定で約35%に大幅に低下している。
論文 参考訳(メタデータ) (2025-05-24T21:33:22Z) - EmoDebt: Bayesian-Optimized Emotional Intelligence for Strategic Agent-to-Agent Debt Recovery [65.30120701878582]
大規模言語モデル(LLM)エージェントは、負債収集のような感情に敏感なドメインの悪用に対して脆弱である。
EmoDebtは、ネゴシエーションにおける感情を表現するモデルの能力を、シーケンシャルな意思決定問題として再設計する感情インテリジェンスエンジンである。
EmoDebtは重要な戦略的堅牢性を実現し、非適応性と感情に依存しないベースラインを大幅に上回っている。
論文 参考訳(メタデータ) (2025-03-27T01:41:34Z) - Reproducibility Study of Cooperation, Competition, and Maliciousness: LLM-Stakeholders Interactive Negotiation [0.0]
様々なオープンウェイトモデルを用いて,元の知見を検証した。
本稿では,エージェント間相互作用を伴わずに交渉を成功させるかどうかを検証するためのコミュニケーションフリーのベースラインを提案する。
この研究は、LLMベースの交渉システムのアクセシビリティ、公正性、環境への影響、およびプライバシーに関する考察も提供する。
論文 参考訳(メタデータ) (2025-02-22T14:28:49Z) - LLMs with Personalities in Multi-issue Negotiation Games [2.186901738997927]
ゲーム理論の枠組みの中で,大規模言語モデル(LLM)の交渉能力を測定する。
高い開放性、良心、神経症は公正な傾向と関連している。
低一致性と低開放性は合理的な傾向と関連している。
論文 参考訳(メタデータ) (2024-05-08T17:51:53Z) - Assistive Large Language Model Agents for Socially-Aware Negotiation Dialogues [47.977032883078664]
我々は,ビジネス交渉における対話者を支援する大規模言語モデル(LLM)に基づく支援エージェントを開発する。
第3のLLMは、交渉結果を改善するための基準に違反した発話を書き換える仲介役として機能する。
3つの異なる交渉トピックにわたる交渉において,その効果を示すための実証的証拠を豊富に提供する。
論文 参考訳(メタデータ) (2024-01-29T09:07:40Z) - AgentBoard: An Analytical Evaluation Board of Multi-turn LLM Agents [74.16170899755281]
本稿では,LLMエージェントの分析的評価に適したオープンソース評価フレームワークであるAgentBoardを紹介する。
AgentBoardは、インクリメンタルな進歩と包括的な評価ツールキットをキャプチャする、きめ細かい進捗率のメトリクスを提供する。
これはLLMエージェントの能力と限界に光を当てるだけでなく、その性能の解釈可能性も最前線に広める。
論文 参考訳(メタデータ) (2024-01-24T01:51:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。