論文の概要: How Far Can LLMs Emulate Human Behavior?: A Strategic Analysis via the Buy-and-Sell Negotiation Game
- arxiv url: http://arxiv.org/abs/2511.17990v1
- Date: Sat, 22 Nov 2025 09:07:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-25 18:34:24.574609
- Title: How Far Can LLMs Emulate Human Behavior?: A Strategic Analysis via the Buy-and-Sell Negotiation Game
- Title(参考訳): LLMはどこまで人間の振舞いをエミュレートできるか:購入・販売ネゴシエーションゲームによる戦略的分析
- Authors: Mingyu Jeon, Jaeyoung Suh, Suwan Cho, Dohyeon Kim,
- Abstract要約: 大規模言語モデル(LLM)の人間の感情的・行動的模倣と戦略的意思決定能力を定量的に評価する手法を提案する。
具体的には、複数のLLMに異なるペルソナを割り当て、バイヤーとセラーの交渉を行い、勝利率、取引価格、SHAP値などの結果を包括的に分析する。
実験の結果,既存のベンチマークスコアが高いモデルでは,全体の交渉性能が向上することが示された。
- 参考スコア(独自算出の注目度): 0.8353024005684598
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: With the rapid advancement of Large Language Models (LLMs), recent studies have drawn attention to their potential for handling not only simple question-answer tasks but also more complex conversational abilities and performing human-like behavioral imitations. In particular, there is considerable interest in how accurately LLMs can reproduce real human emotions and behaviors, as well as whether such reproductions can function effectively in real-world scenarios. However, existing benchmarks focus primarily on knowledge-based assessment and thus fall short of sufficiently reflecting social interactions and strategic dialogue capabilities. To address these limitations, this work proposes a methodology to quantitatively evaluate the human emotional and behavioral imitation and strategic decision-making capabilities of LLMs by employing a Buy and Sell negotiation simulation. Specifically, we assign different personas to multiple LLMs and conduct negotiations between a Buyer and a Seller, comprehensively analyzing outcomes such as win rates, transaction prices, and SHAP values. Our experimental results show that models with higher existing benchmark scores tend to achieve better negotiation performance overall, although some models exhibit diminished performance in scenarios emphasizing emotional or social contexts. Moreover, competitive and cunning traits prove more advantageous for negotiation outcomes than altruistic and cooperative traits, suggesting that the assigned persona can lead to significant variations in negotiation strategies and results. Consequently, this study introduces a new evaluation approach for LLMs' social behavior imitation and dialogue strategies, and demonstrates how negotiation simulations can serve as a meaningful complementary metric to measure real-world interaction capabilities-an aspect often overlooked in existing benchmarks.
- Abstract(参考訳): LLM(Large Language Models)の急速な進歩に伴い、最近の研究は、単純な質問応答タスクだけでなく、より複雑な会話能力や人間のような行動模倣を行う可能性に注意を向けている。
特に、LLMが実際の人間の感情や行動をいかに正確に再現できるか、そしてそのような再現が現実のシナリオで効果的に機能するかに、かなりの関心がある。
しかし、既存のベンチマークは主に知識に基づく評価に焦点を当てており、社会的相互作用や戦略的対話能力を十分に反映していない。
これらの制約に対処するために,Buy and Sell の交渉シミュレーションを用いて,LLMの人間の感情的・行動的模倣と戦略的意思決定能力を定量的に評価する手法を提案する。
具体的には、複数のLLMに異なるペルソナを割り当て、バイヤーとセラーの交渉を行い、勝利率、取引価格、SHAP値などの結果を包括的に分析する。
実験の結果,既存のベンチマークスコアが高いモデルでは全体の交渉性能が向上する傾向にあるが,情緒的・社会的文脈を重視したシナリオでは,性能が低下しているモデルもある。
さらに, 競争的・不合理な特徴は利他的・協力的な特徴よりも交渉結果に有利であることが示され, 与えられたペルソナが交渉戦略や結果に大きな変化をもたらす可能性が示唆された。
そこで本研究では, LLMの社会的行動模倣と対話戦略に対する新たな評価手法を導入し, 交渉シミュレーションが実世界の対話能力を測定する上で, 意味のある相補的指標として機能することを示す。
関連論文リスト
- Strategic Tradeoffs Between Humans and AI in Multi-Agent Bargaining [6.455342700410145]
我々は,人間,大言語モデル,ベイズエージェントの動的交渉条件における結果と行動力学を比較した。
パフォーマンスの同等性は、プロセスとアライメントの根本的な違いを隠蔽する可能性がある。
この研究は、より応用され、変数リッチな環境における将来の研究のベースラインを提供する。
論文 参考訳(メタデータ) (2025-09-11T00:25:07Z) - EvoEmo: Towards Evolved Emotional Policies for Adversarial LLM Agents in Multi-Turn Price Negotiation [61.627248012799704]
既存のLarge Language Models (LLM)エージェントは、そのような交渉における感情の機能的役割をほとんど見落としている。
本稿では,交渉における動的感情表現を最適化する進化的強化学習フレームワークであるEvoEmoを紹介する。
論文 参考訳(メタデータ) (2025-09-04T15:23:58Z) - Reproducibility Study of Cooperation, Competition, and Maliciousness: LLM-Stakeholders Interactive Negotiation [0.0]
様々なオープンウェイトモデルを用いて,元の知見を検証した。
本稿では,エージェント間相互作用を伴わずに交渉を成功させるかどうかを検証するためのコミュニケーションフリーのベースラインを提案する。
この研究は、LLMベースの交渉システムのアクセシビリティ、公正性、環境への影響、およびプライバシーに関する考察も提供する。
論文 参考訳(メタデータ) (2025-02-22T14:28:49Z) - Word Synchronization Challenge: A Benchmark for Word Association Responses for LLMs [4.352318127577628]
本稿では,人-コンピュータインタラクション(HCI)における大規模言語モデル(LLM)を評価するための新しいベンチマークであるWord Synchronization Challengeを紹介する。
このベンチマークでは、動的ゲームライクなフレームワークを使用して、単語アソシエーションを通じて人間の認知プロセスを模倣するLLMの能力をテストする。
論文 参考訳(メタデータ) (2025-02-12T11:30:28Z) - PersLLM: A Personified Training Approach for Large Language Models [66.16513246245401]
データ構築とモデルチューニングを改善するためのフレームワークPersLLMを提案する。
データ利用が不十分な場合には、Chain-of-Thoughtプロンプトやアンチインダクションといった戦略を取り入れます。
厳密な振舞いパターンを設計し,モデルの性格の特異性とダイナミズムを高めるために自動DPOを導入する。
論文 参考訳(メタデータ) (2024-07-17T08:13:22Z) - Are LLMs Effective Negotiators? Systematic Evaluation of the Multifaceted Capabilities of LLMs in Negotiation Dialogues [4.738985706520995]
本研究の目的は,多様な対話シナリオにまたがるLLMの多面的特徴を体系的に解析することである。
本分析では,GPT-4の課題を特定しながら,多くのタスクにおいて優れた性能を示す。
論文 参考訳(メタデータ) (2024-02-21T06:11:03Z) - AntEval: Evaluation of Social Interaction Competencies in LLM-Driven
Agents [65.16893197330589]
大規模言語モデル(LLM)は、幅広いシナリオで人間の振る舞いを再現する能力を示した。
しかし、複雑なマルチ文字のソーシャルインタラクションを扱う能力については、まだ完全には研究されていない。
本稿では,新しいインタラクションフレームワークと評価手法を含むマルチエージェントインタラクション評価フレームワーク(AntEval)を紹介する。
論文 参考訳(メタデータ) (2024-01-12T11:18:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。