論文の概要: Evaluating LLM-Simulated Conversations in Modeling Inconsistent and Uncollaborative Behaviors in Human Social Interaction
- arxiv url: http://arxiv.org/abs/2603.17094v1
- Date: Tue, 17 Mar 2026 19:29:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-19 18:32:57.371724
- Title: Evaluating LLM-Simulated Conversations in Modeling Inconsistent and Uncollaborative Behaviors in Human Social Interaction
- Title(参考訳): 社会的相互作用における不整合・非協調行動のモデル化におけるLLM-Simulated Conversationsの評価
- Authors: Ryo Kamoi, Ameya Godbole, Longqi Yang, Rui Zhang, Mengting Wan, Pei Zhou,
- Abstract要約: 大規模言語モデル(LLM)を用いた人間の会話のシミュレーションは、人間の社会的相互作用をモデル化するためのスケーラブルな方法論として登場した。
本研究では,10種類の不整合・非協調行動を検出することで,LLMシミュレーション会話を解析する評価フレームワークCoCoEvalを紹介する。
我々の分析では、バニラ刺激下では、LLMシミュレーションによる会話は人間の会話よりも一貫性がなく、協調的でない行動がはるかに少ないことが示された。
- 参考スコア(独自算出の注目度): 21.123771789383323
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Simulating human conversations using large language models (LLMs) has emerged as a scalable methodology for modeling human social interaction. However, simulating human conversations is challenging because they inherently involve inconsistent and uncollaborative behaviors, such as misunderstandings and interruptions. Analysis comparing inconsistent and uncollaborative behaviors in human- and LLM-generated conversations remains limited, although reproducing these behaviors is integral to simulating human-like and complex social interaction. In this work, we introduce CoCoEval, an evaluation framework that analyzes LLM-simulated conversations by detecting 10 types of inconsistent and uncollaborative behaviors at the turn level using an LLM-as-a-Judge. Using CoCoEval, we evaluate GPT-4.1, GPT-5.1, and Claude Opus 4 by comparing the frequencies of detected behaviors in conversations simulated by each model and in human conversations across academic, business, and governmental meetings, as well as debates. Our analysis shows that (1) under vanilla prompting, LLM-simulated conversations exhibit far fewer inconsistent and uncollaborative behaviors than human conversations; (2) prompt engineering does not provide reliable control over these behaviors, as our results show that different prompts lead to their under- or overproduction; and (3) supervised fine-tuning on human conversations can lead LLMs to overproduce a narrow set of behaviors, such as repetition. Our findings highlight the difficulty of simulating human conversations, raising concerns about the use of LLMs as a proxy for human social interaction.
- Abstract(参考訳): 大規模言語モデル(LLM)を用いた人間の会話のシミュレーションは、人間の社会的相互作用をモデル化するためのスケーラブルな方法論として登場した。
しかし、人間の会話をシミュレートすることは、誤解や中断といった非一貫性と非協調的な行動が本質的に関係しているため、困難である。
人間とLLMが生み出す会話における一貫性のない行動と非協調的な行動の比較は依然として限定的であるが、これらの行動の再現は人間のような複雑な社会的相互作用をシミュレートするのに不可欠である。
本研究では,LLM-as-a-Judgeを用いて10種類の不整合・非協調行動を検出することで,LLMシミュレーション会話を解析する評価フレームワークであるCoCoEvalを紹介する。
CoCoEvalを用いて,GPT-4.1,GPT-5.1,Claude Opus 4の評価を行った。
分析の結果,(1)バニラ・プロンプト下では,LLMを模擬した会話は人間の会話よりも一貫性や非協調的な行動がはるかに少ないこと,(2)プロンプト工学がこれらの行動に対する信頼性の高い制御を提供していないこと,(3)人間の会話を監督する微調整が,反復などの狭い行動の過剰生産につながることが示唆された。
本研究は,人間の会話をシミュレーションすることの難しさを浮き彫りにした。
関連論文リスト
- Can LLMs Truly Embody Human Personality? Analyzing AI and Human Behavior Alignment in Dispute Resolution [7.599497643290519]
大規模言語モデル (LLMs) は、社会的環境における人間の振る舞いをシミュレートするためにますます使われている。
これらのシミュレーションがヒトで観察される性格行動パターンを再現するかどうかは不明である。
論文 参考訳(メタデータ) (2026-02-07T07:20:24Z) - Emulating Aggregate Human Choice Behavior and Biases with GPT Conversational Agents [0.48439699124726004]
大規模言語モデル(LLM)は、よく知られたバイアスを再現することが示されている。
我々は,3つの確立された意思決定シナリオを会話環境に適応させ,人間の実験を行った。
人間の行動をどのように整合させるかという点において,モデル間に顕著な違いが認められた。
論文 参考訳(メタデータ) (2026-02-05T12:33:05Z) - Consistently Simulating Human Personas with Multi-Turn Reinforcement Learning [52.07170679746533]
大規模言語モデル(LLM)は、セラピー、教育、社会的役割プレイといったインタラクティブな環境において、人間のユーザをシミュレートするためにますます使われています。
LLM生成対話におけるペルソナの一貫性の評価と改善のための統一的なフレームワークを提案する。
我々は3つの自動メトリクス、即行一貫性、行間一貫性、Q&A一貫性を定義し、異なるタイプのペルソナドリフトをキャプチャし、それぞれが人間のアノテーションに対して検証する。
論文 参考訳(メタデータ) (2025-10-31T19:40:41Z) - TwinVoice: A Multi-dimensional Benchmark Towards Digital Twins via LLM Persona Simulation [55.55404595177229]
大型言語モデル(LLM)は、人間のような能力を示す。
TwinVoiceは、さまざまな現実世界のコンテキストにわたるペルソナシミュレーションを評価するためのベンチマークである。
論文 参考訳(メタデータ) (2025-10-29T14:00:42Z) - Social Simulations with Large Language Model Risk Utopian Illusion [61.358959720048354]
社会シミュレーションにおける大規模言語モデルの行動分析のための体系的枠組みを提案する。
本手法は,チャットルーム型会話を通してマルチエージェントインタラクションをシミュレートし,5つの言語的側面にわたって解析する。
以上の結果から,LSMは真の人間の行動を忠実に再現するのではなく,過度に理想化されたバージョンを反映していることが明らかとなった。
論文 参考訳(メタデータ) (2025-10-24T06:08:41Z) - How large language models judge and influence human cooperation [82.07571393247476]
我々は、最先端の言語モデルが協調行動をどのように判断するかを評価する。
我々は、善良な相手との協力を評価する際、顕著な合意を守ります。
モデル間の差異が協調の頻度に大きく影響を及ぼすことを示す。
論文 参考訳(メタデータ) (2025-06-30T09:14:42Z) - SocialEval: Evaluating Social Intelligence of Large Language Models [70.90981021629021]
ソーシャルインテリジェンス(英語版) (SI) は、社会的目標を達成するために社会的相互作用をナビゲートする際に賢明に行動する対人能力を持つ人間を装備する。
結果指向の目標達成評価とプロセス指向の対人能力評価という,運用評価パラダイムを提示する。
スクリプトベースのバイリンガルSIベンチマークであるSocialEvalを提案する。
論文 参考訳(メタデータ) (2025-06-01T08:36:51Z) - Word Synchronization Challenge: A Benchmark for Word Association Responses for LLMs [4.352318127577628]
本稿では,人-コンピュータインタラクション(HCI)における大規模言語モデル(LLM)を評価するための新しいベンチマークであるWord Synchronization Challengeを紹介する。
このベンチマークでは、動的ゲームライクなフレームワークを使用して、単語アソシエーションを通じて人間の認知プロセスを模倣するLLMの能力をテストする。
論文 参考訳(メタデータ) (2025-02-12T11:30:28Z) - The Machine Psychology of Cooperation: Can GPT models operationalise prompts for altruism, cooperation, competitiveness and selfishness in economic games? [0.0]
GPT-3.5大言語モデル(LLM)を用いて,協調的,競争的,利他的,利己的行動の自然言語記述を操作可能とした。
被験者と実験心理学研究で用いられるのと同様のプロトコルを用いて,課題環境を記述するためのプロンプトを用いた。
この結果から,LLM が様々な協調姿勢の自然言語記述を適切な作業行動の記述にある程度翻訳できることが示唆された。
論文 参考訳(メタデータ) (2023-05-13T17:23:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。