論文の概要: Evaluating Behavioral Alignment in Conflict Dialogue: A Multi-Dimensional Comparison of LLM Agents and Humans
- arxiv url: http://arxiv.org/abs/2509.16394v1
- Date: Fri, 19 Sep 2025 20:15:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-23 18:58:15.770053
- Title: Evaluating Behavioral Alignment in Conflict Dialogue: A Multi-Dimensional Comparison of LLM Agents and Humans
- Title(参考訳): 対立対話における行動アライメントの評価:LLMエージェントとヒトの多次元比較
- Authors: Deuksin Kwon, Kaleen Shrestha, Bin Han, Elena Hayoung Lee, Gale Lucas,
- Abstract要約: 大規模言語モデル(LLM)は、社会的に複雑でインタラクション駆動のタスクにますますデプロイされている。
本研究は,対立紛争解決における人格刺激型LDMの行動アライメントを評価する。
- 参考スコア(独自算出の注目度): 3.0760465083020345
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Models (LLMs) are increasingly deployed in socially complex, interaction-driven tasks, yet their ability to mirror human behavior in emotionally and strategically complex contexts remains underexplored. This study assesses the behavioral alignment of personality-prompted LLMs in adversarial dispute resolution by simulating multi-turn conflict dialogues that incorporate negotiation. Each LLM is guided by a matched Five-Factor personality profile to control for individual variation and enhance realism. We evaluate alignment across three dimensions: linguistic style, emotional expression (e.g., anger dynamics), and strategic behavior. GPT-4.1 achieves the closest alignment with humans in linguistic style and emotional dynamics, while Claude-3.7-Sonnet best reflects strategic behavior. Nonetheless, substantial alignment gaps persist. Our findings establish a benchmark for alignment between LLMs and humans in socially complex interactions, underscoring both the promise and the limitations of personality conditioning in dialogue modeling.
- Abstract(参考訳): 大規模言語モデル(LLM)は、社会的に複雑でインタラクション駆動のタスクにますますデプロイされているが、感情的かつ戦略的に複雑なコンテキストで人間の振る舞いを反映する能力は、まだ解明されていない。
本研究では,交渉を取り入れたマルチターン紛争対話をシミュレートすることにより,対立紛争解決における人格対応型LLMの行動アライメントを評価する。
各LSMは一致したFive-Factorパーソナリティプロファイルによってガイドされ、個々の変動を制御し、リアリズムを強化する。
我々は,言語的スタイル,感情表現(例えば,怒りのダイナミクス),戦略的行動の3つの側面のアライメントを評価する。
GPT-4.1は言語様式と感情力学において人間に最も近い配位を達成し、Claude-3.7-Sonnetは戦略的な振る舞いを最もよく反映している。
それでも、相当なアライメントギャップは持続する。
本研究は,対話モデルにおける人格条件付けの約束と限界を基礎として,社会的に複雑な相互作用におけるLLMと人間とのアライメントのベンチマークを確立した。
関連論文リスト
- Can LLMs Truly Embody Human Personality? Analyzing AI and Human Behavior Alignment in Dispute Resolution [7.599497643290519]
大規模言語モデル (LLMs) は、社会的環境における人間の振る舞いをシミュレートするためにますます使われている。
これらのシミュレーションがヒトで観察される性格行動パターンを再現するかどうかは不明である。
論文 参考訳(メタデータ) (2026-02-07T07:20:24Z) - Personality Expression Across Contexts: Linguistic and Behavioral Variation in LLM Agents [6.123697959900301]
本研究は, 同一の性格が, 4つの会話環境において, 言語的, 行動的, 感情的な結果にどのように寄与するかを検討する。
発見は、同じ特徴が社会的・情緒的な要求によって異なることを示唆している。
論文 参考訳(メタデータ) (2026-02-01T07:14:00Z) - GameTalk: Training LLMs for Strategic Conversation [51.29670609281524]
マルチターンインタラクションによる戦略的意思決定のために,LLMをトレーニングするフレームワークであるtextbfGameTalkを紹介した。
シングルターンの目的や静的アクション予測に焦点を当てた以前の作業とは異なり、私たちはLLMをトレーニングして、全会話にわたってグローバルな目的を最適化します。
本手法は, 推論, コーディネート, 対戦型モデリングの異なる側面を強調するために設計された, ますます複雑なゲーム群に対して評価する。
論文 参考訳(メタデータ) (2026-01-22T19:18:39Z) - Consistently Simulating Human Personas with Multi-Turn Reinforcement Learning [52.07170679746533]
大規模言語モデル(LLM)は、セラピー、教育、社会的役割プレイといったインタラクティブな環境において、人間のユーザをシミュレートするためにますます使われています。
LLM生成対話におけるペルソナの一貫性の評価と改善のための統一的なフレームワークを提案する。
我々は3つの自動メトリクス、即行一貫性、行間一貫性、Q&A一貫性を定義し、異なるタイプのペルソナドリフトをキャプチャし、それぞれが人間のアノテーションに対して検証する。
論文 参考訳(メタデータ) (2025-10-31T19:40:41Z) - TwinVoice: A Multi-dimensional Benchmark Towards Digital Twins via LLM Persona Simulation [55.55404595177229]
大型言語モデル(LLM)は、人間のような能力を示す。
TwinVoiceは、さまざまな現実世界のコンテキストにわたるペルソナシミュレーションを評価するためのベンチマークである。
論文 参考訳(メタデータ) (2025-10-29T14:00:42Z) - Social Simulations with Large Language Model Risk Utopian Illusion [61.358959720048354]
社会シミュレーションにおける大規模言語モデルの行動分析のための体系的枠組みを提案する。
本手法は,チャットルーム型会話を通してマルチエージェントインタラクションをシミュレートし,5つの言語的側面にわたって解析する。
以上の結果から,LSMは真の人間の行動を忠実に再現するのではなく,過度に理想化されたバージョンを反映していることが明らかとなった。
論文 参考訳(メタデータ) (2025-10-24T06:08:41Z) - How large language models judge and influence human cooperation [82.07571393247476]
我々は、最先端の言語モデルが協調行動をどのように判断するかを評価する。
我々は、善良な相手との協力を評価する際、顕著な合意を守ります。
モデル間の差異が協調の頻度に大きく影響を及ぼすことを示す。
論文 参考訳(メタデータ) (2025-06-30T09:14:42Z) - Can LLM Agents Maintain a Persona in Discourse? [3.286711575862228]
大規模言語モデル(LLM)は、教育、法律、医学など、様々な分野でその能力を利用する会話エージェントとして広く利用されている。
LLMは、しばしばコンテキストシフトの振る舞いを受け、一貫性と解釈可能なパーソナリティ整合性の相互作用が欠如する。
LLMはパーソナライズされた対話へと導くことができるが、その性格特性を維持する能力はモデルと談話設定の組み合わせによって大きく異なる。
論文 参考訳(メタデータ) (2025-02-17T14:36:39Z) - PersLLM: A Personified Training Approach for Large Language Models [66.16513246245401]
データ構築とモデルチューニングを改善するためのフレームワークPersLLMを提案する。
データ利用が不十分な場合には、Chain-of-Thoughtプロンプトやアンチインダクションといった戦略を取り入れます。
厳密な振舞いパターンを設計し,モデルの性格の特異性とダイナミズムを高めるために自動DPOを導入する。
論文 参考訳(メタデータ) (2024-07-17T08:13:22Z) - The Good, the Bad, and the Hulk-like GPT: Analyzing Emotional Decisions of Large Language Models in Cooperation and Bargaining Games [9.82711167146543]
本稿では,Large Language Models (LLMs) の意思決定に関する新しい方法論を紹介する。
感情がLLMのパフォーマンスに大きく影響を与え、より最適な戦略の開発につながることを示す。
驚くべきことに、感情的な刺激、特に怒りの感情は、GPT-4の「超人的」アライメントを妨害する可能性がある。
論文 参考訳(メタデータ) (2024-06-05T14:08:54Z) - Human vs. Machine: Behavioral Differences Between Expert Humans and Language Models in Wargame Simulations [1.6108153271585284]
大規模言語モデル(LLM)は、高い軍事的意思決定シナリオにおいて、人間と異なる振る舞いを示す。
当社の結果は、自律性を認める前に政策立案者が慎重であること、あるいはAIベースの戦略レコメンデーションに従うことを動機付けています。
論文 参考訳(メタデータ) (2024-03-06T02:23:32Z) - LLM Agents in Interaction: Measuring Personality Consistency and
Linguistic Alignment in Interacting Populations of Large Language Models [4.706971067968811]
簡単な変数誘導サンプリングアルゴリズムを用いて,大規模言語モデル (LLM) エージェントの2群集団を作成する。
人格検査を行ない、共同作業にエージェントを提出し、異なるプロファイルが会話相手に対して異なるレベルの人格整合性および言語的整合性を示すことを確認する。
論文 参考訳(メタデータ) (2024-02-05T11:05:20Z) - Revisiting the Reliability of Psychological Scales on Large Language Models [62.57981196992073]
本研究の目的は,大規模言語モデルにパーソナリティアセスメントを適用することの信頼性を明らかにすることである。
GPT-3.5、GPT-4、Gemini-Pro、LLaMA-3.1などのモデル毎の2,500設定の分析により、様々なLCMがビッグファイブインベントリに応答して一貫性を示すことが明らかになった。
論文 参考訳(メタデータ) (2023-05-31T15:03:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。