論文の概要: The Hidden Puppet Master: A Theoretical and Real-World Account of Emotional Manipulation in LLMs
- arxiv url: http://arxiv.org/abs/2603.20907v1
- Date: Sat, 21 Mar 2026 18:37:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-24 19:11:39.144472
- Title: The Hidden Puppet Master: A Theoretical and Real-World Account of Emotional Manipulation in LLMs
- Title(参考訳): 隠れたPuppetマスター:LLMにおける感情操作の理論的および実世界的考察
- Authors: Jocelyn Shen, Amina Luvsanchultem, Jessica Kim, Kynnedy Smith, Valdemar Danry, Kantwon Rogers, Sharifa Alghowinem, Hae Won Park, Maarten Sap, Cynthia Breazeal,
- Abstract要約: LLM-人文対話におけるパーソナライズされた感情操作の理論的分類法であるPUPPETを紹介する。
我々は,N=1,035人の参加者とともに,現実的な日常的な質問に対して人間による研究を行う。
有害な隠されたインセンティブは、社会的なインセンティブよりもはるかに大きな信念シフトをもたらす。
- 参考スコア(独自算出の注目度): 32.462114531317674
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: As users increasingly turn to LLMs for practical and personal advice, they become vulnerable to being subtly steered toward hidden incentives misaligned with their own interests. Prior works have benchmarked persuasion and manipulation detection, but these efforts rely on simulated or debate-style settings, remain uncorrelated with real human belief shifts, and overlook a critical dimension: the morality of hidden incentives driving the manipulation. We introduce PUPPET, a theoretical taxonomy of personalized emotional manipulation in LLM-human dialogues that centers around incentive morality, and conduct a human study with N=1,035 participants across realistic everyday queries, varying personalization and incentive direction (harmful versus prosocial). We find that harmful hidden incentives produce significantly larger belief shifts than prosocial ones. Finally, we benchmark LLMs on the task of belief prediction, finding that models exhibit moderate predictive ability of belief change based on conversational contexts (r=0.3 - 0.5), but they also systematically underestimate the magnitude of belief shift. Together, this work establishes a theoretically grounded and behaviorally validated foundation for studying, and ultimately combatting, incentive-driven manipulation in LLMs during everyday, practical user queries.
- Abstract(参考訳): ユーザーが実用的、個人的アドバイスのためにLSMsに目を向けるにつれて、彼らは自分の興味に合わない隠されたインセンティブに対して微妙に支配されるのに脆弱になる。
以前の研究では、説得と操作の検出のベンチマークが行われていたが、これらの取り組みはシミュレーションや議論のような設定に依存しており、実際の人間の信念の変化とは無関係であり、操作を駆動する隠されたインセンティブの道徳性を見落としている。
動機づけのモラルを中心にしたLLM-人文対話におけるパーソナライズされた感情操作の理論的分類法であるPUPPETを導入し,N=1,035人の被験者を対象に,現実的な日常的クエリ,パーソナライゼーションの多様性,インセンティブの方向性(有害対社会的)について人間による研究を行った。
有害な隠されたインセンティブは、社会的なインセンティブよりもはるかに大きな信念シフトをもたらす。
最後に,LLMを信念予測のタスクに基づいてベンチマークし,会話の文脈(r=0.3 - 0.5)に基づく信念変化の適度な予測能力を示すモデルを見出した。
本研究は,LLMの日常的,実践的なユーザクエリにおいて,理論的に基礎的かつ行動学的に検証された基礎を確立し,最終的にはインセンティブ駆動的な操作に対処する。
関連論文リスト
- Social Simulations with Large Language Model Risk Utopian Illusion [61.358959720048354]
社会シミュレーションにおける大規模言語モデルの行動分析のための体系的枠組みを提案する。
本手法は,チャットルーム型会話を通してマルチエージェントインタラクションをシミュレートし,5つの言語的側面にわたって解析する。
以上の結果から,LSMは真の人間の行動を忠実に再現するのではなく,過度に理想化されたバージョンを反映していることが明らかとなった。
論文 参考訳(メタデータ) (2025-10-24T06:08:41Z) - Are Large Language Models Sensitive to the Motives Behind Communication? [9.246336669308665]
大規模言語モデル(LLM)とAIエージェントは、人間の意図とインセンティブによって本質的にフレーム化された情報を処理する。
LLMが現実世界で有効であるためには、ソースのモチベーションを要因としてコンテンツの評価を批判的に行う必要がある。
我々は認知科学から制御された実験を用いて、LCMの行動が動機付けられた証言からの学習の合理的モデルと一致していることを検証する。
LLMの推論は、合理的なモデルをほとんど正確に追跡していないことが分かっています -- 一部には、警戒と関連する考慮を妨げている追加情報があるからです。
論文 参考訳(メタデータ) (2025-10-22T15:35:00Z) - Beyond Prompt-Induced Lies: Investigating LLM Deception on Benign Prompts [79.1081247754018]
大規模言語モデル(LLM)は、推論、計画、意思決定のタスクに広くデプロイされている。
そこで我々は, 接触探索質問(CSQ)に基づく枠組みを提案し, 騙しの可能性を定量化する。
論文 参考訳(メタデータ) (2025-08-08T14:46:35Z) - Do Emotions Really Affect Argument Convincingness? A Dynamic Approach with LLM-based Manipulation Checks [22.464222858889084]
心理学や社会科学でよく用いられる操作チェックに着想を得た動的枠組みを導入する。
この枠組みは、感情の強さが知覚の説得力にどのような影響を及ぼすかを調べる。
半数以上の症例では、感情の強さの変化にもかかわらず、人間による説得力の判断は変わらないことが判明した。
論文 参考訳(メタデータ) (2025-02-24T10:04:44Z) - Perceptions to Beliefs: Exploring Precursory Inferences for Theory of Mind in Large Language Models [51.91448005607405]
ToMi と FANToM に文字認識を付加することにより,ヒト ToM 前駆体の評価を行った。
本稿では,LLMの強い知覚推定能力を利用した新しいToM手法であるPercepToMについて述べる。
論文 参考訳(メタデータ) (2024-07-08T14:58:29Z) - Do LLMs Exhibit Human-Like Reasoning? Evaluating Theory of Mind in LLMs for Open-Ended Responses [11.121931601655174]
心の理論 (ToM) は、他個人が自身の意図、感情、思考を持っていると認識することを必要とする。
大きな言語モデル(LLM)は要約、質問応答、翻訳といったタスクに優れる。
進歩にもかかわらず、LLMがToM推論を真に理解している範囲は、未解決のシナリオでは不十分である。
論文 参考訳(メタデータ) (2024-06-09T05:57:59Z) - Deception Abilities Emerged in Large Language Models [0.0]
大規模言語モデル(LLM)は、現在、人間のコミュニケーションと日常の生活を備えた人工知能(AI)システムの最前線にある。
本研究は, GPT-4 などの最先端 LLM にそのような戦略が出現したが, 初期の LLM には存在しなかったことを明らかにする。
我々は、最先端のLLMが他のエージェントの誤った信念を理解し、誘導できることを示す一連の実験を行う。
論文 参考訳(メタデータ) (2023-07-31T09:27:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。