論文の概要: The Hidden Puppet Master: Predicting Human Belief Change in Manipulative LLM Dialogues
- arxiv url: http://arxiv.org/abs/2603.20907v2
- Date: Fri, 27 Mar 2026 16:54:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-30 21:49:48.11539
- Title: The Hidden Puppet Master: Predicting Human Belief Change in Manipulative LLM Dialogues
- Title(参考訳): 隠れたPuppetマスター:操作型LLM対話における人間の信念の変化を予測する
- Authors: Jocelyn Shen, Amina Luvsanchultem, Jessica Kim, Kynnedy Smith, Valdemar Danry, Kantwon Rogers, Hae Won Park, Maarten Sap, Cynthia Breazeal,
- Abstract要約: PUPPETは,日常的,助言的文脈における隠されたインセンティブの道徳的方向性に焦点を当てた理論的分類法である。
我々はN=1,035人のLLMインタラクションの評価データセットを提供する。
この研究は、理論的基礎と行動学的に検証されたAI社会安全活動の基礎を確立する。
- 参考スコア(独自算出の注目度): 31.570641650845946
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: As users increasingly turn to LLMs for practical and personal advice, they become vulnerable to subtle steering toward hidden incentives misaligned with their own interests. While existing NLP research has benchmarked manipulation detection, these efforts often rely on simulated debates and remain fundamentally decoupled from actual human belief shifts in real-world scenarios. We introduce PUPPET, a theoretical taxonomy and resource that bridges this gap by focusing on the moral direction of hidden incentives in everyday, advice-giving contexts. We provide an evaluation dataset of N=1,035 human-LLM interactions, where we measure users' belief shifts. Our analysis reveals a critical disconnect in current safety paradigms: while models can be trained to detect manipulative strategies, they do not correlate with the magnitude of resulting belief change. As such, we define the task of belief shift prediction and show that while state-of-the-art LLMs achieve moderate correlation (r=0.3-0.5), they systematically underestimate the intensity of human belief susceptibility. This work establishes a theoretically grounded and behaviorally validated foundation for AI social safety efforts by studying incentive-driven manipulation in LLMs during everyday, practical user queries.
- Abstract(参考訳): ユーザーが実用的、個人的なアドバイスのためにLSMsに目を向けるにつれて、彼らは自分の興味に合わない隠されたインセンティブに対する微妙な操縦に弱いものになっている。
既存のNLP研究は操作検出のベンチマークを行っているが、これらの取り組みはしばしばシミュレーションされた議論に頼り、現実世界のシナリオにおける実際の人間の信念のシフトと根本的に切り離されている。
このギャップを埋める理論的な分類と資源であるPUPPETを紹介する。
我々はN=1,035人のLLMインタラクションの評価データセットを提供する。
モデルはマニピュレーティブな戦略を検出するために訓練されるが、それらは結果の信念の変化の大きさと相関しない。
そこで我々は、信念シフト予測の課題を定義し、最先端のLLMが適度な相関(r=0.3-0.5)を達成している一方で、人間の信念感受性の強さを体系的に過小評価していることを示す。
本研究は,LLMにおけるインセンティブ駆動型操作を日常的,実用的なユーザクエリで研究することにより,AI社会安全活動の理論的基礎と行動実証の基礎を確立する。
関連論文リスト
- Social Simulations with Large Language Model Risk Utopian Illusion [61.358959720048354]
社会シミュレーションにおける大規模言語モデルの行動分析のための体系的枠組みを提案する。
本手法は,チャットルーム型会話を通してマルチエージェントインタラクションをシミュレートし,5つの言語的側面にわたって解析する。
以上の結果から,LSMは真の人間の行動を忠実に再現するのではなく,過度に理想化されたバージョンを反映していることが明らかとなった。
論文 参考訳(メタデータ) (2025-10-24T06:08:41Z) - Are Large Language Models Sensitive to the Motives Behind Communication? [9.246336669308665]
大規模言語モデル(LLM)とAIエージェントは、人間の意図とインセンティブによって本質的にフレーム化された情報を処理する。
LLMが現実世界で有効であるためには、ソースのモチベーションを要因としてコンテンツの評価を批判的に行う必要がある。
我々は認知科学から制御された実験を用いて、LCMの行動が動機付けられた証言からの学習の合理的モデルと一致していることを検証する。
LLMの推論は、合理的なモデルをほとんど正確に追跡していないことが分かっています -- 一部には、警戒と関連する考慮を妨げている追加情報があるからです。
論文 参考訳(メタデータ) (2025-10-22T15:35:00Z) - Beyond Prompt-Induced Lies: Investigating LLM Deception on Benign Prompts [79.1081247754018]
大規模言語モデル(LLM)は、推論、計画、意思決定のタスクに広くデプロイされている。
そこで我々は, 接触探索質問(CSQ)に基づく枠組みを提案し, 騙しの可能性を定量化する。
論文 参考訳(メタデータ) (2025-08-08T14:46:35Z) - Do Emotions Really Affect Argument Convincingness? A Dynamic Approach with LLM-based Manipulation Checks [22.464222858889084]
心理学や社会科学でよく用いられる操作チェックに着想を得た動的枠組みを導入する。
この枠組みは、感情の強さが知覚の説得力にどのような影響を及ぼすかを調べる。
半数以上の症例では、感情の強さの変化にもかかわらず、人間による説得力の判断は変わらないことが判明した。
論文 参考訳(メタデータ) (2025-02-24T10:04:44Z) - Perceptions to Beliefs: Exploring Precursory Inferences for Theory of Mind in Large Language Models [51.91448005607405]
ToMi と FANToM に文字認識を付加することにより,ヒト ToM 前駆体の評価を行った。
本稿では,LLMの強い知覚推定能力を利用した新しいToM手法であるPercepToMについて述べる。
論文 参考訳(メタデータ) (2024-07-08T14:58:29Z) - Do LLMs Exhibit Human-Like Reasoning? Evaluating Theory of Mind in LLMs for Open-Ended Responses [11.121931601655174]
心の理論 (ToM) は、他個人が自身の意図、感情、思考を持っていると認識することを必要とする。
大きな言語モデル(LLM)は要約、質問応答、翻訳といったタスクに優れる。
進歩にもかかわらず、LLMがToM推論を真に理解している範囲は、未解決のシナリオでは不十分である。
論文 参考訳(メタデータ) (2024-06-09T05:57:59Z) - Deception Abilities Emerged in Large Language Models [0.0]
大規模言語モデル(LLM)は、現在、人間のコミュニケーションと日常の生活を備えた人工知能(AI)システムの最前線にある。
本研究は, GPT-4 などの最先端 LLM にそのような戦略が出現したが, 初期の LLM には存在しなかったことを明らかにする。
我々は、最先端のLLMが他のエージェントの誤った信念を理解し、誘導できることを示す一連の実験を行う。
論文 参考訳(メタデータ) (2023-07-31T09:27:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。