論文の概要: Vulnerability of LLMs' Belief Systems? LLMs Belief Resistance Check Through Strategic Persuasive Conversation Interventions
- arxiv url: http://arxiv.org/abs/2601.13590v1
- Date: Tue, 20 Jan 2026 04:43:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-21 22:47:23.154533
- Title: Vulnerability of LLMs' Belief Systems? LLMs Belief Resistance Check Through Strategic Persuasive Conversation Interventions
- Title(参考訳): LLMの信念システムの脆弱性? : 戦略的説得的対話を通してのLCMの信頼性チェック
- Authors: Fan Huang, Haewoon Kwak, Jisun An,
- Abstract要約: 小さなモデルは極端なコンプライアンスを示し、最初の説得的なターンで80%以上の信念の変化が生じる。
メタ認知は、堅牢性を高めるのではなく、信念の侵食を加速することで脆弱性を増大させる。
これらの知見は、現在のロバストネス介入のモデル依存性のかなりの限界を浮き彫りにした。
- 参考スコア(独自算出の注目度): 8.026492468995187
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Language Models (LLMs) are increasingly employed in various question-answering tasks. However, recent studies showcase that LLMs are susceptible to persuasion and could adopt counterfactual beliefs. We present a systematic evaluation of LLM susceptibility to persuasion under the Source--Message--Channel--Receiver (SMCR) communication framework. Across five mainstream Large Language Models (LLMs) and three domains (factual knowledge, medical QA, and social bias), we analyze how different persuasive strategies influence belief stability over multiple interaction turns. We further examine whether meta-cognition prompting (i.e., eliciting self-reported confidence) affects resistance to persuasion. Results show that smaller models exhibit extreme compliance, with over 80% of belief changes occurring at the first persuasive turn (average end turn of 1.1--1.4). Contrary to expectations, meta-cognition prompting increases vulnerability by accelerating belief erosion rather than enhancing robustness. Finally, we evaluate adversarial fine-tuning as a defense. While GPT-4o-mini achieves near-complete robustness (98.6%) and Mistral~7B improves substantially (35.7% $\rightarrow$ 79.3%), Llama models remain highly susceptible (<14%) even when fine-tuned on their own failure cases. Together, these findings highlight substantial model-dependent limits of current robustness interventions and offer guidance for developing more trustworthy LLMs.
- Abstract(参考訳): 大規模言語モデル(LLM)は、様々な質問応答タスクにますます採用されている。
しかし、最近の研究では、LSMは説得に敏感であり、反事実的信念を採用する可能性があることが示されている。
本稿では,SMCR(Software-Message-Channel-Receiver)通信フレームワーク上でのLCMの説得性の評価を行う。
5つの主流言語モデル(LLM)と3つのドメイン(実際の知識、医療QA、社会的偏見)で、異なる説得的戦略が複数の相互作用よりも信念の安定性にどのように影響するかを分析する。
さらに、メタ認知の促進(すなわち、自己報告された自信を引き出す)が説得に対する抵抗に影響を及ぼすかどうかについても検討する。
その結果、より小さなモデルでは、最初の説得的なターン(平均エンドターン 1.1--1.4)で80%以上の信念変化が発生するという、極端なコンプライアンスが示されることがわかった。
期待に反して、メタ認知は堅牢性を高めるのではなく、信念の侵食を加速することで脆弱性を増大させる。
最後に、敵の微調整を防御として評価する。
GPT-4o-miniは、ほぼ完全なロバスト性(98.6%)を達成し、Mistral~7Bは大幅に改善(35.7%$\rightarrow$79.3%)する一方、Llamaモデルは、自身の障害ケースを微調整しても、非常に感受性が高い(<14%)。
これらの知見は、現在のロバスト性介入のモデル依存的な限界を強調し、より信頼性の高いLCMを開発するためのガイダンスを提供する。
関連論文リスト
- The Facade of Truth: Uncovering and Mitigating LLM Susceptibility to Deceptive Evidence [49.94160400740222]
MisBeliefは、協調的な多ラウンドの相互作用によって誤解を招く証拠を生成するフレームワークである。
MisBeliefを用いて、3つの難易度で4,800のインスタンスを生成し、7つの代表的なLCMを評価する。
結果は、モデルは直接的な誤報に対して堅牢であるが、この洗練された証拠に非常に敏感であることを示している。
本稿では,疑似意図を証拠裏で推測することにより早期警告信号を提供するガバナンス機構である,認知的意図遮蔽(DIS)を提案する。
論文 参考訳(メタデータ) (2026-01-09T02:28:00Z) - MMPersuade: A Dataset and Evaluation Framework for Multimodal Persuasion [73.99171322670772]
LVLM(Large Vision-Language Models)は、ショッピング、健康、ニュースなどの分野に展開されている。
MMPersuadeはLVLMにおけるマルチモーダルパーサージョンダイナミクスを体系的に研究するための統一的なフレームワークを提供する。
論文 参考訳(メタデータ) (2025-10-26T17:39:21Z) - The Chameleon Nature of LLMs: Quantifying Multi-Turn Stance Instability in Search-Enabled Language Models [1.4323566945483497]
本稿では,大規模言語モデルにおける「カメレオン行動」に関する最初の体系的研究について述べる。
我々は最先端のシステムに根本的な欠陥を露呈する。
情報源の再使用率と信頼性の相関は統計的に有意である。
論文 参考訳(メタデータ) (2025-10-19T04:51:14Z) - Evaluating & Reducing Deceptive Dialogue From Language Models with Multi-turn RL [64.3268313484078]
大規模言語モデル(LLM)は、顧客サポート、教育、医療など、世界中の何百万もの人々と対話する。
故意であれ不注意であれ、偽りのアウトプットを生産する能力は、重大な安全上の懸念を生じさせる。
本研究では, LLM が会話中の偽装にどの程度関与しているかを考察し, 偽装を定量化する信念の誤調整尺度を提案する。
論文 参考訳(メタデータ) (2025-10-16T05:29:36Z) - How Overconfidence in Initial Choices and Underconfidence Under Criticism Modulate Change of Mind in Large Language Models [28.62988505317048]
大きな言語モデル(LLM)は、非常に矛盾する振る舞いを示す。
LLMは、質問されたときに過度に疑念を抱きがちである一方で、最初の回答において、頑強に過度に自信を抱くように見える。
LLMは選択支援バイアスを顕著に示し、回答に対する信頼度を補強し、向上させることを示す。
論文 参考訳(メタデータ) (2025-07-03T18:57:43Z) - MetaFaith: Faithful Natural Language Uncertainty Expression in LLMs [66.14178164421794]
メタファイト(MetaFaith)は、ヒトのメタ認知に触発された新規なプロンプトベースのキャリブレーション手法である。
MetaFaithは多種多様なモデルやタスク領域における忠実なキャリブレーションを強力に改善し、忠実度を最大61%向上させることができることを示す。
論文 参考訳(メタデータ) (2025-05-30T17:54:08Z) - Persuade Me if You Can: A Framework for Evaluating Persuasion Effectiveness and Susceptibility Among Large Language Models [9.402740034754455]
大きな言語モデル(LLM)は、人間レベルの説得と競合する説得力を示す。
LLMの説得への感受性は、倫理的原則との整合性に関する懸念を提起する。
マルチエージェントインタラクションによる説得評価フレームワークPersuade Me If You Can (PMIYC)を紹介した。
論文 参考訳(メタデータ) (2025-03-03T18:53:21Z) - Benchmarking Gaslighting Negation Attacks Against Multimodal Large Language Models [45.63440666848143]
MLLM(Multimodal Large Language Models)は、様々なモダリティの統合において顕著な進歩を見せている。
彼らの成功にもかかわらず、MLLMは会話の敵対的な入力に弱いままである。
我々は,最初に正しい回答を提供するモデルが,ユーザが提供する否定によってそのアウトプットを逆転するように説得される現象であるガスライティング否定攻撃について検討する。
論文 参考訳(メタデータ) (2025-01-31T10:37:48Z) - Can LLMs Express Their Uncertainty? An Empirical Evaluation of Confidence Elicitation in LLMs [60.61002524947733]
従来の信頼性推論手法は、内部モデル情報やモデル微調整へのホワイトボックスアクセスに依存していた。
これにより、不確実性推定のためのブラックボックスアプローチの未解決領域を探索する必要性が高まっている。
言語的信頼を導き出すための戦略の推進、複数の応答を生成するためのサンプリング方法、一貫性を計算するための集約手法の3つの要素からなる体系的フレームワークを定義する。
論文 参考訳(メタデータ) (2023-06-22T17:31:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。