論文の概要: The Facade of Truth: Uncovering and Mitigating LLM Susceptibility to Deceptive Evidence
- arxiv url: http://arxiv.org/abs/2601.05478v1
- Date: Fri, 09 Jan 2026 02:28:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-12 17:41:49.81574
- Title: The Facade of Truth: Uncovering and Mitigating LLM Susceptibility to Deceptive Evidence
- Title(参考訳): 真実のファサード:認知的エビデンスに対するLLM感受性の解明と緩和
- Authors: Herun Wan, Jiaying Wu, Minnan Luo, Fanxiao Li, Zhi Zeng, Min-Yen Kan,
- Abstract要約: MisBeliefは、協調的な多ラウンドの相互作用によって誤解を招く証拠を生成するフレームワークである。
MisBeliefを用いて、3つの難易度で4,800のインスタンスを生成し、7つの代表的なLCMを評価する。
結果は、モデルは直接的な誤報に対して堅牢であるが、この洗練された証拠に非常に敏感であることを示している。
本稿では,疑似意図を証拠裏で推測することにより早期警告信号を提供するガバナンス機構である,認知的意図遮蔽(DIS)を提案する。
- 参考スコア(独自算出の注目度): 49.94160400740222
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: To reliably assist human decision-making, LLMs must maintain factual internal beliefs against misleading injections. While current models resist explicit misinformation, we uncover a fundamental vulnerability to sophisticated, hard-to-falsify evidence. To systematically probe this weakness, we introduce MisBelief, a framework that generates misleading evidence via collaborative, multi-round interactions among multi-role LLMs. This process mimics subtle, defeasible reasoning and progressive refinement to create logically persuasive yet factually deceptive claims. Using MisBelief, we generate 4,800 instances across three difficulty levels to evaluate 7 representative LLMs. Results indicate that while models are robust to direct misinformation, they are highly sensitive to this refined evidence: belief scores in falsehoods increase by an average of 93.0\%, fundamentally compromising downstream recommendations. To address this, we propose Deceptive Intent Shielding (DIS), a governance mechanism that provides an early warning signal by inferring the deceptive intent behind evidence. Empirical results demonstrate that DIS consistently mitigates belief shifts and promotes more cautious evidence evaluation.
- Abstract(参考訳): 人間の意思決定を確実に支援するためには、LLMは誤解を招く注射に対する事実的な内的信念を維持する必要がある。
現在のモデルは明らかな誤報に抵抗するが、我々は洗練された、確証が難しい証拠の根本的な脆弱性を明らかにする。
この弱点を体系的に解明するために,マルチロールLLM間の協調的多ラウンド相互作用によって誤解を招く証拠を生成するフレームワークであるMisBeliefを紹介した。
このプロセスは微妙で偽造可能な推論と進歩的な洗練を模倣し、論理的に説得力があり、事実的に欺く主張を生み出す。
MisBeliefを用いて、3つの難易度で4,800のインスタンスを生成し、7つの代表的なLCMを評価する。
結果は、モデルが直接的誤報に対して堅牢である一方で、彼らはこの洗練された証拠に非常に敏感であることを示している。
この問題を解決するために、我々は、証拠の裏側にある虚偽の意図を推測することによって早期警告信号を提供するガバナンスメカニズムである、知覚意図遮蔽(Deceptive Intent Shielding, DIS)を提案する。
実証的な結果は、Disdisが一貫して信念の変化を緩和し、より慎重な証拠評価を促進することを示している。
関連論文リスト
- Illusions of Confidence? Diagnosing LLM Truthfulness via Neighborhood Consistency [78.91846841708586]
完全な自己整合性で答えられた事実でさえ、軽微な文脈干渉の下で急速に崩壊することを示します。
本研究では,概念的近傍における応答コヒーレンスを評価する信念の構造尺度であるNighbor-Consistency Belief(NCB)を提案する。
また、文脈不変の信念構造を最適化し、長い知識の脆さを約30%低減する構造意識訓練(SAT)を提案する。
論文 参考訳(メタデータ) (2026-01-09T16:23:21Z) - Lying with Truths: Open-Channel Multi-Agent Collusion for Belief Manipulation via Generative Montage [18.964773489734547]
大規模言語モデル(LLM)がリアルタイム情報を合成する自律エージェントに遷移するにつれて、それらの推論能力は予期せぬ攻撃面をもたらす。
本稿では,公衆チャネルを通じて配布される真正な証拠断片のみを用いて,被害者の信念を占拠する新たな脅威について紹介する。
論文 参考訳(メタデータ) (2026-01-04T22:50:23Z) - Evaluating & Reducing Deceptive Dialogue From Language Models with Multi-turn RL [64.3268313484078]
大規模言語モデル(LLM)は、顧客サポート、教育、医療など、世界中の何百万もの人々と対話する。
故意であれ不注意であれ、偽りのアウトプットを生産する能力は、重大な安全上の懸念を生じさせる。
本研究では, LLM が会話中の偽装にどの程度関与しているかを考察し, 偽装を定量化する信念の誤調整尺度を提案する。
論文 参考訳(メタデータ) (2025-10-16T05:29:36Z) - Beyond Prompt-Induced Lies: Investigating LLM Deception on Benign Prompts [79.1081247754018]
大規模言語モデル(LLM)は、推論、計画、意思決定のタスクに広くデプロイされている。
そこで我々は, 接触探索質問(CSQ)に基づく枠組みを提案し, 騙しの可能性を定量化する。
論文 参考訳(メタデータ) (2025-08-08T14:46:35Z) - CRAVE: A Conflicting Reasoning Approach for Explainable Claim Verification Using LLMs [15.170312674645535]
CRAVE は、説明可能なクレーム VErification に対する Conflicting Reasoning Approach である。
大規模な言語モデルによって推論される矛盾する理性に基づいて、複雑なクレームを検証することができる。
CRAVEは最先端の手法よりもはるかに優れた性能を実現している。
論文 参考訳(メタデータ) (2025-04-21T07:20:31Z) - When Persuasion Overrides Truth in Multi-Agent LLM Debates: Introducing a Confidence-Weighted Persuasion Override Rate (CW-POR) [0.46040036610482665]
多くの実世界のシナリオでは、1つの大言語モデル(LLM)が矛盾する主張に遭遇する可能性がある。
1つのLCMベースのエージェントは、TruthfulQAから現実的な回答を提供し、もう1つのエージェントは、虚偽を積極的に擁護し、同じアーキテクチャが裁判官として機能する。
信頼度重み付き説得率(CW-POR)を導入し、裁判官がどの程度の頻度で騙されるかだけでなく、その誤った選択をいかに強く信じるかを捉える。
論文 参考訳(メタデータ) (2025-04-01T02:45:02Z) - Missci: Reconstructing Fallacies in Misrepresented Science [84.32990746227385]
ソーシャルネットワーク上の健康関連の誤報は、意思決定の貧弱さと現実世界の危険につながる可能性がある。
ミスシは、誤った推論のための新しい議論理論モデルである。
大規模言語モデルの批判的推論能力をテストするためのデータセットとしてMissciを提案する。
論文 参考訳(メタデータ) (2024-06-05T12:11:10Z) - FaithLM: Towards Faithful Explanations for Large Language Models [60.45183469474916]
大規模言語モデルの忠実度を評価し改善するモデルに依存しないフレームワークであるFaithLMを紹介した。
FaithLMは一貫して忠実度を高め、強い自己説明ベースラインよりも人間の合理性に整合した説明を生成する。
論文 参考訳(メタデータ) (2024-02-07T09:09:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。