論文の概要: When AI Persuades: Adversarial Explanation Attacks on Human Trust in AI-Assisted Decision Making
- arxiv url: http://arxiv.org/abs/2602.04003v1
- Date: Tue, 03 Feb 2026 20:42:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-05 19:45:11.268907
- Title: When AI Persuades: Adversarial Explanation Attacks on Human Trust in AI-Assisted Decision Making
- Title(参考訳): AIが迫る:AIによる意思決定における人間信頼への敵対的説明攻撃
- Authors: Shutong Fan, Lan Zhang, Xiaoyong Yuan,
- Abstract要約: 大規模言語モデルは、ユーザーがAI出力をどのように認識し、信頼するかを形作る、流動的な自然言語の説明を生成する。
本研究では,攻撃者がLDM生成説明書のフレーミングを操作し,不正確な出力に対する人間の信頼を調節する逆説明攻撃(AEAs)を導入する。
これは、説明を敵対的な認知チャネルとして扱い、AIによる意思決定に対する人間の信頼への影響を定量化する最初の体系的なセキュリティ研究である。
- 参考スコア(独自算出の注目度): 7.170587130743388
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Most adversarial threats in artificial intelligence target the computational behavior of models rather than the humans who rely on them. Yet modern AI systems increasingly operate within human decision loops, where users interpret and act on model recommendations. Large Language Models generate fluent natural-language explanations that shape how users perceive and trust AI outputs, revealing a new attack surface at the cognitive layer: the communication channel between AI and its users. We introduce adversarial explanation attacks (AEAs), where an attacker manipulates the framing of LLM-generated explanations to modulate human trust in incorrect outputs. We formalize this behavioral threat through the trust miscalibration gap, a metric that captures the difference in human trust between correct and incorrect outputs under adversarial explanations. By incorporating this gap, AEAs explore the daunting threats in which persuasive explanations reinforce users' trust in incorrect predictions. To characterize this threat, we conducted a controlled experiment (n = 205), systematically varying four dimensions of explanation framing: reasoning mode, evidence type, communication style, and presentation format. Our findings show that users report nearly identical trust for adversarial and benign explanations, with adversarial explanations preserving the vast majority of benign trust despite being incorrect. The most vulnerable cases arise when AEAs closely resemble expert communication, combining authoritative evidence, neutral tone, and domain-appropriate reasoning. Vulnerability is highest on hard tasks, in fact-driven domains, and among participants who are less formally educated, younger, or highly trusting of AI. This is the first systematic security study that treats explanations as an adversarial cognitive channel and quantifies their impact on human trust in AI-assisted decision making.
- Abstract(参考訳): 人工知能におけるほとんどの敵対的脅威は、それらに依存する人間よりもモデルの計算的振る舞いを標的としている。
しかし、現代のAIシステムは、ユーザーがモデルレコメンデーションを解釈し行動する人間の意思決定ループの中でますます機能する。
大規模言語モデルは、ユーザーがAI出力をどのように認識し、信頼するかを形作る、流動的な自然言語の説明を生成し、認知層に新たな攻撃面、すなわちAIとそのユーザ間の通信チャネルを明らかにする。
本研究では,攻撃者がLDM生成説明書のフレーミングを操作し,不正確な出力に対する人間の信頼を調節する逆説明攻撃(AEAs)を導入する。
我々は,この行動的脅威を,敵対的説明の下での正しいアウトプットと不正なアウトプットの人間の信頼の差を捉える指標である信頼誤校正ギャップを通じて形式化する。
このギャップを取り入れることで、AEAは、説得力のある説明がユーザーの誤った予測に対する信頼を補強する恐ろしい脅威を探求する。
この脅威を特徴づけるために、我々は制御された実験(n = 205)を行い、推論モード、エビデンスタイプ、コミュニケーションスタイル、プレゼンテーションフォーマットの4次元を体系的に変化させた。
以上の結果から,敵対的・良心的説明とほぼ同一の信頼を報告し,不正確であるにもかかわらず良心的信頼の大多数を保護した敵意的説明が得られた。
最も脆弱なケースは、AEAが専門家のコミュニケーションによく似ており、権威的な証拠、中立的なトーン、ドメインに適した推論を組み合わせたものである。
脆弱性は、厳格なタスク、事実駆動のドメイン、そして、正式な教育を受けていない、若い、あるいはAIを信頼していない参加者の中で、最も高い。
これは、説明を敵対的な認知チャネルとして扱い、AIによる意思決定に対する人間の信頼への影響を定量化する最初の体系的なセキュリティ研究である。
関連論文リスト
- Human-Centered Explainability in AI-Enhanced UI Security Interfaces: Designing Trustworthy Copilots for Cybersecurity Analysts [0.0]
本稿では、AI駆動型セキュリティダッシュボードにおける説明設計戦略の混合手法について述べる。
その結果,説明スタイルがユーザの信頼度,判断精度,認知負荷に大きく影響していることが判明した。
この研究は、サイバーセキュリティにおける人間中心のAIツールの設計を前進させ、他の高度なドメインにおける説明可能性に広範な意味を提供する。
論文 参考訳(メタデータ) (2026-01-30T07:18:20Z) - Engaging with AI: How Interface Design Shapes Human-AI Collaboration in High-Stakes Decision-Making [8.948482790298645]
各種意思決定支援機構がユーザエンゲージメント,信頼,人間とAIの協調タスクパフォーマンスに与える影響について検討する。
その結果,AIの信頼性レベルやテキスト説明,パフォーマンス視覚化などのメカニズムにより,人間とAIの協調作業性能が向上することが判明した。
論文 参考訳(メタデータ) (2025-01-28T02:03:00Z) - Turning Logic Against Itself : Probing Model Defenses Through Contrastive Questions [50.40122190627256]
非倫理的反応を引き起こすために、対照的な推論を利用する新しいジェイルブレイク手法であるPOATEを導入する。
PoATEは意味論的に意図に反し、敵のテンプレートと統合し、有害なアウトプットを驚くほど微妙に操る。
これに対応するために、悪意のある意図と理性を検出するためにクエリを分解して、有害な応答を評価し、拒否するIntent-Aware CoTとReverse Thinking CoTを提案する。
論文 参考訳(メタデータ) (2025-01-03T15:40:03Z) - Deceptive AI systems that give explanations are more convincing than honest AI systems and can amplify belief in misinformation [29.022316418575866]
本研究は,疑似AIによる説明が個人の信念に及ぼす影響について検討した。
以上の結果から,認知的リフレクションやAIに対する信頼といった個人的要因が,必ずしも個人をこれらの影響から保護するとは限らないことが示唆された。
このことは論理的推論と批判的思考スキルを教え、論理的に無効な議論を特定することの重要性を浮き彫りにする。
論文 参考訳(メタデータ) (2024-07-31T05:39:07Z) - A Diachronic Perspective on User Trust in AI under Uncertainty [52.44939679369428]
現代のNLPシステムは、しばしば未分類であり、ユーザの信頼を損なう確実な誤った予測をもたらす。
賭けゲームを用いて,信頼を損なう事象に対するユーザの信頼の進化について検討する。
論文 参考訳(メタデータ) (2023-10-20T14:41:46Z) - The Response Shift Paradigm to Quantify Human Trust in AI
Recommendations [6.652641137999891]
説明可能性、解釈可能性、そしてそれらがAIシステムに対する人間の信頼にどれほど影響するかは、究極的には機械学習と同じくらいの人間の認知の問題である。
我々は,AIレコメンデーションが人的決定に与える影響を定量化する汎用のヒューマン・AIインタラクション・パラダイムを開発し,検証した。
我々の実証・実証パラダイムは、急速に成長するXAI/IAIアプローチをエンドユーザーへの影響の観点から定量的に比較することができる。
論文 参考訳(メタデータ) (2022-02-16T22:02:09Z) - Cybertrust: From Explainable to Actionable and Interpretable AI (AI2) [58.981120701284816]
Actionable and Interpretable AI (AI2)は、AIレコメンデーションにユーザの信頼度を明確に定量化し視覚化する。
これにより、AIシステムの予測を調べてテストすることで、システムの意思決定に対する信頼の基盤を確立することができる。
論文 参考訳(メタデータ) (2022-01-26T18:53:09Z) - The Who in XAI: How AI Background Shapes Perceptions of AI Explanations [61.49776160925216]
私たちは、2つの異なるグループ、つまりAIのバックグラウンドを持つ人々といない人たちの、異なるタイプのAI説明に対する理解について、混合手法による研究を行います。
その結果,(1) 両群は異なる理由から不合理な数に対する信頼を示し,(2) それぞれの群は意図した設計以上の異なる説明に価値を見出した。
論文 参考訳(メタデータ) (2021-07-28T17:32:04Z) - Formalizing Trust in Artificial Intelligence: Prerequisites, Causes and
Goals of Human Trust in AI [55.4046755826066]
我々は、社会学の対人信頼(すなわち、人間の信頼)に着想を得た信頼のモデルについて議論する。
ユーザとAIの間の信頼は、暗黙的あるいは明示的な契約が保持する信頼である。
我々は、信頼できるAIの設計方法、信頼が浮かび上がったかどうか、保証されているかどうかを評価する方法について論じる。
論文 参考訳(メタデータ) (2020-10-15T03:07:23Z) - Deceptive AI Explanations: Creation and Detection [3.197020142231916]
我々は、AIモデルを用いて、偽りの説明を作成し、検出する方法について検討する。
実験的な評価として,GradCAMによるテキスト分類と説明の変更に着目した。
被験者200名を対象に, 偽装説明がユーザに与える影響について検討した。
論文 参考訳(メタデータ) (2020-01-21T16:41:22Z) - Effect of Confidence and Explanation on Accuracy and Trust Calibration
in AI-Assisted Decision Making [53.62514158534574]
ケース固有のモデル情報を明らかにする特徴が、信頼度を調整し、人間とAIのジョイントパフォーマンスを向上させることができるかどうかを検討する。
信頼スコアは、AIモデルに対する人々の信頼を校正するのに役立ちますが、信頼の校正だけでは、AI支援による意思決定を改善するには不十分です。
論文 参考訳(メタデータ) (2020-01-07T15:33:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。