論文の概要: Multimodal Deception in Explainable AI: Concept-Level Backdoor Attacks on Concept Bottleneck Models
- arxiv url: http://arxiv.org/abs/2410.04823v2
- Date: Sun, 10 Aug 2025 07:54:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-12 21:23:28.102121
- Title: Multimodal Deception in Explainable AI: Concept-Level Backdoor Attacks on Concept Bottleneck Models
- Title(参考訳): 説明可能なAIにおけるマルチモーダルな誤認:概念ボトルネックモデルにおける概念レベルバックドアアタック
- Authors: Songning Lai, Jiayu Yang, Yu Huang, Lijie Hu, Tianlang Xue, Zhangyi Hu, Jiaxu Li, Haicheng Liao, Yutao Yue,
- Abstract要約: 概念ボトルネックモデル (Concept Bottleneck Models, CBM) は、人間の理解可能な概念を通じて解釈可能性を強制する。
CBMは、バックドア攻撃のようなセキュリティ上の脅威に弱いままである。
我々は,マルチモーダルXAIシステムにおける概念レベルのバックドア攻撃の未解決リスクに対処するため,CAT(Concept-level Backdoor ATtacks)を提案する。
- 参考スコア(独自算出の注目度): 8.236058439213473
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Deep learning has demonstrated transformative potential across domains, yet its inherent opacity has driven the development of Explainable Artificial Intelligence (XAI). Concept Bottleneck Models (CBMs), which enforce interpretability through human-understandable concepts, represent a prominent advancement in XAI. However, despite their semantic transparency, CBMs remain vulnerable to security threats such as backdoor attacks malicious manipulations that induce controlled misbehaviors during inference. While CBMs leverage multimodal representations (visual inputs and textual concepts) to enhance interpretability, heir dual modality structure introduces new attack surfaces. To address the unexplored risk of concept-level backdoor attacks in multimodal XAI systems, we propose CAT (Concept-level Backdoor ATtacks), a methodology that injects triggers into conceptual representations during training, enabling precise prediction manipulation without compromising clean-data performance. An enhanced variant, CAT+, incorporates a concept correlation function to systematically optimize trigger-concept associations, thereby improving attack effectiveness and stealthiness. Through a comprehensive evaluation framework assessing attack success rate, stealth metrics, and model utility preservation, we demonstrate that CAT and CAT+ maintain high performance on clean data while achieving significant targeted effects on backdoored datasets. This work highlights critical security risks in interpretable AI systems and provides a robust methodology for future security assessments of CBMs.
- Abstract(参考訳): ディープラーニングはドメイン間の変革の可能性を示しているが、その固有の不透明さにより、説明可能な人工知能(XAI)の開発が進められている。
CBM(Concept Bottleneck Models)は、人間の理解可能な概念を通じて解釈性を強制する概念で、XAIの顕著な進歩を表している。
しかし、セマンティックな透明性にもかかわらず、CBMは、推論中に制御された不正行動を引き起こす悪意のある操作をバックドアで攻撃するなど、セキュリティ上の脅威に弱いままである。
CBMは多モード表現(視覚入力とテキストの概念)を活用して解釈性を高める一方で、後継の二重モード構造は新たな攻撃面を導入する。
マルチモーダルXAIシステムにおける概念レベルのバックドア攻撃の未解明リスクを解決するため,トレーニング中にトリガを概念表現に注入する手法であるCAT(Concept-level Backdoor ATtacks)を提案する。
強化された変種であるCAT+は、概念相関関数を組み込んで、トリガーコンセプト関連を体系的に最適化し、攻撃効率とステルスネスを向上させる。
攻撃成功率、ステルスメトリクス、モデルユーティリティ保存を評価する包括的な評価フレームワークを通じて、CATとCAT+がクリーンデータ上で高いパフォーマンスを維持しつつ、バックドアデータセットに重要なターゲット効果を達成できることを実証する。
この研究は、解釈可能なAIシステムにおける重要なセキュリティリスクを強調し、将来のCBMのセキュリティ評価のための堅牢な方法論を提供する。
関連論文リスト
- Explainer-guided Targeted Adversarial Attacks against Binary Code Similarity Detection Models [12.524811181751577]
我々は,BCSDモデルに対する敵攻撃に対する新たな最適化を提案する。
特に,攻撃目標は,モデル予測を特定の範囲に制限することである。
我々の攻撃は、モデル決定境界の解釈において、ブラックボックス、モデルに依存しない説明器の優れた能力を活用する。
論文 参考訳(メタデータ) (2025-06-05T08:29:19Z) - RADEP: A Resilient Adaptive Defense Framework Against Model Extraction Attacks [6.6680585862156105]
モデル抽出攻撃防御(RADEP)のためのレジリエント・アダプティブ・ディフェンス・フレームワークについて紹介する。
RADEPは、抽出の試みに対するモデルレジリエンスを高めるために、プログレッシブ・逆行訓練を採用している。
オーナーシップ検証は、組み込みのウォーターマーキングとバックドアトリガーを通じて実施される。
論文 参考訳(メタデータ) (2025-05-25T23:28:05Z) - Secure Transfer Learning: Training Clean Models Against Backdoor in (Both) Pre-trained Encoders and Downstream Datasets [16.619809695639027]
事前トレーニングと下流適応は、エンコーダとデータセットのレベルで洗練されたバックドア埋め込みにモデルを公開します。
本研究では,資源制約のある移動学習シナリオにおけるバックドアリスクを軽減する方法について検討する。
我々は,信頼性の高いデータとニューロンをピンポイントしてモデルセキュリティを強化することの重要性を強調する,Trusted Core (T-Core) Bootstrappingフレームワークを提案する。
論文 参考訳(メタデータ) (2025-04-16T11:33:03Z) - Toward Realistic Adversarial Attacks in IDS: A Novel Feasibility Metric for Transferability [0.0]
転送可能性に基づく敵攻撃は、特定のソース侵入検知システム(IDS)モデルを騙すために、敵の例を活用できる。
これらの攻撃は、セキュリティ対策や妥協システムを回避するために、機械学習モデルの一般的な脆弱性を利用する。
本稿では,機能アライメント,モデルアーキテクチャの類似性,および各IDSが検査するデータ分布の重複など,伝達可能性に寄与する要因について分析する。
論文 参考訳(メタデータ) (2025-04-11T12:15:03Z) - Human-AI Collaboration in Cloud Security: Cognitive Hierarchy-Driven Deep Reinforcement Learning [7.370441344885935]
セキュリティ運用センター(SOC)は、高度な永続脅威(APT)に対抗するために、AI駆動の適応防御機構を採用しなければならない。
本稿では、SOCアナリストとAI駆動のAPTボット間の対話的意思決定をモデル化する、認知階層理論駆動型深層Q-ネットワーク(CHT-DQN)フレームワークを提案する。
我々のフレームワークは攻撃グラフに基づく強化学習を用いて適応的なSOC防御を強化する。
論文 参考訳(メタデータ) (2025-02-22T03:19:21Z) - Robust Knowledge Distillation in Federated Learning: Counteracting Backdoor Attacks [12.227509826319267]
フェデレートラーニング(FL)は、データのプライバシを保持しながら、複数のデバイス間で協調的なモデルトレーニングを可能にする。
悪意のある参加者が世界モデルに侵入できるバックドア攻撃の影響を受けやすい。
本稿では,制約的仮定に頼らずにモデル整合性を高める新しい防御機構であるロバスト知識蒸留(RKD)を提案する。
論文 参考訳(メタデータ) (2025-02-01T22:57:08Z) - Defensive Dual Masking for Robust Adversarial Defense [5.932787778915417]
本稿では,このような攻撃に対するモデルロバスト性を高めるための新しいアプローチであるDDMアルゴリズムを提案する。
DDMは, [MASK]トークンをトレーニングサンプルに戦略的に挿入し, 対向的摂動をより効果的に扱うためのモデルを作成する, 独自の対向的トレーニング戦略を採用している。
推論中、潜在的な敵トークンは、入力のコアセマンティクスを保持しながら潜在的な脅威を中和するために、動的に[MASK]トークンに置き換えられる。
論文 参考訳(メタデータ) (2024-12-10T00:41:25Z) - Behavior Backdoor for Deep Learning Models [95.50787731231063]
我々は,行動訓練されたバックドアモデルトレーニング手順として定義された行動バックドアアタックに向けた第一歩を踏み出す。
本稿では,行動バックドアを実装する最初のパイプライン,すなわち量子バックドア(QB)攻撃を提案する。
さまざまなモデル、データセット、タスクで実験が行われ、この新たなバックドア攻撃の有効性が実証された。
論文 参考訳(メタデータ) (2024-12-02T10:54:02Z) - A Practical Trigger-Free Backdoor Attack on Neural Networks [33.426207982772226]
トレーニングデータへのアクセスを必要としないトリガーフリーのバックドア攻撃を提案する。
具体的には、悪意のあるデータの概念を攻撃者特定クラスの概念に組み込んだ、新しい微調整アプローチを設計する。
提案した攻撃の有効性,実用性,ステルスネスを実世界の3つのデータセットで評価した。
論文 参考訳(メタデータ) (2024-08-21T08:53:36Z) - PsybORG+: Modeling and Simulation for Detecting Cognitive Biases in Advanced Persistent Threats [10.161416622040722]
PsybORG$+$は、認知的脆弱性に影響されたAPTの振る舞いをモデル化するために設計されたマルチエージェントのサイバーセキュリティシミュレーション環境である。
分類モデルは認知的脆弱性推論のために構築され、シミュレータは合成データ生成のために設計されている。
PsybORG$+$は、損失回避と確認バイアスレベルが異なるAPT攻撃者を効果的にモデル化できることを示す。
論文 参考訳(メタデータ) (2024-08-02T15:00:58Z) - Mellivora Capensis: A Backdoor-Free Training Framework on the Poisoned Dataset without Auxiliary Data [29.842087372804905]
本稿では,現実シナリオにおけるバックドア攻撃対策の課題について述べる。
本稿では,モデルトレーナーが有毒なデータセット上でクリーンなモデルをトレーニングできるようにする,堅牢でクリーンなデータのないバックドア防御フレームワークであるMellivora Capensis(textttMeCa)を提案する。
論文 参考訳(メタデータ) (2024-05-21T12:20:19Z) - The Pitfalls and Promise of Conformal Inference Under Adversarial Attacks [90.52808174102157]
医療画像や自律運転などの安全クリティカルな応用においては、高い敵の堅牢性を維持し、潜在的敵の攻撃から保護することが不可欠である。
敵対的に訓練されたモデルに固有の不確実性に関して、注目すべき知識ギャップが残っている。
本研究では,共形予測(CP)の性能を標準対向攻撃の文脈で検証することにより,ディープラーニングモデルの不確実性について検討する。
論文 参考訳(メタデータ) (2024-05-14T18:05:19Z) - Unlearning Backdoor Threats: Enhancing Backdoor Defense in Multimodal Contrastive Learning via Local Token Unlearning [49.242828934501986]
マルチモーダルコントラスト学習は高品質な機能を構築するための強力なパラダイムとして登場した。
バックドア攻撃は 訓練中に モデルに 悪意ある行動を埋め込む
我々は,革新的なトークンベースの局所的忘れ忘れ学習システムを導入する。
論文 参考訳(メタデータ) (2024-03-24T18:33:15Z) - Here's a Free Lunch: Sanitizing Backdoored Models with Model Merge [17.3048898399324]
オープンソースイニシアチブによる事前訓練された言語モデルの民主化は、急速に革新と最先端技術へのアクセスを拡大している。
特定の入力によって隠れた悪意のある振る舞いが引き起こされ、自然言語処理(NLP)システムの完全性と信頼性を損なうバックドア攻撃。
本稿では,バックドアモデルと他の同質モデルとを組み合わせることで,バックドアの脆弱性を著しく改善することができることを示唆する。
論文 参考訳(メタデータ) (2024-02-29T16:37:08Z) - Effective Backdoor Mitigation in Vision-Language Models Depends on the Pre-training Objective [71.39995120597999]
現代の機械学習モデルは、敵の攻撃やバックドア攻撃に弱い。
このようなリスクは、マルチモーダルモデルをトレーニングするための大規模なインターネットソースデータセット収集の一般的なプラクティスによって高められている。
CleanCLIPは、マルチモーダルモデルにおけるバックドア効果を軽減するための最先端のアプローチである。
論文 参考訳(メタデータ) (2023-11-25T06:55:13Z) - Model-Agnostic Meta-Attack: Towards Reliable Evaluation of Adversarial
Robustness [53.094682754683255]
モデル非依存型メタアタック(MAMA)アプローチにより,より強力な攻撃アルゴリズムを自動検出する。
本手法は、繰り返しニューラルネットワークによってパラメータ化された逆攻撃を学習する。
本研究では,未知の防御を攻撃した場合の学習能力を向上させるために,モデルに依存しない訓練アルゴリズムを開発した。
論文 参考訳(メタデータ) (2021-10-13T13:54:24Z) - Boosting Black-Box Attack with Partially Transferred Conditional
Adversarial Distribution [83.02632136860976]
深層ニューラルネットワーク(DNN)に対するブラックボックス攻撃の研究
我々は, 代理バイアスに対して頑健な, 対向移動可能性の新たなメカニズムを開発する。
ベンチマークデータセットの実験と実世界のAPIに対する攻撃は、提案手法の優れた攻撃性能を示す。
論文 参考訳(メタデータ) (2020-06-15T16:45:27Z) - Stochastic Security: Adversarial Defense Using Long-Run Dynamics of
Energy-Based Models [82.03536496686763]
敵対的攻撃に対するディープ・ネットワークの脆弱性は、認識とセキュリティの両方の観点から、ディープ・ラーニングの中心的な問題である。
我々は,自然学習型分類器の保護に重点を置き,マルコフ・チェイン・モンテカルロ (MCMC) とエネルギーベースモデル (EBM) を併用して敵の浄化を行った。
本研究は,1)現実的な長期MCMCサンプルを用いたEMMの訓練方法の改善,2)防衛の理論的曖昧さを解消する期待・オフバー・トランスフォーメーション(EOT)ディフェンス,3)自然に訓練された分類器と競争的ディフェンスのための最先端の対人ディフェンス,である。
論文 参考訳(メタデータ) (2020-05-27T17:53:36Z) - Adversarial vs behavioural-based defensive AI with joint, continual and
active learning: automated evaluation of robustness to deception, poisoning
and concept drift [62.997667081978825]
人工知能(AI)の最近の進歩は、サイバーセキュリティのための行動分析(UEBA)に新たな能力をもたらした。
本稿では、検出プロセスを改善し、人間の専門知識を効果的に活用することにより、この攻撃を効果的に軽減するソリューションを提案する。
論文 参考訳(メタデータ) (2020-01-13T13:54:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。