論文の概要: CAT: Concept-level backdoor ATtacks for Concept Bottleneck Models
- arxiv url: http://arxiv.org/abs/2410.04823v1
- Date: Mon, 7 Oct 2024 08:14:17 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-02 01:47:52.513973
- Title: CAT: Concept-level backdoor ATtacks for Concept Bottleneck Models
- Title(参考訳): CAT:コンセプトボトルネックモデルのためのコンセプトレベルのバックドアアタック
- Authors: Songning Lai, Jiayu Yang, Yu Huang, Lijie Hu, Tianlang Xue, Zhangyi Hu, Jiaxu Li, Haicheng Liao, Yutao Yue,
- Abstract要約: 概念ボトルネックモデル(CBM)は、高レベルな意味情報を活用することで、解釈可能性を改善するための重要なアプローチとして登場した。
CBMはセキュリティ上の脅威、特にモデル動作を隠蔽的に操作できるバックドア攻撃の影響を受けやすい。
CAT(Concept-level Backdoor ATtacks)は,CBM内の概念表現を利用して,トレーニング中にトリガを埋め込む手法である。
強化された攻撃パターンであるCAT+は、最も効果的でステルス的な概念トリガーを体系的に選択する相関関数を組み込んでいる。
- 参考スコア(独自算出の注目度): 8.236058439213473
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Despite the transformative impact of deep learning across multiple domains, the inherent opacity of these models has driven the development of Explainable Artificial Intelligence (XAI). Among these efforts, Concept Bottleneck Models (CBMs) have emerged as a key approach to improve interpretability by leveraging high-level semantic information. However, CBMs, like other machine learning models, are susceptible to security threats, particularly backdoor attacks, which can covertly manipulate model behaviors. Understanding that the community has not yet studied the concept level backdoor attack of CBM, because of "Better the devil you know than the devil you don't know.", we introduce CAT (Concept-level Backdoor ATtacks), a methodology that leverages the conceptual representations within CBMs to embed triggers during training, enabling controlled manipulation of model predictions at inference time. An enhanced attack pattern, CAT+, incorporates a correlation function to systematically select the most effective and stealthy concept triggers, thereby optimizing the attack's impact. Our comprehensive evaluation framework assesses both the attack success rate and stealthiness, demonstrating that CAT and CAT+ maintain high performance on clean data while achieving significant targeted effects on backdoored datasets. This work underscores the potential security risks associated with CBMs and provides a robust testing methodology for future security assessments.
- Abstract(参考訳): 複数のドメインにわたるディープラーニングの変革的な影響にもかかわらず、これらのモデルの本質的な不透明さは、説明可能な人工知能(XAI)の開発を促した。
これらの取り組みの中で、高レベルの意味情報を活用することで解釈可能性を改善するための重要なアプローチとして、Concept Bottleneck Models (CBM) が登場している。
しかし、他の機械学習モデルと同様、CBMはセキュリティの脅威、特にモデル動作を隠蔽的に操作できるバックドア攻撃の影響を受けやすい。
我々はCAT(Concept-level Backdoor ATtacks)を導入し、CBM内の概念表現を活用してトレーニング中にトリガを埋め、推論時にモデル予測の制御を可能にする方法論を紹介します。
強化された攻撃パターンであるCAT+は相関関数を導入し、最も効果的でステルス的な概念トリガーを体系的に選択することで、攻撃の影響を最適化する。
包括的評価フレームワークは攻撃成功率とステルスネスの両方を評価し、CATとCAT+がクリーンデータ上で高いパフォーマンスを維持しつつ、バックドアデータセットに重要なターゲット効果を達成していることを示した。
この研究は、CBMに関連する潜在的なセキュリティリスクを強調し、将来のセキュリティアセスメントのための堅牢なテスト方法論を提供する。
関連論文リスト
- Robust Knowledge Distillation in Federated Learning: Counteracting Backdoor Attacks [12.227509826319267]
フェデレートラーニング(FL)は、データのプライバシを保持しながら、複数のデバイス間で協調的なモデルトレーニングを可能にする。
悪意のある参加者が世界モデルに侵入できるバックドア攻撃の影響を受けやすい。
本稿では,制約的仮定に頼らずにモデル整合性を高める新しい防御機構であるロバスト知識蒸留(RKD)を提案する。
論文 参考訳(メタデータ) (2025-02-01T22:57:08Z) - Defensive Dual Masking for Robust Adversarial Defense [5.932787778915417]
本稿では,このような攻撃に対するモデルロバスト性を高めるための新しいアプローチであるDDMアルゴリズムを提案する。
DDMは, [MASK]トークンをトレーニングサンプルに戦略的に挿入し, 対向的摂動をより効果的に扱うためのモデルを作成する, 独自の対向的トレーニング戦略を採用している。
推論中、潜在的な敵トークンは、入力のコアセマンティクスを保持しながら潜在的な脅威を中和するために、動的に[MASK]トークンに置き換えられる。
論文 参考訳(メタデータ) (2024-12-10T00:41:25Z) - Behavior Backdoor for Deep Learning Models [95.50787731231063]
我々は,行動訓練されたバックドアモデルトレーニング手順として定義された行動バックドアアタックに向けた第一歩を踏み出す。
本稿では,行動バックドアを実装する最初のパイプライン,すなわち量子バックドア(QB)攻撃を提案する。
さまざまなモデル、データセット、タスクで実験が行われ、この新たなバックドア攻撃の有効性が実証された。
論文 参考訳(メタデータ) (2024-12-02T10:54:02Z) - A Practical Trigger-Free Backdoor Attack on Neural Networks [33.426207982772226]
トレーニングデータへのアクセスを必要としないトリガーフリーのバックドア攻撃を提案する。
具体的には、悪意のあるデータの概念を攻撃者特定クラスの概念に組み込んだ、新しい微調整アプローチを設計する。
提案した攻撃の有効性,実用性,ステルスネスを実世界の3つのデータセットで評価した。
論文 参考訳(メタデータ) (2024-08-21T08:53:36Z) - PsybORG+: Modeling and Simulation for Detecting Cognitive Biases in Advanced Persistent Threats [10.161416622040722]
PsybORG$+$は、認知的脆弱性に影響されたAPTの振る舞いをモデル化するために設計されたマルチエージェントのサイバーセキュリティシミュレーション環境である。
分類モデルは認知的脆弱性推論のために構築され、シミュレータは合成データ生成のために設計されている。
PsybORG$+$は、損失回避と確認バイアスレベルが異なるAPT攻撃者を効果的にモデル化できることを示す。
論文 参考訳(メタデータ) (2024-08-02T15:00:58Z) - The Pitfalls and Promise of Conformal Inference Under Adversarial Attacks [90.52808174102157]
医療画像や自律運転などの安全クリティカルな応用においては、高い敵の堅牢性を維持し、潜在的敵の攻撃から保護することが不可欠である。
敵対的に訓練されたモデルに固有の不確実性に関して、注目すべき知識ギャップが残っている。
本研究では,共形予測(CP)の性能を標準対向攻撃の文脈で検証することにより,ディープラーニングモデルの不確実性について検討する。
論文 参考訳(メタデータ) (2024-05-14T18:05:19Z) - Unlearning Backdoor Threats: Enhancing Backdoor Defense in Multimodal Contrastive Learning via Local Token Unlearning [49.242828934501986]
マルチモーダルコントラスト学習は高品質な機能を構築するための強力なパラダイムとして登場した。
バックドア攻撃は 訓練中に モデルに 悪意ある行動を埋め込む
我々は,革新的なトークンベースの局所的忘れ忘れ学習システムを導入する。
論文 参考訳(メタデータ) (2024-03-24T18:33:15Z) - Effective Backdoor Mitigation in Vision-Language Models Depends on the Pre-training Objective [71.39995120597999]
現代の機械学習モデルは、敵の攻撃やバックドア攻撃に弱い。
このようなリスクは、マルチモーダルモデルをトレーニングするための大規模なインターネットソースデータセット収集の一般的なプラクティスによって高められている。
CleanCLIPは、マルチモーダルモデルにおけるバックドア効果を軽減するための最先端のアプローチである。
論文 参考訳(メタデータ) (2023-11-25T06:55:13Z) - Model-Agnostic Meta-Attack: Towards Reliable Evaluation of Adversarial
Robustness [53.094682754683255]
モデル非依存型メタアタック(MAMA)アプローチにより,より強力な攻撃アルゴリズムを自動検出する。
本手法は、繰り返しニューラルネットワークによってパラメータ化された逆攻撃を学習する。
本研究では,未知の防御を攻撃した場合の学習能力を向上させるために,モデルに依存しない訓練アルゴリズムを開発した。
論文 参考訳(メタデータ) (2021-10-13T13:54:24Z) - Boosting Black-Box Attack with Partially Transferred Conditional
Adversarial Distribution [83.02632136860976]
深層ニューラルネットワーク(DNN)に対するブラックボックス攻撃の研究
我々は, 代理バイアスに対して頑健な, 対向移動可能性の新たなメカニズムを開発する。
ベンチマークデータセットの実験と実世界のAPIに対する攻撃は、提案手法の優れた攻撃性能を示す。
論文 参考訳(メタデータ) (2020-06-15T16:45:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。