論文の概要: Guarding the Gate: ConceptGuard Battles Concept-Level Backdoors in Concept Bottleneck Models
- arxiv url: http://arxiv.org/abs/2411.16512v1
- Date: Mon, 25 Nov 2024 15:55:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-26 14:22:03.535933
- Title: Guarding the Gate: ConceptGuard Battles Concept-Level Backdoors in Concept Bottleneck Models
- Title(参考訳): コンセプトガード:コンセプトガードはコンセプトボトルネックモデルでコンセプトレベルバックドアと戦う
- Authors: Songning Lai, Yu Huang, Jiayu Yang, Gaoxiang Huang, Wenshuo Chen, Yutao Yue,
- Abstract要約: 概念ボトルネックモデル (Concept Bottleneck Models, CBM) は、高レベルのセマンティック概念を用いて透明性を高める。
CBMは、これらの概念に隠れたトリガーを注入する概念レベルのバックドア攻撃に弱いため、検出不能な異常な振る舞いを引き起こす。
本研究では,概念レベルのバックドア攻撃からCBMを保護するために設計された新しい防御フレームワークであるConceptGuardを紹介する。
- 参考スコア(独自算出の注目度): 8.793955189563516
- License:
- Abstract: The increasing complexity of AI models, especially in deep learning, has raised concerns about transparency and accountability, particularly in high-stakes applications like medical diagnostics, where opaque models can undermine trust. Explainable Artificial Intelligence (XAI) aims to address these issues by providing clear, interpretable models. Among XAI techniques, Concept Bottleneck Models (CBMs) enhance transparency by using high-level semantic concepts. However, CBMs are vulnerable to concept-level backdoor attacks, which inject hidden triggers into these concepts, leading to undetectable anomalous behavior. To address this critical security gap, we introduce ConceptGuard, a novel defense framework specifically designed to protect CBMs from concept-level backdoor attacks. ConceptGuard employs a multi-stage approach, including concept clustering based on text distance measurements and a voting mechanism among classifiers trained on different concept subgroups, to isolate and mitigate potential triggers. Our contributions are threefold: (i) we present ConceptGuard as the first defense mechanism tailored for concept-level backdoor attacks in CBMs; (ii) we provide theoretical guarantees that ConceptGuard can effectively defend against such attacks within a certain trigger size threshold, ensuring robustness; and (iii) we demonstrate that ConceptGuard maintains the high performance and interpretability of CBMs, crucial for trustworthiness. Through comprehensive experiments and theoretical proofs, we show that ConceptGuard significantly enhances the security and trustworthiness of CBMs, paving the way for their secure deployment in critical applications.
- Abstract(参考訳): AIモデルの複雑さの増大、特にディープラーニングでは、透明性と説明責任に関する懸念が高まっている。
説明可能な人工知能(XAI)は、明確で解釈可能なモデルを提供することによってこれらの問題を解決することを目的としている。
XAI技術の中で、概念ボトルネックモデル (Concept Bottleneck Models, CBM) は高レベルのセマンティック概念を用いて透明性を高める。
しかし、CBMは概念レベルのバックドア攻撃に弱いため、これらの概念に隠れたトリガーを注入し、検出不能な異常な振る舞いを引き起こす。
この重要なセキュリティギャップを解決するために,概念レベルのバックドア攻撃からCBMを保護するために設計された,新しい防御フレームワークであるConceptGuardを紹介する。
ConceptGuardは、テキスト距離の測定に基づく概念クラスタリングや、異なる概念サブグループで訓練された分類者間の投票機構など、多段階的なアプローチを採用して、潜在的なトリガの分離と緩和を行っている。
私たちの貢献は3倍です。
(i)CBMにおける概念レベルのバックドア攻撃に適した最初の防御機構としてConceptGuardを提案する。
(ii)ConceptGuardが特定のトリガサイズ閾値内でこのような攻撃に対して効果的に防御できるという理論的保証を提供し、堅牢性を保証する。
3)コンセプションガードは信頼性に欠かせないCBMの性能と解釈性を維持していることを実証する。
総合的な実験と理論的証明を通じて、ConceptGuardはCBMのセキュリティと信頼性を著しく向上させ、重要なアプリケーションに安全なデプロイを行う道を開くことを示します。
関連論文リスト
- The VLLM Safety Paradox: Dual Ease in Jailbreak Attack and Defense [56.32083100401117]
本稿では,視覚大言語モデル (VLLM) がジェイルブレイク攻撃のリスクが高い理由を考察する。
既存の防御機構は、テキストバウンド・プルーデンスの問題に悩まされる。
ジェイルブレイクの2つの代表的な評価手法は、しばしばチャンス合意を示す。
論文 参考訳(メタデータ) (2024-11-13T07:57:19Z) - Classification with Conceptual Safeguards [7.093692674858257]
確立された概念を用いた分類作業における安全性向上のための新しいアプローチを提案する。
コンセプトセーフガードと呼ばれる私たちのアプローチは、モデルの検証レイヤとして機能します。
我々は、実世界のデータセットと合成データセットの集合にアプローチをベンチマークする。
論文 参考訳(メタデータ) (2024-11-07T00:41:11Z) - CAT: Concept-level backdoor ATtacks for Concept Bottleneck Models [8.236058439213473]
概念ボトルネックモデル(CBM)は、高レベルな意味情報を活用することで、解釈可能性を改善するための重要なアプローチとして登場した。
CBMはセキュリティ上の脅威、特にモデル動作を隠蔽的に操作できるバックドア攻撃の影響を受けやすい。
CAT(Concept-level Backdoor ATtacks)は,CBM内の概念表現を利用して,トレーニング中にトリガを埋め込む手法である。
強化された攻撃パターンであるCAT+は、最も効果的でステルス的な概念トリガーを体系的に選択する相関関数を組み込んでいる。
論文 参考訳(メタデータ) (2024-10-07T08:14:17Z) - Unlearning Backdoor Threats: Enhancing Backdoor Defense in Multimodal Contrastive Learning via Local Token Unlearning [49.242828934501986]
マルチモーダルコントラスト学習は高品質な機能を構築するための強力なパラダイムとして登場した。
バックドア攻撃は 訓練中に モデルに 悪意ある行動を埋め込む
我々は,革新的なトークンベースの局所的忘れ忘れ学習システムを導入する。
論文 参考訳(メタデータ) (2024-03-24T18:33:15Z) - On the Concept Trustworthiness in Concept Bottleneck Models [39.928868605678744]
概念ボトルネックモデル (Concept Bottleneck Models, CBM) は、推論プロセスを、概念マッピングと概念ラベル予測に分解する。
概念からラベルへの予測の透明性にもかかわらず、入力から中間概念へのマッピングはブラックボックスのままである。
概念が関連する領域から導出されているかどうかを評価するために、概念信頼性スコアと呼ばれる先駆的な指標が提案されている。
拡張されたCBMを導入し、特徴マップの異なる部分から概念予測を具体的に行えるようにした。
論文 参考訳(メタデータ) (2024-03-21T12:24:53Z) - BadCLIP: Dual-Embedding Guided Backdoor Attack on Multimodal Contrastive
Learning [85.2564206440109]
本報告では,防衛後においてもバックドア攻撃が有効であり続けるという現実的なシナリオにおける脅威を明らかにする。
バックドア検出や細調整防御のモデル化に抵抗性のあるemphtoolnsアタックを導入する。
論文 参考訳(メタデータ) (2023-11-20T02:21:49Z) - Ring-A-Bell! How Reliable are Concept Removal Methods for Diffusion Models? [52.238883592674696]
Ring-A-Bellは、T2I拡散モデルのためのモデルに依存しないレッドチームツールである。
これは、不適切なコンテンツの生成に対応する拡散モデルに対する問題的プロンプトを特定する。
この結果から,安全プロンプトベンチマークの操作により,既存の安全メカニズムを回避できると考えられるプロンプトを変換できることが示唆された。
論文 参考訳(メタデータ) (2023-10-16T02:11:20Z) - Understanding and Enhancing Robustness of Concept-based Models [41.20004311158688]
対向摂動に対する概念ベースモデルの堅牢性について検討する。
本稿では、まず、概念ベースモデルのセキュリティ脆弱性を評価するために、さまざまな悪意ある攻撃を提案し、分析する。
そこで我々は,これらのシステムのロバスト性を高めるための,汎用的対人訓練に基づく防御機構を提案する。
論文 参考訳(メタデータ) (2022-11-29T10:43:51Z) - Is Vertical Logistic Regression Privacy-Preserving? A Comprehensive
Privacy Analysis and Beyond [57.10914865054868]
垂直ロジスティック回帰(VLR)をミニバッチ降下勾配で訓練した。
我々は、オープンソースのフェデレーション学習フレームワークのクラスにおいて、VLRの包括的で厳密なプライバシー分析を提供する。
論文 参考訳(メタデータ) (2022-07-19T05:47:30Z) - A Self-supervised Approach for Adversarial Robustness [105.88250594033053]
敵対的な例は、ディープニューラルネットワーク(DNN)ベースの視覚システムにおいて破滅的な誤りを引き起こす可能性がある。
本稿では,入力空間における自己教師型対向学習機構を提案する。
これは、反逆攻撃に対する強力な堅牢性を提供する。
論文 参考訳(メタデータ) (2020-06-08T20:42:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。