論文の概要: C^2 ATTACK: Towards Representation Backdoor on CLIP via Concept Confusion
- arxiv url: http://arxiv.org/abs/2503.09095v1
- Date: Wed, 12 Mar 2025 06:17:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-13 15:36:43.520943
- Title: C^2 ATTACK: Towards Representation Backdoor on CLIP via Concept Confusion
- Title(参考訳): C^2 ATTACK:概念融合によるCLIP上の表現バックドアを目指して
- Authors: Lijie Hu, Junchi Liao, Weimin Lyu, Shaopeng Fu, Tianhao Huang, Shu Yang, Guimin Hu, Di Wang,
- Abstract要約: 我々は、新しいバックドア攻撃フレームワーク、コンセプト・コンフュージョン・アタック(C2 ATTACK)を開発した。
実際のトリガーの使用を回避し、潜伏空間における特定の概念を直接活性化または非活性化させることにより、我々のアプローチはステルスを高め、既存の防御による検出を著しく困難にする。
- 参考スコア(独自算出の注目度): 8.681880476320085
- License:
- Abstract: Backdoor attacks pose a significant threat to deep learning models, enabling adversaries to embed hidden triggers that manipulate the behavior of the model during inference. Traditional backdoor attacks typically rely on inserting explicit triggers (e.g., external patches, or perturbations) into input data, but they often struggle to evade existing defense mechanisms. To address this limitation, we investigate backdoor attacks through the lens of the reasoning process in deep learning systems, drawing insights from interpretable AI. We conceptualize backdoor activation as the manipulation of learned concepts within the model's latent representations. Thus, existing attacks can be seen as implicit manipulations of these activated concepts during inference. This raises interesting questions: why not manipulate the concepts explicitly? This idea leads to our novel backdoor attack framework, Concept Confusion Attack (C^2 ATTACK), which leverages internal concepts in the model's reasoning as "triggers" without introducing explicit external modifications. By avoiding the use of real triggers and directly activating or deactivating specific concepts in latent spaces, our approach enhances stealth, making detection by existing defenses significantly harder. Using CLIP as a case study, experimental results demonstrate the effectiveness of C^2 ATTACK, achieving high attack success rates while maintaining robustness against advanced defenses.
- Abstract(参考訳): バックドア攻撃はディープラーニングモデルに重大な脅威をもたらし、敵が推論中にモデルの振る舞いを制御する隠れトリガーを埋めることを可能にする。
従来のバックドア攻撃は通常、入力データに明示的なトリガー(例えば、外部パッチや摂動)を挿入することに依存するが、既存の防御メカニズムを回避するのに苦労することが多い。
この制限に対処するため、ディープラーニングシステムにおける推論プロセスのレンズを通してバックドア攻撃を調査し、解釈可能なAIから洞察を引き出す。
モデルの潜在表現における学習概念の操作として,バックドアアクティベーションを概念化する。
したがって、既存の攻撃は推論中にこれらの活性化概念を暗黙的に操作すると見なすことができる。
なぜ概念を明示的に操作しないのか?
このアイデアは、我々の新しいバックドア攻撃フレームワークであるConcept Confusion Attack (C^2 ATTACK)につながります。
実際のトリガーの使用を回避し、潜伏空間における特定の概念を直接活性化または非活性化させることにより、我々のアプローチはステルスを高め、既存の防御による検出を著しく困難にする。
ケーススタディとしてCLIPを用いて,C^2 ATTACKの有効性を実証し,高度防衛に対する堅牢性を保ちながら高い攻撃成功率を達成した。
関連論文リスト
- A4O: All Trigger for One sample [10.78460062665304]
提案されたバックドアディフェンダーは、トリガーが統一された方法で現れるという仮定に依存することが多い。
本稿では,この単純な仮定が抜け穴を生じさせ,より洗練されたバックドア攻撃を回避できることを示す。
我々は,複数の種類のバックドアトリガーを組み込んだ新たなバックドア攻撃機構を設計し,ステルスネスと有効性に着目した。
論文 参考訳(メタデータ) (2025-01-13T10:38:58Z) - Unlearn to Relearn Backdoors: Deferred Backdoor Functionality Attacks on Deep Learning Models [6.937795040660591]
バックドア攻撃の新たなパラダイムとして,Deferred Activated Backdoor Functionality (DABF)を紹介した。
従来の攻撃とは異なり、DABFは当初バックドアを隠蔽し、起動しても良質な出力を生成する。
DABF攻撃は、マシンラーニングモデルのライフサイクルで一般的なプラクティスを利用して、モデル更新と初期デプロイ後の微調整を実行する。
論文 参考訳(メタデータ) (2024-11-10T07:01:53Z) - Breaking the False Sense of Security in Backdoor Defense through Re-Activation Attack [32.74007523929888]
防衛後のバックドアモデルの特徴を再検討する。
既存の訓練後防衛戦略から派生した防衛モデルには,元のバックドアが現存していることが判明した。
我々は,これらの休眠バックドアを推論中に簡単に再活性化できることを実証的に示す。
論文 参考訳(メタデータ) (2024-05-25T08:57:30Z) - On the Difficulty of Defending Contrastive Learning against Backdoor
Attacks [58.824074124014224]
バックドア攻撃が、特有のメカニズムによってどのように動作するかを示す。
本研究は, 対照的なバックドア攻撃の特異性に合わせて, 防御の必要性を浮き彫りにした。
論文 参考訳(メタデータ) (2023-12-14T15:54:52Z) - BadCLIP: Dual-Embedding Guided Backdoor Attack on Multimodal Contrastive
Learning [85.2564206440109]
本報告では,防衛後においてもバックドア攻撃が有効であり続けるという現実的なシナリオにおける脅威を明らかにする。
バックドア検出や細調整防御のモデル化に抵抗性のあるemphtoolnsアタックを導入する。
論文 参考訳(メタデータ) (2023-11-20T02:21:49Z) - Rethinking Backdoor Attacks [122.1008188058615]
バックドア攻撃では、悪意ある構築されたバックドアの例をトレーニングセットに挿入し、結果のモデルを操作に脆弱にする。
このような攻撃に対する防御は、典型的には、これらの挿入された例をトレーニングセットの外れ値として見ることと、堅牢な統計からのテクニックを使用してそれらを検出し、削除することである。
トレーニングデータ分布に関する構造情報がなければ,バックドア攻撃は自然に発生するデータの特徴と区別できないことを示す。
論文 参考訳(メタデータ) (2023-07-19T17:44:54Z) - Backdoor Attack with Sparse and Invisible Trigger [57.41876708712008]
ディープニューラルネットワーク(DNN)は、バックドア攻撃に対して脆弱である。
バックドアアタックは、訓練段階の脅威を脅かしている。
軽度で目に見えないバックドアアタック(SIBA)を提案する。
論文 参考訳(メタデータ) (2023-05-11T10:05:57Z) - BATT: Backdoor Attack with Transformation-based Triggers [72.61840273364311]
ディープニューラルネットワーク(DNN)は、バックドア攻撃に対して脆弱である。
バックドアの敵は、敵が特定したトリガーパターンによって活性化される隠れたバックドアを注入する。
最近の研究によると、既存の攻撃のほとんどは現実世界で失敗した。
論文 参考訳(メタデータ) (2022-11-02T16:03:43Z) - Backdoor Defense via Suppressing Model Shortcuts [91.30995749139012]
本稿では,モデル構造の角度からバックドア機構を探索する。
攻撃成功率 (ASR) は, キースキップ接続の出力を減少させると著しく低下することを示した。
論文 参考訳(メタデータ) (2022-11-02T15:39:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。