論文の概要: BackWeak: Backdooring Knowledge Distillation Simply with Weak Triggers and Fine-tuning
- arxiv url: http://arxiv.org/abs/2511.12046v1
- Date: Sat, 15 Nov 2025 05:53:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-18 14:36:23.531399
- Title: BackWeak: Backdooring Knowledge Distillation Simply with Weak Triggers and Fine-tuning
- Title(参考訳): BackWeak: バックドアの知識蒸留は、弱みのトリガーと微調整で簡単にできる
- Authors: Shanmin Wang, Dongdong Zhao,
- Abstract要約: BackWeakはシンプルで代理なしの攻撃パラダイムです。
弱引き金で良心的な教師を微調整するだけで、強力なバックドアを埋め込むことができることを示す。
BackWeakは、従来の精巧なアプローチよりも効率的で、シンプルで、しばしばステルス性が高い。
- 参考スコア(独自算出の注目度): 2.324987745098552
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Knowledge Distillation (KD) is essential for compressing large models, yet relying on pre-trained "teacher" models downloaded from third-party repositories introduces serious security risks -- most notably backdoor attacks. Existing KD backdoor methods are typically complex and computationally intensive: they employ surrogate student models and simulated distillation to guarantee transferability, and they construct triggers in a way similar to universal adversarial perturbations (UAPs), which being not stealthy in magnitude, inherently exhibit strong adversarial behavior. This work questions whether such complexity is necessary and constructs stealthy "weak" triggers -- imperceptible perturbations that have negligible adversarial effect. We propose BackWeak, a simple, surrogate-free attack paradigm. BackWeak shows that a powerful backdoor can be implanted by simply fine-tuning a benign teacher with a weak trigger using a very small learning rate. We demonstrate that this delicate fine-tuning is sufficient to embed a backdoor that reliably transfers to diverse student architectures during a victim's standard distillation process, yielding high attack success rates. Extensive empirical evaluations on multiple datasets, model architectures, and KD methods show that BackWeak is efficient, simpler, and often more stealthy than previous elaborate approaches. This work calls on researchers studying KD backdoor attacks to pay particular attention to the trigger's stealthiness and its potential adversarial characteristics.
- Abstract(参考訳): 知識蒸留(KD)は、大規模なモデルを圧縮するために不可欠であるが、サードパーティリポジトリからダウンロードされた事前訓練された「教師」モデルに依存しているため、深刻なセキュリティリスクが伴う。特に、既存のKDバックドア手法は、一般的に複雑で計算集約的なものであり、学生モデルのサロゲートとシミュレートされた蒸留を採用して転送可能性を保証する。また、極端にステルス性のない、本質的に強い敵意の振る舞いを示す、普遍的敵意の摂動(UAP)と似た方法でトリガーを構築する。この作業は、そのような複雑さが必須であり、ステルス性"弱み"トリガー(spirthy "weak" triggers" triggers)を構築しているかどうかに疑問を投げかける。
単純なサロゲートフリー攻撃パラダイムであるBackWeakを提案する。
BackWeakは、強力なバックドアを、非常に少ない学習率で弱いトリガーで良心的な教師を微調整することで、埋め込むことができることを示している。
この繊細な微調整は、犠牲者の標準的な蒸留プロセス中に様々な学生建築に確実に移行し、高い攻撃成功率をもたらすバックドアを埋め込むのに十分であることを示す。
複数のデータセット、モデルアーキテクチャ、KDメソッドに対する広範な経験的評価は、BackWeakが従来の精巧なアプローチよりも効率的で、シンプルで、しばしばステルス性が高いことを示している。
この研究は、KDバックドア攻撃を研究する研究者に、トリガーのステルスネスとその潜在的な敵対的特性に特に注意を払うよう呼びかけている。
関連論文リスト
- Backdoor Unlearning by Linear Task Decomposition [69.91984435094157]
ファンデーションモデルは、敵の摂動と標的のバックドア攻撃に非常に敏感である。
既存のバックドア除去アプローチは、有害な振る舞いをオーバーライドするために、コストのかかる微調整に依存している。
このことは、バックドアがモデルの一般的な能力を損なうことなく取り除けるかどうかという問題を提起する。
論文 参考訳(メタデータ) (2025-10-16T16:18:07Z) - InverTune: Removing Backdoors from Multimodal Contrastive Learning Models via Trigger Inversion and Activation Tuning [36.56302680556252]
InverTuneは、最小限の攻撃仮定の下で、マルチモーダルモデルのための最初のバックドアディフェンスフレームワークである。
InverTuneは、3つの主要なコンポーネントを通じてバックドアアーティファクトを効果的に識別し、削除し、バックドアアタックに対する堅牢な保護を実現する。
実験の結果、InverTuneは最先端(SOTA)攻撃に対して平均攻撃成功率(ASR)を97.87%削減した。
論文 参考訳(メタデータ) (2025-06-14T09:08:34Z) - A4O: All Trigger for One sample [10.78460062665304]
提案されたバックドアディフェンダーは、トリガーが統一された方法で現れるという仮定に依存することが多い。
本稿では,この単純な仮定が抜け穴を生じさせ,より洗練されたバックドア攻撃を回避できることを示す。
我々は,複数の種類のバックドアトリガーを組み込んだ新たなバックドア攻撃機構を設計し,ステルスネスと有効性に着目した。
論文 参考訳(メタデータ) (2025-01-13T10:38:58Z) - Efficient Backdoor Defense in Multimodal Contrastive Learning: A Token-Level Unlearning Method for Mitigating Threats [52.94388672185062]
本稿では,機械学習という概念を用いて,バックドアの脅威に対する効果的な防御機構を提案する。
これは、モデルがバックドアの脆弱性を迅速に学習するのを助けるために、小さな毒のサンプルを戦略的に作成することを必要とする。
バックドア・アンラーニング・プロセスでは,新しいトークン・ベースの非ラーニング・トレーニング・システムを提案する。
論文 参考訳(メタデータ) (2024-09-29T02:55:38Z) - Unlearning Backdoor Threats: Enhancing Backdoor Defense in Multimodal Contrastive Learning via Local Token Unlearning [49.242828934501986]
マルチモーダルコントラスト学習は高品質な機能を構築するための強力なパラダイムとして登場した。
バックドア攻撃は 訓練中に モデルに 悪意ある行動を埋め込む
我々は,革新的なトークンベースの局所的忘れ忘れ学習システムを導入する。
論文 参考訳(メタデータ) (2024-03-24T18:33:15Z) - BadCLIP: Dual-Embedding Guided Backdoor Attack on Multimodal Contrastive
Learning [85.2564206440109]
本報告では,防衛後においてもバックドア攻撃が有効であり続けるという現実的なシナリオにおける脅威を明らかにする。
バックドア検出や細調整防御のモデル化に抵抗性のあるemphtoolnsアタックを導入する。
論文 参考訳(メタデータ) (2023-11-20T02:21:49Z) - Backdoor Defense via Suppressing Model Shortcuts [91.30995749139012]
本稿では,モデル構造の角度からバックドア機構を探索する。
攻撃成功率 (ASR) は, キースキップ接続の出力を減少させると著しく低下することを示した。
論文 参考訳(メタデータ) (2022-11-02T15:39:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。