論文の概要: Taught Well Learned Ill: Towards Distillation-conditional Backdoor Attack
- arxiv url: http://arxiv.org/abs/2509.23871v1
- Date: Sun, 28 Sep 2025 13:24:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-30 22:32:19.49736
- Title: Taught Well Learned Ill: Towards Distillation-conditional Backdoor Attack
- Title(参考訳): 身近な学習:蒸留条件のバックドアアタックを目指して
- Authors: Yukun Chen, Boheng Li, Yu Yuan, Leyi Qi, Yiming Li, Tianwei Zhang, Zhan Qin, Kui Ren,
- Abstract要約: 蒸留条件のバックドア攻撃(DCBA)
DCBAは休眠と検出不能なバックドアを教師モデルに注入し、KDプロセスを介して学生モデルで活性化される。
我々のSCARは、事前最適化されたトリガーインジェクション機能を持つ暗黙の微分アルゴリズムを用いて、この複雑な最適化に対処する。
- 参考スコア(独自算出の注目度): 43.65095213656978
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Knowledge distillation (KD) is a vital technique for deploying deep neural networks (DNNs) on resource-constrained devices by transferring knowledge from large teacher models to lightweight student models. While teacher models from third-party platforms may undergo security verification (\eg, backdoor detection), we uncover a novel and critical threat: distillation-conditional backdoor attacks (DCBAs). DCBA injects dormant and undetectable backdoors into teacher models, which become activated in student models via the KD process, even with clean distillation datasets. While the direct extension of existing methods is ineffective for DCBA, we implement this attack by formulating it as a bilevel optimization problem and proposing a simple yet effective method (\ie, SCAR). Specifically, the inner optimization simulates the KD process by optimizing a surrogate student model, while the outer optimization leverages outputs from this surrogate to optimize the teacher model for implanting the conditional backdoor. Our SCAR addresses this complex optimization utilizing an implicit differentiation algorithm with a pre-optimized trigger injection function. Extensive experiments across diverse datasets, model architectures, and KD techniques validate the effectiveness of our SCAR and its resistance against existing backdoor detection, highlighting a significant yet previously overlooked vulnerability in the KD process. Our code is available at https://github.com/WhitolfChen/SCAR.
- Abstract(参考訳): 知識蒸留(KD)は、大規模教師モデルから軽量学生モデルに知識を伝達することにより、リソース制約されたデバイスにディープニューラルネットワーク(DNN)をデプロイする上で重要な技術である。
サードパーティプラットフォームからの教師モデルは、セキュリティ検証(\eg, backdoor detection)を行う可能性があるが、我々は、新しくて重要な脅威、すなわち蒸留条件付きバックドア攻撃(DCBA)を明らかにする。
DCBAは休眠と検出不能なバックドアを教師モデルに注入し、KDプロセスを通じて学生モデルで活性化される。
既存の手法の直接拡張はDCBAには効果がないが、この攻撃は二段階最適化問題として定式化し、単純で効果的な方法(SCAR,\ie, SCAR)を提案することで実現している。
具体的には、内的最適化は、補助学生モデルを最適化することでKD過程をシミュレートし、外的最適化は、補助学生の出力を活用して条件付きバックドアを埋め込む教師モデルを最適化する。
我々のSCARは、事前最適化されたトリガーインジェクション機能を持つ暗黙の微分アルゴリズムを用いて、この複雑な最適化に対処する。
多様なデータセット、モデルアーキテクチャ、KD技術にわたる大規模な実験は、SCARの有効性と既存のバックドア検出に対する耐性を検証します。
私たちのコードはhttps://github.com/WhitolfChen/SCAR.comで公開されています。
関連論文リスト
- DUP: Detection-guided Unlearning for Backdoor Purification in Language Models [6.726081307488787]
DUP (Detection-guided Unlearning for Purification) は、非学習ベースの浄化とバックドア検出を統合するフレームワークである。
検出結果に基づいてパラメータ効率の低い未学習機構を用いてモデルを浄化する。
私たちのコードはhttps://github.com/ManHu2025/DUP.comで公開されています。
論文 参考訳(メタデータ) (2025-08-03T08:12:21Z) - Neural Antidote: Class-Wise Prompt Tuning for Purifying Backdoors in CLIP [51.04452017089568]
CBPT(Class-wise Backdoor Prompt Tuning)は、テキストプロンプトでCLIPを間接的に浄化する効率的な防御機構である。
CBPTは、モデルユーティリティを保持しながら、バックドアの脅威を著しく軽減する。
論文 参考訳(メタデータ) (2025-02-26T16:25:15Z) - Behavior Backdoor for Deep Learning Models [95.50787731231063]
我々は,行動訓練されたバックドアモデルトレーニング手順として定義された行動バックドアアタックに向けた第一歩を踏み出す。
本稿では,行動バックドアを実装する最初のパイプライン,すなわち量子バックドア(QB)攻撃を提案する。
さまざまなモデル、データセット、タスクで実験が行われ、この新たなバックドア攻撃の有効性が実証された。
論文 参考訳(メタデータ) (2024-12-02T10:54:02Z) - Efficient Backdoor Defense in Multimodal Contrastive Learning: A Token-Level Unlearning Method for Mitigating Threats [52.94388672185062]
本稿では,機械学習という概念を用いて,バックドアの脅威に対する効果的な防御機構を提案する。
これは、モデルがバックドアの脆弱性を迅速に学習するのを助けるために、小さな毒のサンプルを戦略的に作成することを必要とする。
バックドア・アンラーニング・プロセスでは,新しいトークン・ベースの非ラーニング・トレーニング・システムを提案する。
論文 参考訳(メタデータ) (2024-09-29T02:55:38Z) - Transferring Backdoors between Large Language Models by Knowledge Distillation [2.9138150728729064]
バックドア攻撃は大規模言語モデル(LLM)に対する深刻な脆弱性である。
従来の手法では、特定のモデルでのみそのようなリスクを明らかにしたり、事前訓練されたフェーズを攻撃した後のタスク転送可能性を示す。
本研究では,教師LLMのバックドアを小型モデルに効果的に蒸留できる適応的トランスファー可能なバックドアアタックであるATBAを提案する。
論文 参考訳(メタデータ) (2024-08-19T10:39:45Z) - Mitigating Backdoor Attacks using Activation-Guided Model Editing [8.00994004466919]
バックドア攻撃は、機械学習モデルの完全性と信頼性を損なう。
本研究では,そのようなバックドア攻撃に対抗するために,機械学習による新たなバックドア緩和手法を提案する。
論文 参考訳(メタデータ) (2024-07-10T13:43:47Z) - Defense Against Model Extraction Attacks on Recommender Systems [53.127820987326295]
本稿では、モデル抽出攻撃に対するリコメンデータシステムに対する防御のために、グラディエントベースのランキング最適化(GRO)を導入する。
GROは、攻撃者の代理モデルの損失を最大化しながら、保護対象モデルの損失を最小限にすることを目的としている。
その結果,モデル抽出攻撃に対するGROの防御効果は良好であった。
論文 参考訳(メタデータ) (2023-10-25T03:30:42Z) - Backdoor Defense via Suppressing Model Shortcuts [91.30995749139012]
本稿では,モデル構造の角度からバックドア機構を探索する。
攻撃成功率 (ASR) は, キースキップ接続の出力を減少させると著しく低下することを示した。
論文 参考訳(メタデータ) (2022-11-02T15:39:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。