論文の概要: How to Backdoor the Knowledge Distillation
- arxiv url: http://arxiv.org/abs/2504.21323v1
- Date: Wed, 30 Apr 2025 05:19:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-09 22:25:18.992301
- Title: How to Backdoor the Knowledge Distillation
- Title(参考訳): 知識蒸留のバックドア
- Authors: Chen Wu, Qian Ma, Prasenjit Mitra, Sencun Zhu,
- Abstract要約: バックドアトリガを組み込んだ逆例を用いて, 蒸留データセットを戦略的に有害化する新たな攻撃手法を提案する。
この技術は、教師モデルの整合性を保ちながら、生徒モデルのステルスな妥協を可能にする。
本研究は,未認識の脆弱性を明らかにし,知識蒸留プロセスの確保を目的とした今後の研究の道を開くものである。
- 参考スコア(独自算出の注目度): 10.478504819079548
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Knowledge distillation has become a cornerstone in modern machine learning systems, celebrated for its ability to transfer knowledge from a large, complex teacher model to a more efficient student model. Traditionally, this process is regarded as secure, assuming the teacher model is clean. This belief stems from conventional backdoor attacks relying on poisoned training data with backdoor triggers and attacker-chosen labels, which are not involved in the distillation process. Instead, knowledge distillation uses the outputs of a clean teacher model to guide the student model, inherently preventing recognition or response to backdoor triggers as intended by an attacker. In this paper, we challenge this assumption by introducing a novel attack methodology that strategically poisons the distillation dataset with adversarial examples embedded with backdoor triggers. This technique allows for the stealthy compromise of the student model while maintaining the integrity of the teacher model. Our innovative approach represents the first successful exploitation of vulnerabilities within the knowledge distillation process using clean teacher models. Through extensive experiments conducted across various datasets and attack settings, we demonstrate the robustness, stealthiness, and effectiveness of our method. Our findings reveal previously unrecognized vulnerabilities and pave the way for future research aimed at securing knowledge distillation processes against backdoor attacks.
- Abstract(参考訳): 知識蒸留は、大規模で複雑な教師モデルからより効率的な学生モデルに知識を伝達する能力によって、現代の機械学習システムの基盤となっている。
伝統的に、このプロセスは教師モデルがクリーンであると仮定して安全と見なされる。
この信念は、蒸留プロセスに関わらない、バックドアトリガーやアタッカー・チョウセンラベルによる有毒な訓練データに依存する従来のバックドア攻撃に起因している。
その代わり、知識蒸留はクリーンな教師モデルの出力を使用して学生モデルを誘導し、攻撃者が意図したバックドアトリガーに対する認識や反応を本質的に防止する。
本稿では, バックドアトリガを組み込んだ逆例を用いて, 蒸留データセットを戦略的に有害にする新たな攻撃手法を導入することにより, この仮定に挑戦する。
この技術は、教師モデルの整合性を保ちながら、生徒モデルのステルスな妥協を可能にする。
我々の革新的なアプローチは、クリーンな教師モデルを用いた知識蒸留プロセスにおける脆弱性の活用に成功した最初の例である。
様々なデータセットや攻撃設定に対して広範な実験を行うことで,本手法の堅牢性,ステルス性,有効性を示す。
その結果,未認識の脆弱性を明らかにし,バックドア攻撃に対する知識蒸留プロセスの確保を目的とした今後の研究の道を開くことができた。
関連論文リスト
- Model Mimic Attack: Knowledge Distillation for Provably Transferable Adversarial Examples [1.1820990818670631]
この研究は、分類ニューラルネットワークに対する知識蒸留に基づく攻撃の成功に関する証明可能な保証を提供する最初のものである。
学生モデルに十分な学習能力がある場合、教師モデルに対する攻撃は、有限個の蒸留イテレーションで見つかることが保証される。
論文 参考訳(メタデータ) (2024-10-21T11:06:56Z) - Efficient Backdoor Defense in Multimodal Contrastive Learning: A Token-Level Unlearning Method for Mitigating Threats [52.94388672185062]
本稿では,機械学習という概念を用いて,バックドアの脅威に対する効果的な防御機構を提案する。
これは、モデルがバックドアの脆弱性を迅速に学習するのを助けるために、小さな毒のサンプルを戦略的に作成することを必要とする。
バックドア・アンラーニング・プロセスでは,新しいトークン・ベースの非ラーニング・トレーニング・システムを提案する。
論文 参考訳(メタデータ) (2024-09-29T02:55:38Z) - Unlearning Backdoor Threats: Enhancing Backdoor Defense in Multimodal Contrastive Learning via Local Token Unlearning [49.242828934501986]
マルチモーダルコントラスト学習は高品質な機能を構築するための強力なパラダイムとして登場した。
バックドア攻撃は 訓練中に モデルに 悪意ある行動を埋め込む
我々は,革新的なトークンベースの局所的忘れ忘れ学習システムを導入する。
論文 参考訳(メタデータ) (2024-03-24T18:33:15Z) - Rethinking Backdoor Attacks on Dataset Distillation: A Kernel Method
Perspective [65.70799289211868]
本稿では, データセット蒸留に特化した2つの新しい理論駆動トリガパターン生成手法を提案する。
最適化に基づくトリガ設計フレームワークは,データセットの蒸留に対する効果的なバックドア攻撃を通知する。
論文 参考訳(メタデータ) (2023-11-28T09:53:05Z) - Learning the Wrong Lessons: Inserting Trojans During Knowledge
Distillation [68.8204255655161]
トロイの木馬の攻撃は、ディープラーニングモデルの基本的脆弱性を明らかにし、同時に顕著に有名になった。
我々は,教師に顕著な振る舞いを導入することなく,生徒モデルにトロイの木馬を埋め込むために,乱れのないデータ知識蒸留プロセスを活用することを目的とする。
我々は、生徒の精度を効果的に低減し、教師のパフォーマンスを変えず、実際に効率的に構築可能なトロイの木馬攻撃を考案した。
論文 参考訳(メタデータ) (2023-03-09T21:37:50Z) - Students Parrot Their Teachers: Membership Inference on Model
Distillation [54.392069096234074]
知識蒸留によるプライバシを,教師と学生のトレーニングセットの両方で研究する。
私たちの攻撃は、生徒セットと教師セットが類似している場合、または攻撃者が教師セットを毒できる場合、最強です。
論文 参考訳(メタデータ) (2023-03-06T19:16:23Z) - Distilling the Undistillable: Learning from a Nasty Teacher [30.0248670422039]
標準データセットにおいて,Nasty Teacherの学習を68.63%向上させる効率的な手法を開発した。
また,盗みの洞察に基づく即興防衛手法についても検討する。
多様なモデル/セットに関する詳細な実験と改善は、我々のアプローチの有効性を実証している。
論文 参考訳(メタデータ) (2022-10-21T04:35:44Z) - On the benefits of knowledge distillation for adversarial robustness [53.41196727255314]
知識蒸留は, 対向ロバスト性において, 最先端モデルの性能を高めるために直接的に利用できることを示す。
本稿では,モデルの性能向上のための新しいフレームワークであるAdversarial Knowledge Distillation (AKD)を提案する。
論文 参考訳(メタデータ) (2022-03-14T15:02:13Z) - Teacher Model Fingerprinting Attacks Against Transfer Learning [23.224444604615123]
転校学習における教師モデル曝露の脅威を包括的に調査する。
本稿では,学生モデルの起源を推定するために,教師モデルフィンガープリント攻撃を提案する。
我々の攻撃は、探索クエリがほとんどないモデルの起源を正確に識別できることを示します。
論文 参考訳(メタデータ) (2021-06-23T15:52:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。