論文の概要: Robust Knowledge Distillation Based on Feature Variance Against Backdoored Teacher Model
- arxiv url: http://arxiv.org/abs/2406.03409v1
- Date: Sat, 1 Jun 2024 11:25:03 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-06 17:22:00.342260
- Title: Robust Knowledge Distillation Based on Feature Variance Against Backdoored Teacher Model
- Title(参考訳): バックドア型教師モデルに対する特徴変数に基づくロバスト知識蒸留
- Authors: Jinyin Chen, Xiaoming Zhao, Haibin Zheng, Xiao Li, Sheng Xiang, Haifeng Guo,
- Abstract要約: 知識蒸留(KD)は、エッジ展開において広く使われている圧縮技術の一つである。
本稿では,特徴分散に基づいてバックドアを緩和しながらモデルを圧縮するロバストKDを提案する。
- 参考スコア(独自算出の注目度): 13.367731896112861
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Benefiting from well-trained deep neural networks (DNNs), model compression have captured special attention for computing resource limited equipment, especially edge devices. Knowledge distillation (KD) is one of the widely used compression techniques for edge deployment, by obtaining a lightweight student model from a well-trained teacher model released on public platforms. However, it has been empirically noticed that the backdoor in the teacher model will be transferred to the student model during the process of KD. Although numerous KD methods have been proposed, most of them focus on the distillation of a high-performing student model without robustness consideration. Besides, some research adopts KD techniques as effective backdoor mitigation tools, but they fail to perform model compression at the same time. Consequently, it is still an open problem to well achieve two objectives of robust KD, i.e., student model's performance and backdoor mitigation. To address these issues, we propose RobustKD, a robust knowledge distillation that compresses the model while mitigating backdoor based on feature variance. Specifically, RobustKD distinguishes the previous works in three key aspects: (1) effectiveness: by distilling the feature map of the teacher model after detoxification, the main task performance of the student model is comparable to that of the teacher model; (2) robustness: by reducing the characteristic variance between the teacher model and the student model, it mitigates the backdoor of the student model under backdoored teacher model scenario; (3) generic: RobustKD still has good performance in the face of multiple data models (e.g., WRN 28-4, Pyramid-200) and diverse DNNs (e.g., ResNet50, MobileNet).
- Abstract(参考訳): 十分に訓練されたディープニューラルネットワーク(DNN)に適合したモデル圧縮は、コンピューティングリソースの制限された機器、特にエッジデバイスに特に注目されている。
知識蒸留 (KD) は, 公的なプラットフォーム上で広く訓練された教師モデルから, 軽量な学生モデルを得ることによって, エッジ配置の圧縮技術として広く利用されている技術の一つである。
しかし、KDの過程において、教師モデルのバックドアが学生モデルに移管されることは実証的に認識されている。
多くのKD法が提案されているが、そのほとんどは頑健さを考慮せずに高性能な学生モデルの蒸留に焦点を当てている。
さらに、KDテクニックを効果的なバックドア緩和ツールとして採用する研究もあるが、同時にモデル圧縮を行うことはできなかった。
その結果、学生モデルの性能とバックドア緩和という、堅牢なKDの2つの目的を十分に達成することは、依然として未解決の問題である。
本稿では,ロバストKDを提案する。ロバストKDは,特徴分散に基づいてバックドアを緩和しながらモデルを圧縮する,堅牢な知識蒸留法である。
特に、RobustKDは、従来の3つの重要な側面を区別している: 有効性: 解毒後の教師モデルの特徴マップを蒸留することにより、学生モデルの主タスク性能は教師モデルのそれと同等になる; 堅牢性: 教師モデルと生徒モデルの特徴的差異を減らすことにより、バックドア型教師モデルのバックドアを緩和する; 汎用性: RobustKDは、複数のデータモデル(例えば、WRN 28-4, Pyramid-200)と多様なDNN(例えば、ResNet50, MobileNet)の面において、優れたパフォーマンスを持つ。
関連論文リスト
- Exploring and Enhancing the Transfer of Distribution in Knowledge Distillation for Autoregressive Language Models [62.5501109475725]
知識蒸留(KD)は、より小さな学生モデルを模倣するように訓練することで、大きな教師モデルを圧縮する技術である。
本稿では、教師ネットワークが小さなオンラインモジュールを統合し、学生モデルと同時学習するオンライン知識蒸留(OKD)について紹介する。
OKDは、様々なモデルアーキテクチャやサイズにおけるリードメソッドのパフォーマンスを達成または超え、トレーニング時間を最大4倍に短縮する。
論文 参考訳(メタデータ) (2024-09-19T07:05:26Z) - Revisiting Knowledge Distillation for Autoregressive Language Models [88.80146574509195]
知識蒸留(KD)を改善するための簡易かつ効果的な適応型教育法(ATKD)を提案する。
ATKDの中核は、ロート学習を減らし、教育をより多様で柔軟なものにすることだ。
8つのLMタスクの実験は、ATKDの助けを借りて、様々なベースラインのKD手法が一貫した、重要なパフォーマンス向上を達成することを示した。
論文 参考訳(メタデータ) (2024-02-19T07:01:10Z) - DistiLLM: Towards Streamlined Distillation for Large Language Models [53.46759297929675]
DistiLLMは自動回帰言語モデルのためのより効率的で効率的なKDフレームワークである。
DisiLLMは,(1)新しいスキューKulback-Leibler分散損失,(2)学生生成出力の効率向上を目的とした適応型オフ政治アプローチの2つのコンポーネントから構成される。
論文 参考訳(メタデータ) (2024-02-06T11:10:35Z) - Knowledge Distillation with Representative Teacher Keys Based on
Attention Mechanism for Image Classification Model Compression [1.503974529275767]
知識蒸留(KD)はモデルパラメータを減らすためのモデル圧縮の効果的な方法の1つとして認識されている。
注意機構にヒントを得て,代表教師キー(RTK)と呼ばれる新しいKD手法を提案する。
提案するRTKは,最先端の注意に基づくKD手法の分類精度を効果的に向上させることができる。
論文 参考訳(メタデータ) (2022-06-26T05:08:50Z) - How and When Adversarial Robustness Transfers in Knowledge Distillation? [137.11016173468457]
本稿では,教師モデルから学生モデルへの知識蒸留(KD)における対向ロバスト性の移行について検討する。
我々は,標準的なKDトレーニングが対向的堅牢性を維持するのに失敗することを示すとともに,KDIGA(入力勾配アライメント)を併用したKDを提案する。
特定の前提の下では、提案したKDIGAを用いた学生モデルは、少なくとも教師モデルと同じ確証された堅牢性を達成することができることを証明している。
論文 参考訳(メタデータ) (2021-10-22T21:30:53Z) - Undistillable: Making A Nasty Teacher That CANNOT teach students [84.6111281091602]
本論文では,ナスティ・ティーチング(Nasty Teacher)という,通常の教師とほぼ同じパフォーマンスを得られる特別に訓練されたティーチング・ネットワークについて紹介し,研究する。
本稿では, 自負知識蒸留法という, シンプルで効果的な教師構築アルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-05-16T08:41:30Z) - Reinforced Multi-Teacher Selection for Knowledge Distillation [54.72886763796232]
知識蒸留はモデル圧縮の一般的な方法です。
現在の方法は、蒸留全体の教師モデルに固定重量を割り当てます。
既存のメソッドのほとんどは、すべての教師モデルに等しい重みを割り当てます。
本論文では,学習例の複雑性や生徒モデル能力の違いから,教師モデルとの違いを学習することで,生徒モデルの蒸留性能の向上が期待できることを考察する。
論文 参考訳(メタデータ) (2020-12-11T08:56:39Z) - Pea-KD: Parameter-efficient and Accurate Knowledge Distillation on BERT [20.732095457775138]
知識蒸留(KD)は、モデル圧縮の手法として広く知られている。
Pea-KDは、Shuffled Sharing(SPS)とPretraining with Teacher's Predictions(PTP)の2つの主要部分から構成される。
論文 参考訳(メタデータ) (2020-09-30T17:52:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。