論文の概要: Adversarial Sparse Teacher: Defense Against Distillation-Based Model
Stealing Attacks Using Adversarial Examples
- arxiv url: http://arxiv.org/abs/2403.05181v1
- Date: Fri, 8 Mar 2024 09:43:27 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-11 20:16:45.427120
- Title: Adversarial Sparse Teacher: Defense Against Distillation-Based Model
Stealing Attacks Using Adversarial Examples
- Title(参考訳): 対人スパース教師 : 対人例を用いた蒸留モデルステアリング攻撃に対する防御
- Authors: Eda Yilmaz and Hacer Yalim Keles
- Abstract要約: 知識蒸留(KD)は、先進的な教師モデルからより単純な学生モデルへの識別能力の移行を促進する。
また、モデル盗難攻撃にも利用されており、敵はKDを使って教師モデルの機能を模倣している。
この領域の最近の発展は、スパースアウトプットが学生モデルの性能を著しく低下させることを示す経験的分析であるスティンギー教師モデルの影響を受けている。
- 参考スコア(独自算出の注目度): 2.3931689873603603
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Knowledge Distillation (KD) facilitates the transfer of discriminative
capabilities from an advanced teacher model to a simpler student model,
ensuring performance enhancement without compromising accuracy. It is also
exploited for model stealing attacks, where adversaries use KD to mimic the
functionality of a teacher model. Recent developments in this domain have been
influenced by the Stingy Teacher model, which provided empirical analysis
showing that sparse outputs can significantly degrade the performance of
student models. Addressing the risk of intellectual property leakage, our work
introduces an approach to train a teacher model that inherently protects its
logits, influenced by the Nasty Teacher concept. Differing from existing
methods, we incorporate sparse outputs of adversarial examples with standard
training data to strengthen the teacher's defense against student distillation.
Our approach carefully reduces the relative entropy between the original and
adversarially perturbed outputs, allowing the model to produce adversarial
logits with minimal impact on overall performance. The source codes will be
made publicly available soon.
- Abstract(参考訳): 知識蒸留(KD)は、先進的な教師モデルからより単純な学生モデルへの識別能力を伝達し、精度を損なうことなく性能向上を図る。
また、敵がkdを使って教師モデルの機能を模倣するモデル盗み攻撃にも利用されている。
この領域の最近の発展は、スパースアウトプットが学生モデルの性能を著しく低下させることを示す経験的分析であるスティンギー教師モデルの影響を受けている。
知的財産漏洩のリスクに対処し,本研究は,教師概念の悪影響を生かして,そのロジットを内在的に保護する教師モデルの学習手法を提案する。
既存の方法と異なり, 生徒の蒸留に対する教師の防御を強化するために, 標準訓練データを用いて, 実例のスパースアウトプットを組み込んだ。
提案手法は, 原出力と逆摂動出力の相対エントロピーを慎重に低減し, 対向ロジットの生成が全体の性能に与える影響を最小限に抑える。
ソースコードはまもなく公開される予定だ。
関連論文リスト
- Distilling Adversarial Robustness Using Heterogeneous Teachers [9.404102810698202]
頑健さは 逆行訓練を受けた教師から 知識蒸留を用いて 生徒モデルに移行できる
異種教員を用いた強靭性を蒸留することにより、敵攻撃に対する防御体制を構築した。
ホワイトボックスとブラックボックスの両方のシナリオにおける分類タスクの実験は、DARHTが最先端のクリーンで堅牢な精度を達成することを示した。
論文 参考訳(メタデータ) (2024-02-23T19:55:13Z) - Perturbation-Invariant Adversarial Training for Neural Ranking Models:
Improving the Effectiveness-Robustness Trade-Off [107.35833747750446]
正統な文書に不可避な摂動を加えることで 敵の例を作れます
この脆弱性は信頼性に関する重大な懸念を生じさせ、NRMの展開を妨げている。
本研究では,NRMにおける有効・損耗トレードオフに関する理論的保証を確立する。
論文 参考訳(メタデータ) (2023-12-16T05:38:39Z) - Comparative Knowledge Distillation [102.35425896967791]
伝統的な知識蒸留(KD)は、頻繁な推論のために教師モデルに容易にアクセスできることを前提としている。
本稿では,教師モデルにおけるサンプルの解釈の微妙な違いを学生モデルに理解させるための比較知識蒸留(CKD)を提案する。
CKDは、アートデータ拡張とKDテクニックの状態を一貫して上回る。
論文 参考訳(メタデータ) (2023-11-03T21:55:33Z) - Isolation and Induction: Training Robust Deep Neural Networks against
Model Stealing Attacks [51.51023951695014]
既存のモデル盗難防衛は、被害者の後部確率に偽りの摂動を加え、攻撃者を誤解させる。
本稿では,モデルステルス防衛のための新規かつ効果的なトレーニングフレームワークである分離誘導(InI)を提案する。
モデルの精度を損なうモデル予測に摂動を加えるのとは対照的に、我々はモデルを訓練して、盗むクエリに対して非形式的なアウトプットを生成する。
論文 参考訳(メタデータ) (2023-08-02T05:54:01Z) - Adversarial Contrastive Distillation with Adaptive Denoising [15.119013995045192]
小型モデルのロバスト性を高めるために, コントラスト相関脱ノイズ蒸留法 (CRDND) を提案する。
CRDNDは、堅牢な知識を効率的に伝達し、最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2023-02-17T09:00:18Z) - On the benefits of knowledge distillation for adversarial robustness [53.41196727255314]
知識蒸留は, 対向ロバスト性において, 最先端モデルの性能を高めるために直接的に利用できることを示す。
本稿では,モデルの性能向上のための新しいフレームワークであるAdversarial Knowledge Distillation (AKD)を提案する。
論文 参考訳(メタデータ) (2022-03-14T15:02:13Z) - How and When Adversarial Robustness Transfers in Knowledge Distillation? [137.11016173468457]
本稿では,教師モデルから学生モデルへの知識蒸留(KD)における対向ロバスト性の移行について検討する。
我々は,標準的なKDトレーニングが対向的堅牢性を維持するのに失敗することを示すとともに,KDIGA(入力勾配アライメント)を併用したKDを提案する。
特定の前提の下では、提案したKDIGAを用いた学生モデルは、少なくとも教師モデルと同じ確証された堅牢性を達成することができることを証明している。
論文 参考訳(メタデータ) (2021-10-22T21:30:53Z) - Teacher Model Fingerprinting Attacks Against Transfer Learning [23.224444604615123]
転校学習における教師モデル曝露の脅威を包括的に調査する。
本稿では,学生モデルの起源を推定するために,教師モデルフィンガープリント攻撃を提案する。
我々の攻撃は、探索クエリがほとんどないモデルの起源を正確に識別できることを示します。
論文 参考訳(メタデータ) (2021-06-23T15:52:35Z) - Undistillable: Making A Nasty Teacher That CANNOT teach students [84.6111281091602]
本論文では,ナスティ・ティーチング(Nasty Teacher)という,通常の教師とほぼ同じパフォーマンスを得られる特別に訓練されたティーチング・ネットワークについて紹介し,研究する。
本稿では, 自負知識蒸留法という, シンプルで効果的な教師構築アルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-05-16T08:41:30Z) - Feature Distillation With Guided Adversarial Contrastive Learning [41.28710294669751]
本研究は,教師から生徒へ対人ロバスト性を伝えるためのGACD ( Guided Adversarial Contrastive Distillation) を提案する。
アンカーとして訓練された教師モデルでは,教師に類似した特徴を抽出することが期待されている。
GACDでは、生徒は頑丈な特徴を抽出することを学ぶだけでなく、教師からの構造的知識も取得する。
論文 参考訳(メタデータ) (2020-09-21T14:46:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。