論文の概要: Adversarial Sparse Teacher: Defense Against Distillation-Based Model
Stealing Attacks Using Adversarial Examples
- arxiv url: http://arxiv.org/abs/2403.05181v1
- Date: Fri, 8 Mar 2024 09:43:27 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-11 20:16:45.427120
- Title: Adversarial Sparse Teacher: Defense Against Distillation-Based Model
Stealing Attacks Using Adversarial Examples
- Title(参考訳): 対人スパース教師 : 対人例を用いた蒸留モデルステアリング攻撃に対する防御
- Authors: Eda Yilmaz and Hacer Yalim Keles
- Abstract要約: 知識蒸留(KD)は、先進的な教師モデルからより単純な学生モデルへの識別能力の移行を促進する。
また、モデル盗難攻撃にも利用されており、敵はKDを使って教師モデルの機能を模倣している。
この領域の最近の発展は、スパースアウトプットが学生モデルの性能を著しく低下させることを示す経験的分析であるスティンギー教師モデルの影響を受けている。
- 参考スコア(独自算出の注目度): 2.3931689873603603
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Knowledge Distillation (KD) facilitates the transfer of discriminative
capabilities from an advanced teacher model to a simpler student model,
ensuring performance enhancement without compromising accuracy. It is also
exploited for model stealing attacks, where adversaries use KD to mimic the
functionality of a teacher model. Recent developments in this domain have been
influenced by the Stingy Teacher model, which provided empirical analysis
showing that sparse outputs can significantly degrade the performance of
student models. Addressing the risk of intellectual property leakage, our work
introduces an approach to train a teacher model that inherently protects its
logits, influenced by the Nasty Teacher concept. Differing from existing
methods, we incorporate sparse outputs of adversarial examples with standard
training data to strengthen the teacher's defense against student distillation.
Our approach carefully reduces the relative entropy between the original and
adversarially perturbed outputs, allowing the model to produce adversarial
logits with minimal impact on overall performance. The source codes will be
made publicly available soon.
- Abstract(参考訳): 知識蒸留(KD)は、先進的な教師モデルからより単純な学生モデルへの識別能力を伝達し、精度を損なうことなく性能向上を図る。
また、敵がkdを使って教師モデルの機能を模倣するモデル盗み攻撃にも利用されている。
この領域の最近の発展は、スパースアウトプットが学生モデルの性能を著しく低下させることを示す経験的分析であるスティンギー教師モデルの影響を受けている。
知的財産漏洩のリスクに対処し,本研究は,教師概念の悪影響を生かして,そのロジットを内在的に保護する教師モデルの学習手法を提案する。
既存の方法と異なり, 生徒の蒸留に対する教師の防御を強化するために, 標準訓練データを用いて, 実例のスパースアウトプットを組み込んだ。
提案手法は, 原出力と逆摂動出力の相対エントロピーを慎重に低減し, 対向ロジットの生成が全体の性能に与える影響を最小限に抑える。
ソースコードはまもなく公開される予定だ。
関連論文リスト
- Unlocking The Potential of Adaptive Attacks on Diffusion-Based Purification [20.15955997832192]
Diffusion-based purification (DBP)は、敵対的事例(AE)に対する防御である
我々は、この主張を再考し、防衛を通じて損失勾配を後退させる勾配に基づく戦略に焦点をあてる。
このような最適化手法はDBPのコア基盤を無効にし、その代わりに悪意のあるサンプル上の分布に精製された出力を制限する。
論文 参考訳(メタデータ) (2024-11-25T17:30:32Z) - TERD: A Unified Framework for Safeguarding Diffusion Models Against Backdoors [36.07978634674072]
拡散モデルは、その完全性を損なうバックドア攻撃に弱い。
本稿では,現在の攻撃に対する統一モデリングを構築するバックドアディフェンスフレームワークであるTERDを提案する。
TERDは、さまざまな解像度のデータセットにまたがる100%のTrue Positive Rate(TPR)とTrue Negative Rate(TNR)を保証します。
論文 参考訳(メタデータ) (2024-09-09T03:02:16Z) - Adversarial Example Soups: Improving Transferability and Stealthiness for Free [17.094999396412216]
転送可能性の最大化のための従来のレシピは、最適化パイプラインで得られた全てのものから最適な逆例のみを保持することである。
AES-tune を用いて, 廃棄された逆数例を平均化するための「逆数例スープ」 (AES) を提案する。
AESは10の最先端の転送攻撃とそれらの組み合わせを最大13%増やし、10の多様な(防御的な)ターゲットモデルに対抗します。
論文 参考訳(メタデータ) (2024-02-27T01:21:37Z) - DALA: A Distribution-Aware LoRA-Based Adversarial Attack against
Language Models [64.79319733514266]
敵攻撃は入力データに微妙な摂動をもたらす可能性がある。
最近の攻撃方法は比較的高い攻撃成功率(ASR)を達成することができる。
そこで本研究では,分散ロラをベースとしたDALA(Adversarial Attack)手法を提案する。
論文 参考訳(メタデータ) (2023-11-14T23:43:47Z) - DiffAttack: Evasion Attacks Against Diffusion-Based Adversarial
Purification [63.65630243675792]
拡散に基づく浄化防御は拡散モデルを利用して、敵の例の人工摂動を除去する。
近年の研究では、先進的な攻撃でさえ、そのような防御を効果的に破壊できないことが示されている。
拡散型浄化防衛を効果的かつ効率的に行うための統合フレームワークDiffAttackを提案する。
論文 参考訳(メタデータ) (2023-10-27T15:17:50Z) - Learn from the Past: A Proxy Guided Adversarial Defense Framework with
Self Distillation Regularization [53.04697800214848]
敵対的訓練(AT)は、ディープラーニングモデルの堅牢性を固める上で重要な要素である。
AT方式は、目標モデルの防御のために直接反復的な更新を頼りにしており、不安定な訓練や破滅的なオーバーフィッティングといった障害に頻繁に遭遇する。
汎用プロキシガイド型防衛フレームワークLAST(bf Pbf astから学ぶ)を提案する。
論文 参考訳(メタデータ) (2023-10-19T13:13:41Z) - Isolation and Induction: Training Robust Deep Neural Networks against
Model Stealing Attacks [51.51023951695014]
既存のモデル盗難防衛は、被害者の後部確率に偽りの摂動を加え、攻撃者を誤解させる。
本稿では,モデルステルス防衛のための新規かつ効果的なトレーニングフレームワークである分離誘導(InI)を提案する。
モデルの精度を損なうモデル予測に摂動を加えるのとは対照的に、我々はモデルを訓練して、盗むクエリに対して非形式的なアウトプットを生成する。
論文 参考訳(メタデータ) (2023-08-02T05:54:01Z) - AdvDiff: Generating Unrestricted Adversarial Examples using Diffusion Models [7.406040859734522]
制限のない敵攻撃は、深層学習モデルや敵防衛技術に深刻な脅威をもたらす。
以前の攻撃法は、しばしば生成モデルのサンプリングに投影された勾配(PGD)を直接注入する。
本稿では,拡散モデルを用いた非制限逆例を生成するAdvDiffと呼ばれる新しい手法を提案する。
論文 参考訳(メタデータ) (2023-07-24T03:10:02Z) - Distributed Adversarial Training to Robustify Deep Neural Networks at
Scale [100.19539096465101]
現在のディープニューラルネットワーク(DNN)は、入力に対する敵の摂動が分類を変更したり操作したりする敵の攻撃に対して脆弱である。
このような攻撃を防御するために、敵の訓練(AT)として知られる効果的なアプローチが、堅牢な訓練を緩和するために示されている。
複数のマシンにまたがって実装された大規模バッチ対逆トレーニングフレームワークを提案する。
論文 参考訳(メタデータ) (2022-06-13T15:39:43Z) - Optimal Transport as a Defense Against Adversarial Attacks [4.6193503399184275]
敵対的攻撃は、訓練されたモデルを誤解させる画像に対して、人間の知覚できない摂動を見つけることができる。
従来の研究は、原画像と敵対画像の整合性をドメイン適応と同等に調整し、堅牢性を向上させることを目的としていた。
地上距離を忠実に反映した分布間の損失を用いることを提案する。
これによりSAT (Sinkhorn Adversarial Training) は敵の攻撃に対してより堅牢な防衛を行う。
論文 参考訳(メタデータ) (2021-02-05T13:24:36Z) - Adversarial Distributional Training for Robust Deep Learning [53.300984501078126]
逆行訓練(AT)は、逆行例によるトレーニングデータを増やすことにより、モデルロバスト性を改善する最も効果的な手法の一つである。
既存のAT手法の多くは、敵の例を作らせるために特定の攻撃を採用しており、他の目に見えない攻撃に対する信頼性の低い堅牢性につながっている。
本稿では,ロバストモデル学習のための新しいフレームワークであるADTを紹介する。
論文 参考訳(メタデータ) (2020-02-14T12:36:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。