論文の概要: Adversarial Sparse Teacher: Defense Against Distillation-Based Model Stealing Attacks Using Adversarial Examples
- arxiv url: http://arxiv.org/abs/2403.05181v2
- Date: Sat, 20 Jul 2024 13:46:07 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-24 02:21:06.264467
- Title: Adversarial Sparse Teacher: Defense Against Distillation-Based Model Stealing Attacks Using Adversarial Examples
- Title(参考訳): 対人スパース教師 : 対人例を用いた蒸留モデルステアリング攻撃に対する防御
- Authors: Eda Yilmaz, Hacer Yalim Keles,
- Abstract要約: 対人スパース教師 (AST) は蒸留モデル盗難攻撃に対する堅牢な防御方法である。
提案手法は, 逆例を用いて教師モデルを訓練し, スパースロジット応答を生成し, 出力分布のエントロピーを増大させる。
- 参考スコア(独自算出の注目度): 2.0257616108612373
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: We introduce Adversarial Sparse Teacher (AST), a robust defense method against distillation-based model stealing attacks. Our approach trains a teacher model using adversarial examples to produce sparse logit responses and increase the entropy of the output distribution. Typically, a model generates a peak in its output corresponding to its prediction. By leveraging adversarial examples, AST modifies the teacher model's original response, embedding a few altered logits into the output while keeping the primary response slightly higher. Concurrently, all remaining logits are elevated to further increase the output distribution's entropy. All these complex manipulations are performed using an optimization function with our proposed Exponential Predictive Divergence (EPD) loss function. EPD allows us to maintain higher entropy levels compared to traditional KL divergence, effectively confusing attackers. Experiments on CIFAR-10 and CIFAR-100 datasets demonstrate that AST outperforms state-of-the-art methods, providing effective defense against model stealing while preserving high accuracy. The source codes will be made publicly available here soon.
- Abstract(参考訳): 本稿では,蒸留モデル盗難攻撃に対する堅牢な防御手法であるAdversarial Sparse Teacher (AST)を紹介する。
提案手法は,逆例を用いて教師モデルを訓練し,スパースロジット応答を生成し,出力分布のエントロピーを増大させる。
通常、モデルはその予測に対応する出力のピークを生成する。
敵対的な例を活用することで、ASTは教師モデルのオリジナルの応答を修正し、いくつかの変更されたロジットを出力に埋め込むと同時に、プライマリレスポンスをわずかに高く保つ。
同時に、残りの全てのロジットは、出力分布のエントロピーをさらに高めるために高められる。
これらの複雑な操作は、提案したEPD(Exponential Predictive Divergence)損失関数を用いた最適化関数を用いて行われる。
EPDは従来のKL分岐よりも高いエントロピーレベルを維持し、攻撃者を効果的に混乱させます。
CIFAR-10とCIFAR-100データセットの実験では、ASTは最先端の手法よりも優れており、高い精度を維持しながらモデル盗難に対する効果的な防御を提供する。
ソースコードはまもなく公開される予定だ。
関連論文リスト
- Unlocking The Potential of Adaptive Attacks on Diffusion-Based Purification [20.15955997832192]
Diffusion-based purification (DBP)は、敵対的事例(AE)に対する防御である
我々は、この主張を再考し、防衛を通じて損失勾配を後退させる勾配に基づく戦略に焦点をあてる。
このような最適化手法はDBPのコア基盤を無効にし、その代わりに悪意のあるサンプル上の分布に精製された出力を制限する。
論文 参考訳(メタデータ) (2024-11-25T17:30:32Z) - TERD: A Unified Framework for Safeguarding Diffusion Models Against Backdoors [36.07978634674072]
拡散モデルは、その完全性を損なうバックドア攻撃に弱い。
本稿では,現在の攻撃に対する統一モデリングを構築するバックドアディフェンスフレームワークであるTERDを提案する。
TERDは、さまざまな解像度のデータセットにまたがる100%のTrue Positive Rate(TPR)とTrue Negative Rate(TNR)を保証します。
論文 参考訳(メタデータ) (2024-09-09T03:02:16Z) - Adversarial Example Soups: Improving Transferability and Stealthiness for Free [17.094999396412216]
転送可能性の最大化のための従来のレシピは、最適化パイプラインで得られた全てのものから最適な逆例のみを保持することである。
AES-tune を用いて, 廃棄された逆数例を平均化するための「逆数例スープ」 (AES) を提案する。
AESは10の最先端の転送攻撃とそれらの組み合わせを最大13%増やし、10の多様な(防御的な)ターゲットモデルに対抗します。
論文 参考訳(メタデータ) (2024-02-27T01:21:37Z) - DALA: A Distribution-Aware LoRA-Based Adversarial Attack against
Language Models [64.79319733514266]
敵攻撃は入力データに微妙な摂動をもたらす可能性がある。
最近の攻撃方法は比較的高い攻撃成功率(ASR)を達成することができる。
そこで本研究では,分散ロラをベースとしたDALA(Adversarial Attack)手法を提案する。
論文 参考訳(メタデータ) (2023-11-14T23:43:47Z) - DiffAttack: Evasion Attacks Against Diffusion-Based Adversarial
Purification [63.65630243675792]
拡散に基づく浄化防御は拡散モデルを利用して、敵の例の人工摂動を除去する。
近年の研究では、先進的な攻撃でさえ、そのような防御を効果的に破壊できないことが示されている。
拡散型浄化防衛を効果的かつ効率的に行うための統合フレームワークDiffAttackを提案する。
論文 参考訳(メタデータ) (2023-10-27T15:17:50Z) - Learn from the Past: A Proxy Guided Adversarial Defense Framework with
Self Distillation Regularization [53.04697800214848]
敵対的訓練(AT)は、ディープラーニングモデルの堅牢性を固める上で重要な要素である。
AT方式は、目標モデルの防御のために直接反復的な更新を頼りにしており、不安定な訓練や破滅的なオーバーフィッティングといった障害に頻繁に遭遇する。
汎用プロキシガイド型防衛フレームワークLAST(bf Pbf astから学ぶ)を提案する。
論文 参考訳(メタデータ) (2023-10-19T13:13:41Z) - Isolation and Induction: Training Robust Deep Neural Networks against
Model Stealing Attacks [51.51023951695014]
既存のモデル盗難防衛は、被害者の後部確率に偽りの摂動を加え、攻撃者を誤解させる。
本稿では,モデルステルス防衛のための新規かつ効果的なトレーニングフレームワークである分離誘導(InI)を提案する。
モデルの精度を損なうモデル予測に摂動を加えるのとは対照的に、我々はモデルを訓練して、盗むクエリに対して非形式的なアウトプットを生成する。
論文 参考訳(メタデータ) (2023-08-02T05:54:01Z) - AdvDiff: Generating Unrestricted Adversarial Examples using Diffusion Models [7.406040859734522]
制限のない敵攻撃は、深層学習モデルや敵防衛技術に深刻な脅威をもたらす。
以前の攻撃法は、しばしば生成モデルのサンプリングに投影された勾配(PGD)を直接注入する。
本稿では,拡散モデルを用いた非制限逆例を生成するAdvDiffと呼ばれる新しい手法を提案する。
論文 参考訳(メタデータ) (2023-07-24T03:10:02Z) - Distributed Adversarial Training to Robustify Deep Neural Networks at
Scale [100.19539096465101]
現在のディープニューラルネットワーク(DNN)は、入力に対する敵の摂動が分類を変更したり操作したりする敵の攻撃に対して脆弱である。
このような攻撃を防御するために、敵の訓練(AT)として知られる効果的なアプローチが、堅牢な訓練を緩和するために示されている。
複数のマシンにまたがって実装された大規模バッチ対逆トレーニングフレームワークを提案する。
論文 参考訳(メタデータ) (2022-06-13T15:39:43Z) - Optimal Transport as a Defense Against Adversarial Attacks [4.6193503399184275]
敵対的攻撃は、訓練されたモデルを誤解させる画像に対して、人間の知覚できない摂動を見つけることができる。
従来の研究は、原画像と敵対画像の整合性をドメイン適応と同等に調整し、堅牢性を向上させることを目的としていた。
地上距離を忠実に反映した分布間の損失を用いることを提案する。
これによりSAT (Sinkhorn Adversarial Training) は敵の攻撃に対してより堅牢な防衛を行う。
論文 参考訳(メタデータ) (2021-02-05T13:24:36Z) - Adversarial Distributional Training for Robust Deep Learning [53.300984501078126]
逆行訓練(AT)は、逆行例によるトレーニングデータを増やすことにより、モデルロバスト性を改善する最も効果的な手法の一つである。
既存のAT手法の多くは、敵の例を作らせるために特定の攻撃を採用しており、他の目に見えない攻撃に対する信頼性の低い堅牢性につながっている。
本稿では,ロバストモデル学習のための新しいフレームワークであるADTを紹介する。
論文 参考訳(メタデータ) (2020-02-14T12:36:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。