論文の概要: Releasing Inequality Phenomenon in $\ell_{\infty}$-norm Adversarial Training via Input Gradient Distillation
- arxiv url: http://arxiv.org/abs/2305.09305v3
- Date: Fri, 27 Jun 2025 06:05:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-30 21:12:22.826289
- Title: Releasing Inequality Phenomenon in $\ell_{\infty}$-norm Adversarial Training via Input Gradient Distillation
- Title(参考訳): $\ell_{\infty}$-norm逆行訓練における不等式化現象の入力グラディエント蒸留による緩和
- Authors: Junxi Chen, Junhao Dong, Xiaohua Xie, Jianhuang Lai,
- Abstract要約: 最近の研究では、(ell_infty)-norm対逆訓練(ell_infty)-AT)が不均一な入力勾配を誘導することが明らかとなった。
この現象は(ell_infty)-norm-norm訓練されたモデルを標準訓練モデルよりも脆弱にする。
本稿では,不等式を$ell_infty$-ATで解放するために,IGD (Input Gradient Distillation) という簡易かつ効果的な方法を提案する。
- 参考スコア(独自算出の注目度): 66.5912840038179
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Adversarial training (AT) is considered the most effective defense against adversarial attacks. However, a recent study revealed that \(\ell_{\infty}\)-norm adversarial training (\(\ell_{\infty}\)-AT) will also induce unevenly distributed input gradients, which is called the inequality phenomenon. This phenomenon makes the \(\ell_{\infty}\)-norm adversarially trained model more vulnerable than the standard-trained model when high-attribution or randomly selected pixels are perturbed, enabling robust and practical black-box attacks against \(\ell_{\infty}\)-adversarially trained models. In this paper, we propose a simple yet effective method called Input Gradient Distillation (IGD) to release the inequality phenomenon in $\ell_{\infty}$-AT. IGD distills the standard-trained teacher model's equal decision pattern into the $\ell_{\infty}$-adversarially trained student model by aligning input gradients of the student model and the standard-trained model with the Cosine Similarity. Experiments show that IGD can mitigate the inequality phenomenon and its threats while preserving adversarial robustness. Compared to vanilla $\ell_{\infty}$-AT, IGD reduces error rates against inductive noise, inductive occlusion, random noise, and noisy images in ImageNet-C by up to 60\%, 16\%, 50\%, and 21\%, respectively. Other than empirical experiments, we also conduct a theoretical analysis to explain why releasing the inequality phenomenon can improve such robustness and discuss why the severity of the inequality phenomenon varies according to the dataset's image resolution. Our code is available at https://github.com/fhdnskfbeuv/Inuput-Gradient-Distillation
- Abstract(参考訳): 敵の攻撃に対する最も効果的な防御策として、敵の訓練(AT)がある。
しかし、最近の研究では、(\ell_{\infty}\)-ノルム逆行訓練(\(\ell_{\infty}\)-AT)も不等式現象と呼ばれる不等分散入力勾配を誘導することが明らかとなった。
この現象により、(\ell_{\infty}\)-ノルム-ノルム-トレーニングされたモデルは、高属性またはランダムに選択されたピクセルが摂動されたとき、標準トレーニングされたモデルよりも脆弱になり、(\ell_{\infty}\)-ノルム-ノルム-トレーニングされたモデルに対する堅牢で実用的なブラックボックス攻撃を可能にする。
本稿では,不等式を$\ell_{\infty}$-ATで解放するために,IGD (Input Gradient Distillation) という簡単な方法を提案する。
IGDは、標準学習モデルと標準学習モデルの入力勾配をコサイン類似度と整合させることにより、標準学習モデルの等式決定パターンを$\ell_{\infty}$-adversarially学習学生モデルに蒸留する。
実験により、IGDは敵の強靭性を維持しながら不平等現象とその脅威を軽減することができることが示された。
IGDはバニラ$\ell_{\infty}$-ATと比較して、ImageNet-Cのインダクティブノイズ、インダクティブオクルージョン、ランダムノイズ、ノイズ画像に対するエラー率を最大60\%、16\%、50\%、21\%まで下げる。
実験的な実験とは別に、不平等現象の放出がなぜそのような堅牢性を改善するのかを説明する理論的解析も行い、不平等現象の重症度がデータセットの解像度に応じて異なる理由について議論する。
私たちのコードはhttps://github.com/fhdnskfbeuv/Inuput-Gradient-Distillationで利用可能です。
関連論文リスト
- Towards Model Resistant to Transferable Adversarial Examples via Trigger Activation [95.3977252782181]
知覚不能な摂動によって特徴づけられる敵対的な例は、彼らの予測を誤解させることで、ディープニューラルネットワークに重大な脅威をもたらす。
本稿では,移動可能な敵例(TAE)に対して,より効率的かつ効果的に堅牢性を高めることを目的とした,新たなトレーニングパラダイムを提案する。
論文 参考訳(メタデータ) (2025-04-20T09:07:10Z) - Robust Representation Consistency Model via Contrastive Denoising [83.47584074390842]
ランダムな平滑化は、敵の摂動に対する堅牢性を証明する理論的保証を提供する。
拡散モデルは、ノイズ摂動サンプルを浄化するためにランダムな平滑化に成功している。
我々は,画素空間における拡散軌跡に沿った生成的モデリングタスクを,潜在空間における識別的タスクとして再構成する。
論文 参考訳(メタデータ) (2025-01-22T18:52:06Z) - Representation Alignment for Generation: Training Diffusion Transformers Is Easier Than You Think [72.48325960659822]
生成のための大規模拡散モデルの訓練における主要なボトルネックは、これらの表現を効果的に学習することにある。
本稿では,RePresentation Alignment (REPA) と呼ばれる単純な正規化を導入し,ノイズの多い入力隠れ状態の投影を,外部の事前学習された視覚エンコーダから得られるクリーンな画像表現と整合させる手法を提案する。
我々の単純な戦略は、一般的な拡散やDiTsやSiTsといったフローベースのトランスフォーマーに適用した場合、トレーニング効率と生成品質の両方に大きな改善をもたらす。
論文 参考訳(メタデータ) (2024-10-09T14:34:53Z) - The Bad Batches: Enhancing Self-Supervised Learning in Image Classification Through Representative Batch Curation [1.519321208145928]
人間の監督なしに堅牢な表現を学ぶことの追求は、長年にわたる課題である。
本稿では,Fr'echet ResNet Distance(FRD)によるペアワイズ類似性計算を用いて,偽正負負対と偽負対の影響を緩和する。
提案手法の有効性は,STL10で87.74%,Flower102データセットで99.31%,自己教師付きコントラスト表現で訓練された線形分類器によって実証された。
論文 参考訳(メタデータ) (2024-03-28T17:04:07Z) - Stable Unlearnable Example: Enhancing the Robustness of Unlearnable
Examples via Stable Error-Minimizing Noise [31.586389548657205]
データにある種の知覚不能ノイズを加えることにより、モデルの一般化性能を著しく低下させる非学習不可能な例を提案する。
本稿では,時間を要する対向的摂動ではなく,ランダムな摂動に対する防御音を訓練する安定型誤り最小化ノイズ(SEM)を導入する。
SEMは、CIFAR-10、CIFAR-100、ImageNet Subset上で、最先端の新たなパフォーマンスを実現する。
論文 参考訳(メタデータ) (2023-11-22T01:43:57Z) - Reducing Spatial Fitting Error in Distillation of Denoising Diffusion
Models [13.364271265023953]
拡散モデルの知識蒸留は、この制限に短いサンプリングプロセスで対処する有効な方法である。
本研究は,教師モデルと学生モデルの両方のトレーニングにおいて発生する空間的適合誤差に起因する。
SFERDは教師モデルと設計した意味的勾配予測器からの注意誘導を利用して、学生の適合誤差を低減する。
CIFAR-10で5.31、ImageNet 64$times$64で9.39のFIDを実現する。
論文 参考訳(メタデータ) (2023-11-07T09:19:28Z) - Reducing Adversarial Training Cost with Gradient Approximation [0.3916094706589679]
そこで本研究では,厳密なモデル構築に要するコストを削減するために,GAAT(グラディエント近似)を用いた対戦訓練法を提案する。
提案手法は,データセット上でのモデルテスト精度に比較して,トレーニング時間の最大60%を節約する。
論文 参考訳(メタデータ) (2023-09-18T03:55:41Z) - Evaluating Similitude and Robustness of Deep Image Denoising Models via
Adversarial Attack [60.40356882897116]
ディープニューラルネットワーク(DNN)は、従来の画像復調アルゴリズムよりも優れたパフォーマンスを示している。
本稿では,現在のディープ・ディープ・ディープ・ディープ・ディープ・ディープ・ディープ・ディープ・ディープ・ディープ・ディープ・ディープ・ディープ・ディープ・ディープ・ディナイジング・PGD(Denoising-PGD)と名づけられた敵攻撃手法を提案する。
論文 参考訳(メタデータ) (2023-06-28T09:30:59Z) - Beyond Pretrained Features: Noisy Image Modeling Provides Adversarial
Defense [52.66971714830943]
マスク付き画像モデリング(MIM)は、自己教師付き視覚表現学習のフレームワークとして普及している。
本稿では,この強力な自己教師型学習パラダイムが,下流の分類器に対して対角的ロバスト性を提供する方法について検討する。
本稿では,デノナイジングのためのデコーダを用いて,デノナイジングのための対角防御手法を提案する。
論文 参考訳(メタデータ) (2023-02-02T12:37:24Z) - Guided Diffusion Model for Adversarial Purification [103.4596751105955]
敵攻撃は、様々なアルゴリズムやフレームワークでディープニューラルネットワーク(DNN)を妨害する。
本稿では,GDMP ( Guided diffusion model for purification) と呼ばれる新しい精製法を提案する。
様々なデータセットにわたる包括的実験において,提案したGDMPは,敵対的攻撃によって引き起こされた摂動を浅い範囲に減少させることを示した。
論文 参考訳(メタデータ) (2022-05-30T10:11:15Z) - Diffusion Models for Adversarial Purification [69.1882221038846]
対人浄化(Adrial purification)とは、生成モデルを用いて敵の摂動を除去する防衛方法の分類である。
そこで我々は,拡散モデルを用いたDiffPureを提案する。
提案手法は,現在の対人訓練および対人浄化方法よりも優れ,最先端の成果を達成する。
論文 参考訳(メタデータ) (2022-05-16T06:03:00Z) - Towards Adversarial Patch Analysis and Certified Defense against Crowd
Counting [61.99564267735242]
安全クリティカルな監視システムの重要性から、群衆のカウントは多くの注目を集めています。
近年の研究では、ディープニューラルネットワーク(DNN)の手法が敵の攻撃に弱いことが示されている。
群衆カウントモデルのロバスト性を評価するために,Momentumを用いた攻撃戦略としてAdversarial Patch Attackを提案する。
論文 参考訳(メタデータ) (2021-04-22T05:10:55Z) - Robust Face Verification via Disentangled Representations [20.393894616979402]
顔認証のための頑健なアルゴリズムを導入し、同一人物か否かを判定する。
我々は,学習中に生成モデルを,対向雑音を除去するテスト時間浄化装置の代わりに,オンライン増強法として利用する。
逆行訓練と組み合わせることで,提案手法は弱内部解法と収束し,ホワイトボックスの物理的攻撃に対する評価において,最先端の工法よりもクリーンで堅牢な精度を有することを示す。
論文 参考訳(メタデータ) (2020-06-05T19:17:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。