論文の概要: Evaluating the Robustness of Geometry-Aware Instance-Reweighted
Adversarial Training
- arxiv url: http://arxiv.org/abs/2103.01914v1
- Date: Tue, 2 Mar 2021 18:15:42 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-04 00:04:19.657118
- Title: Evaluating the Robustness of Geometry-Aware Instance-Reweighted
Adversarial Training
- Title(参考訳): 幾何対応インスタンス強調学習のロバスト性評価
- Authors: Dorjan Hitaj, Giulio Pagnotta, Iacopo Masi, Luigi V. Mancini
- Abstract要約: Geometry-aware Instance-reweighted Adversarial Training」と呼ばれる手法の堅牢性を評価する。
この方法でトレーニングされたネットワークは、損失の再スケーリングによってモデルが特定のサンプルに偏っていることが分かりました。
- 参考スコア(独自算出の注目度): 9.351384969104771
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this technical report, we evaluate the adversarial robustness of a very
recent method called "Geometry-aware Instance-reweighted Adversarial
Training"[7]. GAIRAT reports state-of-the-art results on defenses to
adversarial attacks on the CIFAR-10 dataset. In fact, we find that a network
trained with this method, while showing an improvement over regular adversarial
training (AT), is biasing the model towards certain samples by re-scaling the
loss. Indeed, this leads the model to be susceptible to attacks that scale the
logits. The original model shows an accuracy of 59% under AutoAttack - when
trained with additional data with pseudo-labels. We provide an analysis that
shows the opposite. In particular, we craft a PGD attack multiplying the logits
by a positive scalar that decreases the GAIRAT accuracy from from 55% to 44%,
when trained solely on CIFAR-10. In this report, we rigorously evaluate the
model and provide insights into the reasons behind the vulnerability of GAIRAT
to this adversarial attack. We will release the code promptly to enable the
reproducibility of our findings.
- Abstract(参考訳): 本技術報告では、Geometry-aware Instance-reweighted Adversarial Training[7]と呼ばれる最近の手法の対比堅牢性を評価します。
GAIRATは、CIFAR-10データセットに対する敵対攻撃に対する防御に関する最新の結果を報告します。
実際、この方法で訓練されたネットワークは、通常の敵対的トレーニング(AT)よりも改善を示しながら、損失を再スケーリングすることによって特定のサンプルにモデルを偏っていることがわかります。
実際、これはロジットをスケールする攻撃の影響を受けやすいモデルにつながります。
オリジナルのモデルはAutoAttackで59%の精度を示しており、擬似ラベルで追加データでトレーニングされている。
我々は逆を示す分析を提供する。
特に, CIFAR-10のみをトレーニングした場合, GAIRATの精度を55%から44%に低下させる正のスカラーでロジットを乗算するPGD攻撃を行う。
本報告では,この攻撃に対するGAIRATの脆弱性の背後にある理由について,モデルを厳格に評価し,知見を提供する。
結果の再現性を実現するために、早急にコードを公開します。
関連論文リスト
- Free Record-Level Privacy Risk Evaluation Through Artifact-Based Methods [6.902279764206365]
本稿では,トレーニング中に利用可能な人工物のみを用いて,リスクの高いサンプルを識別する新しい手法を提案する。
本手法は, サンプルごとの損失トレースを分析し, 脆弱なデータサンプルを同定する。
論文 参考訳(メタデータ) (2024-11-08T18:04:41Z) - GReAT: A Graph Regularized Adversarial Training Method [0.0]
GReAT(Graph Regularized Adversarial Training)は、ディープラーニングモデルの堅牢な分類性能を高めるために設計された、新しい正規化手法である。
GReATはグラフベースの正規化を敵のトレーニングプロセスに統合し、データ固有の構造を活用してモデルの堅牢性を高める。
論文 参考訳(メタデータ) (2023-10-09T01:44:06Z) - Client-side Gradient Inversion Against Federated Learning from Poisoning [59.74484221875662]
フェデレートラーニング(FL)により、分散参加者は、データを中央サーバに直接共有することなく、グローバルモデルをトレーニングできる。
近年の研究では、FLは元のトレーニングサンプルの再構築を目的とした勾配反転攻撃(GIA)に弱いことが判明している。
本稿では,クライアント側から起動可能な新たな攻撃手法であるクライアント側中毒性グレーディエント・インバージョン(CGI)を提案する。
論文 参考訳(メタデータ) (2023-09-14T03:48:27Z) - On Trace of PGD-Like Adversarial Attacks [77.75152218980605]
敵対的攻撃は、ディープラーニングアプリケーションに対する安全性とセキュリティ上の懸念を引き起こす。
モデルの勾配一貫性を反映した適応応答特性(ARC)特性を構築する。
私たちの方法は直感的で、軽量で、非侵襲的で、データ不要です。
論文 参考訳(メタデータ) (2022-05-19T14:26:50Z) - Adaptive Feature Alignment for Adversarial Training [56.17654691470554]
CNNは通常、敵攻撃に対して脆弱であり、セキュリティに敏感なアプリケーションに脅威をもたらす。
任意の攻撃強度の特徴を生成するための適応的特徴アライメント(AFA)を提案する。
本手法は任意の攻撃強度の特徴を自動的に整列するように訓練されている。
論文 参考訳(メタデータ) (2021-05-31T17:01:05Z) - Adversarial Training with Rectified Rejection [114.83821848791206]
本稿では,信頼度(T-Con)を確実性オラクルとして利用し,信頼度を補正してT-Conを予測することを提案する。
軽度の条件下では、正当性(R-Con)拒絶器と信頼性(R-Con)拒絶器を結合して、不正に分類された入力と正しく分類された入力を区別できることを示す。
論文 参考訳(メタデータ) (2021-05-31T08:24:53Z) - Lagrangian Objective Function Leads to Improved Unforeseen Attack
Generalization in Adversarial Training [0.0]
対人訓練(AT)は、訓練中に使用される攻撃に対して堅牢なモデルに到達するのに有効であることが示されている。
我々は、上記の問題を緩和する簡易なAT修正を提案する。
我々は,攻撃の一般化を意図した他の攻撃手法よりも,攻撃速度が速いことを示す。
論文 参考訳(メタデータ) (2021-03-29T07:23:46Z) - How Robust are Randomized Smoothing based Defenses to Data Poisoning? [66.80663779176979]
我々は、トレーニングデータの品質の重要性を強調する堅牢な機械学習モデルに対して、これまで認識されていなかった脅威を提示します。
本稿では,二段階最適化に基づく新たなデータ中毒攻撃法を提案し,ロバストな分類器のロバスト性を保証する。
我々の攻撃は、被害者が最先端のロバストな訓練方法を用いて、ゼロからモデルを訓練しても効果的である。
論文 参考訳(メタデータ) (2020-12-02T15:30:21Z) - To be Robust or to be Fair: Towards Fairness in Adversarial Training [83.42241071662897]
逆行訓練アルゴリズムは、異なるデータ群間の精度と堅牢性に深刻な違いをもたらす傾向がある。
本稿では、敵防衛を行う際の不公平問題を軽減するためのFair-Robust-Learning(FRL)フレームワークを提案する。
論文 参考訳(メタデータ) (2020-10-13T02:21:54Z) - Label Smoothing and Adversarial Robustness [16.804200102767208]
ラベルの平滑化によるトレーニングモデルは、ほとんどのグラデーションベースアタックにおいて、容易に顕著な精度を達成できることがわかった。
本研究は,研究コミュニティに対して,モデルの堅牢性を適切に評価する方法を再考するものである。
論文 参考訳(メタデータ) (2020-09-17T12:36:35Z) - Adversarial Detection and Correction by Matching Prediction
Distributions [0.0]
この検出器は、MNISTとFashion-MNISTに対するCarini-WagnerやSLIDEのような強力な攻撃をほぼ完全に中和する。
本手法は,攻撃者がモデルと防御の両方について十分な知識を持つホワイトボックス攻撃の場合においても,なおも敵の例を検出することができることを示す。
論文 参考訳(メタデータ) (2020-02-21T15:45:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。