論文の概要: Splitting the Difference on Adversarial Training
- arxiv url: http://arxiv.org/abs/2310.02480v1
- Date: Tue, 3 Oct 2023 23:09:47 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-05 17:10:16.181871
- Title: Splitting the Difference on Adversarial Training
- Title(参考訳): 対人訓練における違いの分別
- Authors: Matan Levi, Aryeh Kontorovich
- Abstract要約: 敵の訓練は 敵の例に対する 最も効果的な防御の1つです
本研究では、各クラスの摂動例を学習対象の別クラスとして扱うことにより、根本的に異なるアプローチをとる。
この分割は学習するクラスの数を2倍にするが、同時に決定境界を大幅に単純化する。
- 参考スコア(独自算出の注目度): 13.470640587945057
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The existence of adversarial examples points to a basic weakness of deep
neural networks. One of the most effective defenses against such examples,
adversarial training, entails training models with some degree of robustness,
usually at the expense of a degraded natural accuracy. Most adversarial
training methods aim to learn a model that finds, for each class, a common
decision boundary encompassing both the clean and perturbed examples. In this
work, we take a fundamentally different approach by treating the perturbed
examples of each class as a separate class to be learned, effectively splitting
each class into two classes: "clean" and "adversarial." This split doubles the
number of classes to be learned, but at the same time considerably simplifies
the decision boundaries. We provide a theoretical plausibility argument that
sheds some light on the conditions under which our approach can be expected to
be beneficial. Likewise, we empirically demonstrate that our method learns
robust models while attaining optimal or near-optimal natural accuracy, e.g.,
on CIFAR-10 we obtain near-optimal natural accuracy of $95.01\%$ alongside
significant robustness across multiple tasks. The ability to achieve such
near-optimal natural accuracy, while maintaining a significant level of
robustness, makes our method applicable to real-world applications where
natural accuracy is at a premium. As a whole, our main contribution is a
general method that confers a significant level of robustness upon classifiers
with only minor or negligible degradation of their natural accuracy.
- Abstract(参考訳): 逆例の存在は、ディープニューラルネットワークの基本的な弱点を示している。
このような例に対する最も効果的な防御の1つ、敵の訓練は、ある程度の堅牢性を持つ訓練モデルを必要とする。
ほとんどの敵の訓練方法は、クリーンな例と混乱した例の両方を包含する共通の決定境界を見つけるモデルを学ぶことを目的としている。
本研究では、各クラスの摂動例を個別のクラスとして扱い、各クラスを「クリーン」と「逆」の2つのクラスに事実上分割することで、根本的に異なるアプローチをとる。
この分割は学習するクラスの数を2倍にするが、同時に決定境界を大幅に単純化する。
我々は,我々のアプローチが有益と期待できる条件に光を当てる理論的可能性論を提示した。
同様に、CIFAR-10では、複数のタスクにまたがる有意な頑健さとともに、最適または準最適自然精度(例えば、近最適自然精度9.01 %$)を得る。
このような最適に近い自然な精度を実現する能力は、かなりのレベルの堅牢性を維持しつつも、自然の精度がプレミアムな実世界のアプリケーションに適用できる。
全体として、我々の主な貢献は、その自然な精度を小さく、あるいは無視できる程度にしか低下しない分類器に、かなりのロバスト性を与える一般的な方法である。
関連論文リスト
- Preference Poisoning Attacks on Reward Model Learning [49.806139447922526]
攻撃者は、目標とする結果の促進または復号化を目標として、好み比較の小さなサブセットを反転させることができることを示す。
最高の攻撃は多くの場合、非常に成功しており、最も極端な場合、100%の成功率を達成することができ、データのわずか0.3%が毒殺されている。
我々はまた、他の種類の毒殺攻撃に対する最先端の防御策が、少なくとも我々の環境では有効性に制限されていることも示している。
論文 参考訳(メタデータ) (2024-02-02T21:45:24Z) - Towards Certified Probabilistic Robustness with High Accuracy [3.957941698534126]
Adrialの例は、ニューラルネットワーク上に構築された多くのクリティカルシステムに対して、セキュリティ上の脅威となる。
確実に堅牢で正確なニューラルネットワークモデルを構築する方法はまだオープンな問題だ。
本稿では,高い精度と高い確率ロバスト性を実現することを目的とした新しいアプローチを提案する。
論文 参考訳(メタデータ) (2023-09-02T09:39:47Z) - A Comprehensive Study on Robustness of Image Classification Models:
Benchmarking and Rethinking [54.89987482509155]
ディープニューラルネットワークのロバスト性は、通常、敵の例、共通の腐敗、分散シフトに欠けている。
画像分類タスクにおいてtextbfARES-Bench と呼ばれる総合的なベンチマークロバスト性を確立する。
それに応じてトレーニング設定を設計することにより、新しい最先端の対人ロバスト性を実現する。
論文 参考訳(メタデータ) (2023-02-28T04:26:20Z) - Towards the Desirable Decision Boundary by Moderate-Margin Adversarial
Training [8.904046529174867]
本研究では,頑健さと自然な精度のトレードオフを改善するために,新たな対人訓練手法を提案する。
MMATは、クロスオーバー問題を緩和するために、よりきめ細かい逆例を生成する。
例えばSVHNでは、最先端の堅牢性と自然な精度が達成される。
論文 参考訳(メタデータ) (2022-07-16T00:57:23Z) - Push Stricter to Decide Better: A Class-Conditional Feature Adaptive
Framework for Improving Adversarial Robustness [18.98147977363969]
本稿では,自然データと逆例を対象とする特徴適応学習(Feature Adaptive Adversarial Training, FAAT)を提案する。
FAATはより差別的な特徴を生み出し、最先端の手法に対して好意的に機能する。
論文 参考訳(メタデータ) (2021-12-01T07:37:56Z) - Adversarial Robustness with Semi-Infinite Constrained Learning [177.42714838799924]
入力に対する深い学習は、安全クリティカルなドメインでの使用に関して深刻な疑問を提起している。
本稿では,この問題を緩和するために,Langevin Monte Carlo のハイブリッドトレーニング手法を提案する。
当社のアプローチは、最先端のパフォーマンスと堅牢性の間のトレードオフを軽減することができることを示す。
論文 参考訳(メタデータ) (2021-10-29T13:30:42Z) - Analysis and Applications of Class-wise Robustness in Adversarial
Training [92.08430396614273]
敵の訓練は、敵の例に対するモデルロバスト性を改善するための最も効果的な手法の1つである。
従来の研究は主にモデルの全体的な堅牢性に焦点を当てており、各クラスの役割に関する詳細な分析はいまだに欠落している。
MNIST, CIFAR-10, CIFAR-100, SVHN, STL-10, ImageNetの6つのベンチマークデータセットに対して, 逆トレーニングの詳細な診断を行う。
対戦型学習におけるより強力な攻撃手法は、主に脆弱なクラスに対するより成功した攻撃から、性能の向上を達成することを観察する。
論文 参考訳(メタデータ) (2021-05-29T07:28:35Z) - Constant Random Perturbations Provide Adversarial Robustness with
Minimal Effect on Accuracy [41.84118016227271]
本稿では,ニューラルネットワークモデルの敵対的ロバスト性を改善するための攻撃非依存(非敵訓練)手法を提案する。
各トレーニング例の周辺に,その地区内のすべての入力に対してラベルが一定に維持されるような地区を作成することを提案する。
提案手法は,バニラ対人訓練と比較してロバスト性を高めつつ,他の防御に対する標準精度を向上させることが示唆された。
論文 参考訳(メタデータ) (2021-03-15T10:44:59Z) - Self-Progressing Robust Training [146.8337017922058]
敵対的なトレーニングのような現在の堅牢なトレーニング方法は、敵対的な例を生成するために「攻撃」を明示的に使用します。
我々はSPROUTと呼ばれる自己プログレッシブ・ロバスト・トレーニングのための新しいフレームワークを提案する。
その結果,スケーラブルで効果的で攻撃に依存しないロバストなトレーニング手法に新たな光を当てた。
論文 参考訳(メタデータ) (2020-12-22T00:45:24Z) - Robustness May Be at Odds with Fairness: An Empirical Study on
Class-wise Accuracy [85.20742045853738]
CNNは敵の攻撃に弱いことが広く知られている。
本稿では,対人訓練モデルのクラスワイド精度とロバスト性に関する実証的研究を提案する。
トレーニングデータセットが各クラスに同じ数のサンプルを持つ場合でも,精度と堅牢性にはクラス間差があることが判明した。
論文 参考訳(メタデータ) (2020-10-26T06:32:32Z) - Revisiting Ensembles in an Adversarial Context: Improving Natural
Accuracy [5.482532589225552]
頑丈なモデルと非ロバストなモデルの間には、依然として自然な精度に大きなギャップがある。
この性能差を軽減するために,多数のアンサンブル法について検討する。
ランダムにロバストなモデルからの予測と、ロバストモデルと標準モデルから特徴を融合する2つのスキームを考える。
論文 参考訳(メタデータ) (2020-02-26T15:45:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。