論文の概要: Adversarial Samples Are Not Created Equal
- arxiv url: http://arxiv.org/abs/2601.00577v1
- Date: Fri, 02 Jan 2026 05:30:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-05 15:04:33.527203
- Title: Adversarial Samples Are Not Created Equal
- Title(参考訳): 逆のサンプルは等しく作られていない
- Authors: Jennifer Crawford, Amol Khanna, Fred Lu, Amy R. Wagoner, Stella Biderman, Andre T. Nguyen, Edward Raff,
- Abstract要約: 対向摂動による非破壊的特徴の操作を計測するアンサンブルに基づく計量法を提案する。
この新たな視点は、シャープネスを意識した最小化が敵の強靭性に与える影響など、複数の現象を再検討することを可能にする。
- 参考スコア(独自算出の注目度): 42.879013923494455
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Over the past decade, numerous theories have been proposed to explain the widespread vulnerability of deep neural networks to adversarial evasion attacks. Among these, the theory of non-robust features proposed by Ilyas et al. has been widely accepted, showing that brittle but predictive features of the data distribution can be directly exploited by attackers. However, this theory overlooks adversarial samples that do not directly utilize these features. In this work, we advocate that these two kinds of samples - those which use use brittle but predictive features and those that do not - comprise two types of adversarial weaknesses and should be differentiated when evaluating adversarial robustness. For this purpose, we propose an ensemble-based metric to measure the manipulation of non-robust features by adversarial perturbations and use this metric to analyze the makeup of adversarial samples generated by attackers. This new perspective also allows us to re-examine multiple phenomena, including the impact of sharpness-aware minimization on adversarial robustness and the robustness gap observed between adversarially training and standard training on robust datasets.
- Abstract(参考訳): 過去10年間に、ディープニューラルネットワークの敵の回避攻撃に対する広範な脆弱性を説明するために、多くの理論が提案されてきた。
これらのうち、Ilyasらによって提案された非破壊的特徴の理論は広く受け入れられており、データ分布の脆弱だが予測的な特徴が攻撃者によって直接利用可能であることを示している。
しかし、この理論はこれらの特徴を直接利用しない敵のサンプルを見落としている。
本研究では, この2種類のサンプルについて, 脆弱だが予測的な特徴を用いるサンプルと, 不可能でないサンプルは, 対立性の弱さが2種類あり, 敵の頑健さを評価する際には, 差別化すべきである,と提唱する。
そこで本稿では, 敵の摂動による非破壊的特徴の操作を計測するためのアンサンブルに基づく計量法を提案し, 攻撃者が生成した敵のサンプルの形状を解析するためにこの計量法を用いる。
この新たな視点は、敵の堅牢性に対するシャープネス認識の最小化の影響や、敵のトレーニングとロバストデータセットの標準トレーニングの間に観察されるロバストネスギャップなど、複数の現象を再検討することを可能にする。
関連論文リスト
- AFD: Mitigating Feature Gap for Adversarial Robustness by Feature Disentanglement [56.90364259986057]
逆方向の微調整法は、逆方向の訓練方法で事前訓練されたモデルを微調整することにより、逆方向の強靭性を高める。
本稿では,特定の潜伏する特徴を明示的にモデル化し,除去するためのアンタングルメントに基づくアプローチを提案する。
提案手法は,既存の対戦型微調整法や対戦型トレーニングベースラインを超越した手法である。
論文 参考訳(メタデータ) (2024-01-26T08:38:57Z) - Adversarial Attacks Against Uncertainty Quantification [10.655660123083607]
この研究は、攻撃者が依然として不確実性推定を操作することに興味を持つ異なる敵シナリオに焦点を当てる。
特に、アウトプットが下流モジュールや人間のオペレータによって消費される場合、機械学習モデルの使用を損なうことが目標である。
論文 参考訳(メタデータ) (2023-09-19T12:54:09Z) - On the Effect of Adversarial Training Against Invariance-based
Adversarial Examples [0.23624125155742057]
この研究は、畳み込みニューラルネットワーク(CNN)における不変性に基づく逆トレーニングの効果に対処する。
本研究は,非分散型および摂動型対向型対向型対向型対向型対向型対向型対向型対向型対向型対向型対向型対向型対向型対向型対向型対向型対向型対向型対向型対向型を適用した場合,連続的でなく連続的に実施すべきであることを示す。
論文 参考訳(メタデータ) (2023-02-16T12:35:37Z) - Improving Adversarial Robustness to Sensitivity and Invariance Attacks
with Deep Metric Learning [80.21709045433096]
対向ロバスト性の標準的な方法は、サンプルを最小に摂動させることによって作られたサンプルに対して防御する枠組みを仮定する。
距離学習を用いて、最適輸送問題として逆正則化をフレーム化する。
予備的な結果から, 変分摂動の規則化は, 変分防御と敏感防御の両方を改善することが示唆された。
論文 参考訳(メタデータ) (2022-11-04T13:54:02Z) - Residual Error: a New Performance Measure for Adversarial Robustness [85.0371352689919]
ディープラーニングの広く普及を制限する大きな課題は、敵の攻撃に対する脆弱さである。
本研究は,ディープニューラルネットワークの対角強靭性を評価するための新しい性能尺度である残留誤差の概念を提示する。
画像分類を用いた実験結果から,提案手法の有効性と有効性を示した。
論文 参考訳(メタデータ) (2021-06-18T16:34:23Z) - Closeness and Uncertainty Aware Adversarial Examples Detection in
Adversarial Machine Learning [0.7734726150561088]
敵のサンプルを検出するための2つの異なるメトリクス群の使用法を探索し、評価します。
敵検出のための新機能を導入し、これらの指標のパフォーマンスが使用される攻撃の強さに大きく依存していることを示します。
論文 参考訳(メタデータ) (2020-12-11T14:44:59Z) - Learning to Separate Clusters of Adversarial Representations for Robust
Adversarial Detection [50.03939695025513]
本稿では,最近導入された非破壊的特徴を動機とした新しい確率的対向検出器を提案する。
本稿では,非ロバスト特徴を逆例の共通性と考え,その性質に対応する表現空間におけるクラスターの探索が可能であることを推定する。
このアイデアは、別のクラスタ内の逆表現の確率推定分布を導出し、その分布を確率に基づく逆検出器として活用する。
論文 参考訳(メタデータ) (2020-12-07T07:21:18Z) - Fundamental Tradeoffs between Invariance and Sensitivity to Adversarial
Perturbations [65.05561023880351]
敵の例は誤分類を引き起こすために作られた悪意のある入力である。
本稿では, 相補的障害モード, 不変性に基づく逆数例について検討する。
感度に基づく攻撃に対する防御は、不変性に基づく攻撃に対するモデルの精度を積極的に損なうことを示す。
論文 参考訳(メタデータ) (2020-02-11T18:50:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。