論文の概要: Dummy-Aware Weighted Attack (DAWA): Breaking the Safe Sink in Dummy Class Defenses
- arxiv url: http://arxiv.org/abs/2603.29182v1
- Date: Tue, 31 Mar 2026 02:49:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-01 15:25:03.054683
- Title: Dummy-Aware Weighted Attack (DAWA): Breaking the Safe Sink in Dummy Class Defenses
- Title(参考訳): ダミー・アウェア・ウェイトド・アタック(DAWA):ダミー級防衛の安全シンクを破る
- Authors: Yunrui Yu, Xuxiang Feng, Pengda Qin, Pengyang Wang, Kafeng Wang, Cheng-zhong Xu, Hang Su, Jun Zhu,
- Abstract要約: ダミークラスベースの防御は、AutoAttackのような従来の評価戦略の下で大幅に過大評価されたロバスト性を達成する。
本研究では,ダミーラベルとダミーラベルの両方を同時に対象とする新たな評価手法であるダミー・アウェア・ウェイトド・アタック(DAWA)を提案する。
我々の研究は、この新たな防衛のクラスを評価するためのより信頼性の高いベンチマークを提供し、ロバストネス評価方法論の継続的な進化の必要性を強調します。
- 参考スコア(独自算出の注目度): 56.390980653401506
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Adversarial robustness evaluation faces a critical challenge as new defense paradigms emerge that can exploit limitations in existing assessment methods. This paper reveals that Dummy Classes-based defenses, which introduce an additional "dummy" class as a safety sink for adversarial examples, achieve significantly overestimated robustness under conventional evaluation strategies like AutoAttack. The fundamental limitation stems from these attacks' singular focus on misleading the true class label, which aligns perfectly with the defense mechanism--successful attacks are simply captured by the dummy class. To address this gap, we propose Dummy-Aware Weighted Attack (DAWA), a novel evaluation method that simultaneously targets both the true label and dummy label with adaptive weighting during adversarial example synthesis. Extensive experiments demonstrate that DAWA effectively breaks this defense paradigm, reducing the measured robustness of a leading Dummy Classes-based defense from 58.61% to 29.52% on CIFAR-10 under l_infty perturbation (epsilon=8/255). Our work provides a more reliable benchmark for evaluating this emerging class of defenses and highlights the need for continuous evolution of robustness assessment methodologies.
- Abstract(参考訳): 敵の堅牢性評価は、既存の評価手法の限界を生かす新しい防衛パラダイムが出現するにつれ、重大な課題に直面している。
本稿では, 対戦型事例の安全シンクとして「ダミー」クラスを導入したダミークラスベースの防衛が, オートアタックのような従来の評価手法において, 極めて過大評価されたロバスト性を実現することを明らかにする。
基本的な制限は、真のクラスラベルを誤解させるような攻撃の特異な焦点が、防御機構と完全に整合しているからである。
このギャップに対処するために,真ラベルとダミーラベルの両方に適応重み付けを同時に行う新たな評価手法であるDummy-Aware Weighted Attack (DAWA)を提案する。
大規模な実験では、DAWAがこの防御パラダイムを効果的に破り、主要なダミー級の防御力の58.61%から、l_infty摂動下でCIFAR-10で29.52%に低下した(epsilon=8/255)。
我々の研究は、この新たな防衛のクラスを評価するためのより信頼性の高いベンチマークを提供し、ロバストネス評価方法論の継続的な進化の必要性を強調します。
関連論文リスト
- Dashed Line Defense: Plug-And-Play Defense Against Adaptive Score-Based Query Attacks [3.206339985805037]
ダッシュラインディフェンス(Dashed Line Defense, DLD)は、適応的なクエリ戦略に対処するために設計された、プラグアンドプレイのポストプロセッシング手法である。
DLDは、観測された損失がどのように真の敵の強さを反映しているかの曖昧さを導入することで、攻撃者がクエリを確実に分析し、適応することを防ぐ。
我々は,DLDの防御能力を理論的に保証し,ImageNetの実験を通じてその有効性を検証する。
論文 参考訳(メタデータ) (2026-02-09T14:02:32Z) - Benchmarking Misuse Mitigation Against Covert Adversaries [80.74502950627736]
既存の言語モデルの安全性評価は、オーバースト攻撃と低レベルのタスクに重点を置いている。
我々は、隠蔽攻撃と対応する防御の評価を自動化するデータ生成パイプラインである、ステートフルディフェンスのためのベンチマーク(BSD)を開発した。
評価の結果,分解攻撃は有効な誤用防止剤であり,その対策としてステートフルディフェンスを強調した。
論文 参考訳(メタデータ) (2025-06-06T17:33:33Z) - A Critical Evaluation of Defenses against Prompt Injection Attacks [95.81023801370073]
大型言語モデル (LLM) はインジェクション攻撃に弱い。
いくつかの防衛策が提案され、しばしばこれらの攻撃をうまく緩和すると主張した。
既存の研究は、これらの防衛を評価するための原則的なアプローチを欠いていると論じる。
論文 参考訳(メタデータ) (2025-05-23T19:39:56Z) - Increasing Confidence in Adversarial Robustness Evaluations [53.2174171468716]
本稿では,弱い攻撃を識別し,防御評価を弱めるテストを提案する。
本テストでは,各サンプルに対する逆例の存在を保証するため,ニューラルネットワークをわずかに修正した。
これまでに公表された13の防衛のうち、11の防衛について、元の防衛評価は我々のテストに失敗し、これらの防衛を破る強力な攻撃はそれを通過する。
論文 参考訳(メタデータ) (2022-06-28T13:28:13Z) - Scale-Invariant Adversarial Attack for Evaluating and Enhancing
Adversarial Defenses [22.531976474053057]
プロジェクテッド・グラディエント・Descent (PGD) 攻撃は最も成功した敵攻撃の1つであることが示されている。
我々は, 対向層の特徴とソフトマックス層の重みの角度を利用して, 対向層の生成を誘導するスケール不変逆襲 (SI-PGD) を提案する。
論文 参考訳(メタデータ) (2022-01-29T08:40:53Z) - Guided Adversarial Attack for Evaluating and Enhancing Adversarial
Defenses [59.58128343334556]
我々は、より適切な勾配方向を見つけ、攻撃効果を高め、より効率的な対人訓練をもたらす標準損失に緩和項を導入する。
本稿では, クリーン画像の関数マッピングを用いて, 敵生成を誘導するGAMA ( Guided Adversarial Margin Attack) を提案する。
また,一段防衛における最先端性能を実現するためのGAT ( Guided Adversarial Training) を提案する。
論文 参考訳(メタデータ) (2020-11-30T16:39:39Z) - Reliable evaluation of adversarial robustness with an ensemble of
diverse parameter-free attacks [65.20660287833537]
本稿では,最適段差の大きさと目的関数の問題による障害を克服するPGD攻撃の2つの拡張を提案する。
そして、我々の新しい攻撃と2つの補完的な既存の攻撃を組み合わせることで、パラメータフリーで、計算に手頃な価格で、ユーザに依存しない攻撃のアンサンブルを形成し、敵の堅牢性をテストする。
論文 参考訳(メタデータ) (2020-03-03T18:15:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。