論文の概要: Defense That Attacks: How Robust Models Become Better Attackers
- arxiv url: http://arxiv.org/abs/2512.02830v1
- Date: Tue, 02 Dec 2025 14:38:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-03 21:04:45.927975
- Title: Defense That Attacks: How Robust Models Become Better Attackers
- Title(参考訳): 攻撃の防御:ロバストモデルがより優れた攻撃者になる方法
- Authors: Mohamed Awad, Mahmoud Akrm, Walid Gomaa,
- Abstract要約: 本研究は, 対人訓練が意図せず, 対人訓練の伝達可能性を高めるかどうかを考察する。
逆向きに訓練された(AT)モデルは、標準モデルよりも効果的に伝達される摂動を生成する。
我々は、ロバスト性評価は、移動攻撃に対するモデルの抵抗だけでなく、移動可能な敵の例を生成するための正当性も評価すべきであると主張している。
- 参考スコア(独自算出の注目度): 0.5875225219574615
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Deep learning has achieved great success in computer vision, but remains vulnerable to adversarial attacks. Adversarial training is the leading defense designed to improve model robustness. However, its effect on the transferability of attacks is underexplored. In this work, we ask whether adversarial training unintentionally increases the transferability of adversarial examples. To answer this, we trained a diverse zoo of 36 models, including CNNs and ViTs, and conducted comprehensive transferability experiments. Our results reveal a clear paradox: adversarially trained (AT) models produce perturbations that transfer more effectively than those from standard models, which introduce a new ecosystem risk. To enable reproducibility and further study, we release all models, code, and experimental scripts. Furthermore, we argue that robustness evaluations should assess not only the resistance of a model to transferred attacks but also its propensity to produce transferable adversarial examples.
- Abstract(参考訳): ディープラーニングはコンピュータビジョンにおいて大きな成功を収めてきたが、敵の攻撃に弱いままである。
敵の訓練は、モデルの堅牢性を改善するために設計された主要な防衛手段である。
しかし、攻撃の伝達性に対する影響は過小評価されている。
本研究は, 対人訓練が意図せず, 対人訓練の伝達可能性を高めるか否かを問うものである。
そこで我々は,CNNやViTを含む36種類のモデルからなる多様な動物園を訓練し,総合的な移植性実験を行った。
逆向き訓練(AT)モデルでは、標準モデルよりも効果的な摂動が生成され、新たな生態系リスクがもたらされる。
再現性とさらなる研究を可能にするため、すべてのモデル、コード、実験スクリプトをリリースする。
さらに、ロバスト性評価は、移動攻撃に対するモデルの抵抗だけでなく、移動可能な敵の例を生成するための正当性も評価すべきである、と論じる。
関連論文リスト
- DUMB and DUMBer: Is Adversarial Training Worth It in the Real World? [15.469010487781931]
敵の例は小さく、しばしば、愚かな機械学習モデルのために作られた、知覚不能な摂動である。
侵入攻撃(英語: Evasion attack)とは、入力がテスト時に誤分類を引き起こすように修正される敵攻撃の一種であり、その伝達性のために特に不快である。
本稿では,DUMB法の基礎の上に構築された攻撃フレームワークであるDUMBerを紹介し,敵の訓練したモデルの弾力性を評価する。
論文 参考訳(メタデータ) (2025-06-23T11:16:21Z) - Sustainable Self-evolution Adversarial Training [41.35034408227795]
本稿では,持続可能な自己進化学習(SSEAT)フレームワークを提案する。
本研究は,様々な種類の対角的事例から学習を実現するために,連続的な対向防衛パイプラインを導入する。
また,より多様で重要な再学習データを選択するために,逆データ再生モジュールを提案する。
論文 参考訳(メタデータ) (2024-12-03T08:41:11Z) - Downstream Transfer Attack: Adversarial Attacks on Downstream Models with Pre-trained Vision Transformers [95.22517830759193]
本稿では、事前訓練されたViTモデルから下流タスクへのこのような逆の脆弱性の伝達可能性について検討する。
DTAは攻撃成功率(ASR)が90%を超え、既存の手法をはるかに上回っていることを示す。
論文 参考訳(メタデータ) (2024-08-03T08:07:03Z) - Scaling Trends in Language Model Robustness [7.725206196110384]
言語モデルのロバスト性は,いくつかの分類課題,モデルファミリー,敵対的攻撃にまたがって研究される。
明確な安全性トレーニングがなければ、より大きなモデルの方が一貫して堅牢ではないことが分かっています。
攻撃の規模は、研究対象の全モデルにまたがる敵の訓練をはるかに上回るが、より大きな敵の訓練を受けたモデルは、長期的には防衛上の優位性をもたらす可能性がある。
論文 参考訳(メタデータ) (2024-07-25T17:26:41Z) - SA-Attack: Improving Adversarial Transferability of Vision-Language
Pre-training Models via Self-Augmentation [56.622250514119294]
ホワイトボックスの敵攻撃とは対照的に、転送攻撃は現実世界のシナリオをより反映している。
本稿では,SA-Attackと呼ばれる自己拡張型転送攻撃手法を提案する。
論文 参考訳(メタデータ) (2023-12-08T09:08:50Z) - Robust Transferable Feature Extractors: Learning to Defend Pre-Trained
Networks Against White Box Adversaries [69.53730499849023]
また, 予測誤差を誘導するために, 逆例を独立に学習した別のモデルに移すことが可能であることを示す。
本稿では,頑健な伝達可能な特徴抽出器(RTFE)と呼ばれる,ディープラーニングに基づく事前処理機構を提案する。
論文 参考訳(メタデータ) (2022-09-14T21:09:34Z) - Learning to Attack: Towards Textual Adversarial Attacking in Real-world
Situations [81.82518920087175]
敵攻撃は、敵の例でディープニューラルネットワークを騙すことを目的としている。
本稿では、攻撃履歴から学習し、より効率的に攻撃を開始することができる強化学習に基づく攻撃モデルを提案する。
論文 参考訳(メタデータ) (2020-09-19T09:12:24Z) - Two Sides of the Same Coin: White-box and Black-box Attacks for Transfer
Learning [60.784641458579124]
ホワイトボックスFGSM攻撃によるモデルロバスト性を効果的に向上することを示す。
また,移動学習モデルに対するブラックボックス攻撃手法を提案する。
ホワイトボックス攻撃とブラックボックス攻撃の双方の効果を系統的に評価するために,ソースモデルからターゲットモデルへの変換可能性の評価手法を提案する。
論文 参考訳(メタデータ) (2020-08-25T15:04:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。