論文の概要: TESSER: Transfer-Enhancing Adversarial Attacks from Vision Transformers via Spectral and Semantic Regularization
- arxiv url: http://arxiv.org/abs/2505.19613v1
- Date: Mon, 26 May 2025 07:30:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-27 16:58:43.244187
- Title: TESSER: Transfer-Enhancing Adversarial Attacks from Vision Transformers via Spectral and Semantic Regularization
- Title(参考訳): TESSER: スペクトルおよびセマンティック正規化による視覚変換器からのトランスファー・エンハンス・アタック(Transfer-Enhancing Adversarial Attacks)
- Authors: Amira Guesmi, Bassem Ouni, Muhammad Shafique,
- Abstract要約: ディープニューラルネットワークの堅牢性を評価する上で、アドリヤルトランスファービリティは依然として重要な課題である。
textbfTESSERは、2つの主要な戦略を通じて転送可能性を高める新しい攻撃フレームワークである。
12の異なるアーキテクチャにわたるImageNetの実験では、TESSERはCNNでの攻撃成功率(ASR)が+10.9%高く、ViTでは+7.2%高かった。
- 参考スコア(独自算出の注目度): 3.962831477787584
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Adversarial transferability remains a critical challenge in evaluating the robustness of deep neural networks. In security-critical applications, transferability enables black-box attacks without access to model internals, making it a key concern for real-world adversarial threat assessment. While Vision Transformers (ViTs) have demonstrated strong adversarial performance, existing attacks often fail to transfer effectively across architectures, especially from ViTs to Convolutional Neural Networks (CNNs) or hybrid models. In this paper, we introduce \textbf{TESSER} -- a novel adversarial attack framework that enhances transferability via two key strategies: (1) \textit{Feature-Sensitive Gradient Scaling (FSGS)}, which modulates gradients based on token-wise importance derived from intermediate feature activations, and (2) \textit{Spectral Smoothness Regularization (SSR)}, which suppresses high-frequency noise in perturbations using a differentiable Gaussian prior. These components work in tandem to generate perturbations that are both semantically meaningful and spectrally smooth. Extensive experiments on ImageNet across 12 diverse architectures demonstrate that TESSER achieves +10.9\% higher attack succes rate (ASR) on CNNs and +7.2\% on ViTs compared to the state-of-the-art Adaptive Token Tuning (ATT) method. Moreover, TESSER significantly improves robustness against defended models, achieving 53.55\% ASR on adversarially trained CNNs. Qualitative analysis shows strong alignment between TESSER's perturbations and salient visual regions identified via Grad-CAM, while frequency-domain analysis reveals a 12\% reduction in high-frequency energy, confirming the effectiveness of spectral regularization.
- Abstract(参考訳): ディープニューラルネットワークの堅牢性を評価する上で、敵対的転送性は依然として重要な課題である。
セキュリティクリティカルなアプリケーションでは、トランスファービリティーはモデル内部にアクセスせずにブラックボックス攻撃を可能にする。
ViT(Vision Transformer)は強力な対向的な性能を示しているが、既存の攻撃はアーキテクチャ、特にViTから畳み込みニューラルネットワーク(Convolutional Neural Networks, CNN)やハイブリッドモデルへの効果的な転送に失敗することが多い。
本稿では,(1) 中間機能アクティベーションから導かれるトークンワイドな重要度に基づいて勾配を変調する,(2) ガウス前処理による摂動の高周波ノイズを抑制する,新しい逆アタックフレームワークである \textbf{TESSER} を紹介する。
これらの成分はタンデムで働き、意味的に意味がありスペクトル的に滑らかな摂動を生成する。
12の多様なアーキテクチャにわたるImageNetの大規模な実験により、TESSERはCNNで+10.9\%、VTTで+7.2\%、最先端のAdaptive Token Tuning (ATT)法で+7.2\%を達成することが示された。
さらに、TESSERは防御されたモデルに対するロバスト性を大幅に改善し、敵に訓練されたCNNに対して53.55\%のASRを達成する。
定性的分析は、TESSERの摂動とGrad-CAMを介して同定された視覚領域との強い整合性を示し、周波数領域解析では、高周波エネルギーの12倍の減少を示し、スペクトル正則化の有効性を確認している。
関連論文リスト
- BHViT: Binarized Hybrid Vision Transformer [53.38894971164072]
モデルバイナライゼーションは畳み込みニューラルネットワーク(CNN)のリアルタイムおよびエネルギー効率の計算を可能にした。
本稿では,バイナライズフレンドリーなハイブリッドViTアーキテクチャであるBHViTとそのバイナライズモデルを提案する。
提案アルゴリズムは,バイナリ ViT 手法間でSOTA 性能を実現する。
論文 参考訳(メタデータ) (2025-03-04T08:35:01Z) - Mechanistic Understandings of Representation Vulnerabilities and Engineering Robust Vision Transformers [1.1187085721899017]
視覚変換器(ViT)の既知の表現脆弱性の源泉について検討し、知覚的に同一の画像が全く異なる表現を持つことを示す。
我々は,早期に脆弱な神経細胞を戦略的に中和する新しい防御機構であるNeuroShield-ViTを開発し,対向効果のカスケードを防止する。
我々の研究結果は、視力変換器が敵の攻撃に対して堅牢性を高めるための有望なアプローチを提供しながら、敵の効果がViT層を通してどのように伝播するかに新たな光を当てた。
論文 参考訳(メタデータ) (2025-02-07T05:58:16Z) - SAFER: Sharpness Aware layer-selective Finetuning for Enhanced Robustness in vision transformers [9.100671508333724]
ビジョントランス (ViT) は、先進的なコンピュータビジョンアプリケーションやマルチモーダル基盤モデルにおいて重要なバックボーンとなっている。
その強みにもかかわらず、ViTsは、畳み込みニューラルネットワーク(CNN)の脆弱性に匹敵する、あるいは超える敵の摂動に弱いままである。
本稿では,新しい層選択型微調整手法であるSAFERを用いて,ViTの対向オーバーフィッティングを緩和する。
論文 参考訳(メタデータ) (2025-01-02T20:37:14Z) - Transferable Adversarial Attacks on Vision Transformers with Token
Gradient Regularization [32.908816911260615]
ビジョントランス (ViT) は様々なコンピュータビジョンタスクにうまく展開されているが、それでも敵のサンプルには弱い。
転送ベースの攻撃は、ローカルモデルを使用して敵のサンプルを生成し、ターゲットのブラックボックスモデルを攻撃するために直接転送する。
本稿では,既存のアプローチの欠点を克服するために,Token Gradient Regularization (TGR)法を提案する。
論文 参考訳(メタデータ) (2023-03-28T06:23:17Z) - Deeper Insights into ViTs Robustness towards Common Corruptions [82.79764218627558]
我々は、CNNのようなアーキテクチャ設計とCNNベースのデータ拡張戦略が、一般的な汚職に対するViTsの堅牢性にどのように影響するかを検討する。
重なり合うパッチ埋め込みと畳み込みフィードフォワードネットワーク(FFN)がロバスト性の向上を実証する。
また、2つの角度から入力値の増大を可能にする新しい条件付き手法も導入する。
論文 参考訳(メタデータ) (2022-04-26T08:22:34Z) - From Environmental Sound Representation to Robustness of 2D CNN Models
Against Adversarial Attacks [82.21746840893658]
本稿では, 各種環境音響表現(スペクトログラム)が, 被害者残差畳み込みニューラルネットワークの認識性能と対角攻撃性に与える影響について検討する。
DWTスペクトログラムでトレーニングしたResNet-18モデルでは高い認識精度が得られたが、このモデルに対する攻撃は敵にとって比較的コストがかかる。
論文 参考訳(メタデータ) (2022-04-14T15:14:08Z) - On the Adversarial Robustness of Visual Transformers [129.29523847765952]
本研究は、視覚変換器(ViT)の対逆的摂動に対する堅牢性に関する最初の包括的な研究を提供する。
さまざまなホワイトボックスとトランスファーアタック設定でテストされた ViT は、畳み込みニューラルネットワーク (CNN) と比較して、より優れた敵対的堅牢性を持っています。
論文 参考訳(メタデータ) (2021-03-29T14:48:24Z) - Learn2Perturb: an End-to-end Feature Perturbation Learning to Improve
Adversarial Robustness [79.47619798416194]
Learn2Perturbは、ディープニューラルネットワークの対角的堅牢性を改善するために、エンドツーエンドの機能摂動学習アプローチである。
予測最大化にインスパイアされ、ネットワークと雑音パラメータを連続的にトレーニングするために、交互にバックプロパゲーショントレーニングアルゴリズムが導入された。
論文 参考訳(メタデータ) (2020-03-02T18:27:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。