論文の概要: SpecFormer: Guarding Vision Transformer Robustness via Maximum Singular
Value Penalization
- arxiv url: http://arxiv.org/abs/2402.03317v1
- Date: Tue, 2 Jan 2024 14:27:24 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-11 15:52:46.424867
- Title: SpecFormer: Guarding Vision Transformer Robustness via Maximum Singular
Value Penalization
- Title(参考訳): SpecFormer:最大特異値ペナリゼーションによるガード視覚変換器ロバストネス
- Authors: Xixu Hu, Runkai Zheng, Jindong Wang, Cheuk Hang Leung, Qi Wu, Xing Xie
- Abstract要約: 敵攻撃に対するViTsのレジリエンスを高めるために特別に設計されたSpecFormerを紹介する。
計算効率を向上させるために、パワーイテレーション法を用いて、MSVPをViTのアテンション層に統合する。
CIFARとImageNetデータセットの実験により、SpecFormerの対向攻撃に対する防御における優れたパフォーマンスが確認された。
- 参考スコア(独自算出の注目度): 41.427147387339666
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Vision Transformers (ViTs) have gained prominence as a preferred choice for a
wide range of computer vision tasks due to their exceptional performance.
However, their widespread adoption has raised concerns about security in the
face of malicious attacks. Most existing methods rely on empirical adjustments
during the training process, lacking a clear theoretical foundation. In this
study, we address this gap by introducing SpecFormer, specifically designed to
enhance ViTs' resilience against adversarial attacks, with support from
carefully derived theoretical guarantees. We establish local Lipschitz bounds
for the self-attention layer and introduce a novel approach, Maximum Singular
Value Penalization (MSVP), to attain precise control over these bounds. We
seamlessly integrate MSVP into ViTs' attention layers, using the power
iteration method for enhanced computational efficiency. The modified model,
SpecFormer, effectively reduces the spectral norms of attention weight
matrices, thereby enhancing network local Lipschitzness. This, in turn, leads
to improved training efficiency and robustness. Extensive experiments on CIFAR
and ImageNet datasets confirm SpecFormer's superior performance in defending
against adversarial attacks.
- Abstract(参考訳): 視覚トランスフォーマー(vits)は、その優れた性能のため、幅広いコンピュータビジョンタスクに好まれる選択肢として注目を集めている。
しかし、彼らの普及によって、悪意ある攻撃に直面したセキュリティに対する懸念が高まっている。
既存の手法の多くは、訓練過程における経験的調整に依存しており、明確な理論的基礎を欠いている。
本研究では,vitsの攻撃に対する弾力性を高めるために特別に設計されたspecformerを導入することで,このギャップを解消する。
我々は自己注意層に対する局所的なリプシッツ境界を確立し、これらの境界を正確に制御するための新しいアプローチである最大特異値ペナライゼーション(MSVP)を導入する。
計算効率を向上させるためにパワーイテレーション法を用いて,MSVP を ViT の注意層にシームレスに統合する。
修正モデルであるspecformerは、注意重み行列のスペクトルノルムを効果的に低減し、ネットワーク局所リプシッツ性を高める。
これにより、トレーニングの効率性と堅牢性が向上する。
CIFARとImageNetデータセットに関する大規模な実験により、SpecFormerの敵攻撃に対する防御における優れたパフォーマンスが確認された。
関連論文リスト
- ViTGuard: Attention-aware Detection against Adversarial Examples for Vision Transformer [8.71614629110101]
本稿では,視覚変換器(ViT)モデルを敵攻撃に対して防御するための一般的な検出方法として,ViTGuardを提案する。
ViTGuardはMasked Autoencoder(MAE)モデルを使用して、ランダムにマスキングされたパッチを非マッシュ領域から回収する。
しきい値に基づく検出器は、注意マップやトークン表現(トークン表現)の分類など、ViT特有の特徴を活用して、通常のサンプルと反対のサンプルを区別する。
論文 参考訳(メタデータ) (2024-09-20T18:11:56Z) - Downstream Transfer Attack: Adversarial Attacks on Downstream Models with Pre-trained Vision Transformers [95.22517830759193]
本稿では、事前訓練されたViTモデルから下流タスクへのこのような逆の脆弱性の伝達可能性について検討する。
DTAは攻撃成功率(ASR)が90%を超え、既存の手法をはるかに上回っていることを示す。
論文 参考訳(メタデータ) (2024-08-03T08:07:03Z) - MIMIR: Masked Image Modeling for Mutual Information-based Adversarial Robustness [31.603115393528746]
堅牢なビジョントランスフォーマー(ViTs)の構築は、専用のAdversarial Training(AT)戦略に大きく依存している。
自動エンコーダに基づく自己教師型事前学習における理論的相互情報(MI)解析について述べる。
マスク付きオートエンコーダを用いたMIMIRを提案する。
論文 参考訳(メタデータ) (2023-12-08T10:50:02Z) - Transferable Adversarial Attacks on Vision Transformers with Token
Gradient Regularization [32.908816911260615]
ビジョントランス (ViT) は様々なコンピュータビジョンタスクにうまく展開されているが、それでも敵のサンプルには弱い。
転送ベースの攻撃は、ローカルモデルを使用して敵のサンプルを生成し、ターゲットのブラックボックスモデルを攻撃するために直接転送する。
本稿では,既存のアプローチの欠点を克服するために,Token Gradient Regularization (TGR)法を提案する。
論文 参考訳(メタデータ) (2023-03-28T06:23:17Z) - A Light Recipe to Train Robust Vision Transformers [34.51642006926379]
我々は、視覚変換器(ViT)が、回避攻撃に対する機械学習モデルの堅牢性を改善するための基盤となるアーキテクチャとして機能することを示します。
我々は、ImageNetデータセットのサブセットに関する厳密なアブレーション研究を用いて、独自の逆トレーニングレシピを用いて、この目的を達成する。
提案手法は,完全なImageNet-1k上でのViTアーキテクチャと大規模モデルの異なるクラスに一般化可能であることを示す。
論文 参考訳(メタデータ) (2022-09-15T16:00:04Z) - Self-Ensembling Vision Transformer (SEViT) for Robust Medical Image
Classification [4.843654097048771]
ビジョントランスフォーマー(ViT)は、医療画像における様々なコンピュータビジョンタスクのために、畳み込みニューラルネットワーク(CNN)を置き換えるために競合している。
近年の研究では、ViTsはそのような攻撃の影響を受けやすく、攻撃下での大幅な性能劣化が報告されている。
本稿では,対戦型攻撃の存在下でのViTの堅牢性を高めるための,新たな自己認識手法を提案する。
論文 参考訳(メタデータ) (2022-08-04T19:02:24Z) - Distributed Adversarial Training to Robustify Deep Neural Networks at
Scale [100.19539096465101]
現在のディープニューラルネットワーク(DNN)は、入力に対する敵の摂動が分類を変更したり操作したりする敵の攻撃に対して脆弱である。
このような攻撃を防御するために、敵の訓練(AT)として知られる効果的なアプローチが、堅牢な訓練を緩和するために示されている。
複数のマシンにまたがって実装された大規模バッチ対逆トレーニングフレームワークを提案する。
論文 参考訳(メタデータ) (2022-06-13T15:39:43Z) - Deeper Insights into ViTs Robustness towards Common Corruptions [82.79764218627558]
我々は、CNNのようなアーキテクチャ設計とCNNベースのデータ拡張戦略が、一般的な汚職に対するViTsの堅牢性にどのように影響するかを検討する。
重なり合うパッチ埋め込みと畳み込みフィードフォワードネットワーク(FFN)がロバスト性の向上を実証する。
また、2つの角度から入力値の増大を可能にする新しい条件付き手法も導入する。
論文 参考訳(メタデータ) (2022-04-26T08:22:34Z) - Policy Smoothing for Provably Robust Reinforcement Learning [109.90239627115336]
入力のノルム有界対向摂動に対する強化学習の証明可能な堅牢性について検討する。
我々は、スムーズなポリシーによって得られる全報酬が、入力の摂動のノルムバウンドな逆数の下で一定の閾値以下に収まらないことを保証した証明書を生成する。
論文 参考訳(メタデータ) (2021-06-21T21:42:08Z) - Adaptive Feature Alignment for Adversarial Training [56.17654691470554]
CNNは通常、敵攻撃に対して脆弱であり、セキュリティに敏感なアプリケーションに脅威をもたらす。
任意の攻撃強度の特徴を生成するための適応的特徴アライメント(AFA)を提案する。
本手法は任意の攻撃強度の特徴を自動的に整列するように訓練されている。
論文 参考訳(メタデータ) (2021-05-31T17:01:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。