Fugu-MT 論文翻訳(概要): SpecFormer: Guarding Vision Transformer Robustness via Maximum Singular Value Penalization

論文の概要: SpecFormer: Guarding Vision Transformer Robustness via Maximum Singular Value Penalization

arxiv url: http://arxiv.org/abs/2402.03317v2
Date: Sat, 13 Jul 2024 11:51:46 GMT
ステータス: 翻訳完了
システム内更新日: 2024-07-17 02:05:02.676744
Title: SpecFormer: Guarding Vision Transformer Robustness via Maximum Singular Value Penalization
Title（参考訳）: SpecFormer:最大特異値ペナリゼーションによるガードングビジョントランスフォーマーロバストネス
Authors: Xixu Hu, Runkai Zheng, Jindong Wang, Cheuk Hang Leung, Qi Wu, Xing Xie,
Abstract要約: ビジョントランスフォーマー(ViT)は、ハイパフォーマンスのため、コンピュータビジョンでの利用が増えているが、敵攻撃に対する脆弱性が懸念されている。本研究は, 敵攻撃に対するViTsの強化に適したSpecFormerを導入し, 理論的基盤となる。
参考スコア（独自算出の注目度）: 39.09638432514626
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Vision Transformers (ViTs) are increasingly used in computer vision due to their high performance, but their vulnerability to adversarial attacks is a concern. Existing methods lack a solid theoretical basis, focusing mainly on empirical training adjustments. This study introduces SpecFormer, tailored to fortify ViTs against adversarial attacks, with theoretical underpinnings. We establish local Lipschitz bounds for the self-attention layer and propose the Maximum Singular Value Penalization (MSVP) to precisely manage these bounds By incorporating MSVP into ViTs' attention layers, we enhance the model's robustness without compromising training efficiency. SpecFormer, the resulting model, outperforms other state-of-the-art models in defending against adversarial attacks, as proven by experiments on CIFAR and ImageNet datasets. Code is released at https://github.com/microsoft/robustlearn.
Abstract（参考訳）: ビジョントランスフォーマー(ViT)は、ハイパフォーマンスのため、コンピュータビジョンでの利用が増えているが、敵攻撃に対する脆弱性が懸念されている。既存の手法は、主に経験的トレーニングの調整に焦点を当てた、しっかりとした理論的な基礎を欠いている。本研究は, 敵攻撃に対するViTsの強化に適したSpecFormerを導入し, 理論的基盤となる。我々は、自己注意層に対する局所的なリプシッツ境界を確立し、これらの境界を正確に管理するための最大特異値ペナル化(MSVP)を提案し、MSVPをViTの注意層に組み込むことにより、トレーニング効率を損なうことなくモデルの堅牢性を高める。結果のモデルであるSpecFormerは、CIFARとImageNetデータセットの実験によって証明されたように、敵攻撃に対する防御において、他の最先端モデルよりも優れています。コードはhttps://github.com/microsoft/robustlearn.comで公開されている。

関連論文リスト

Robust Anti-Backdoor Instruction Tuning in LVLMs [53.766434746801366]
大規模視覚言語モデル(LVLM)のための軽量で認証に依存しない防御フレームワークについて紹介する。私たちのフレームワークは、命令チューニングの下で、アダプタモジュールとテキスト埋め込み層のみを微調整します。 Flickr30kとMSCOCOに対する7つの攻撃に対する実験は、我々の攻撃の成功率をほぼゼロに低下させることを示した。
論文参考訳（メタデータ） (2025-06-04T01:23:35Z)
R-TPT: Improving Adversarial Robustness of Vision-Language Models through Test-Time Prompt Tuning [97.49610356913874]
視覚言語モデル(VLM)のためのロバストテスト時プロンプトチューニング(R-TPT)を提案する。 R-TPTは、推論段階における敵攻撃の影響を緩和する。プラグアンドプレイの信頼性に基づく重み付きアンサンブル戦略を導入し,防御強化を図る。
論文参考訳（メタデータ） (2025-04-15T13:49:31Z)
ViTGuard: Attention-aware Detection against Adversarial Examples for Vision Transformer [8.71614629110101]
本稿では,視覚変換器(ViT)モデルを敵攻撃に対して防御するための一般的な検出方法として,ViTGuardを提案する。 ViTGuardはMasked Autoencoder(MAE)モデルを使用して、ランダムにマスキングされたパッチを非マッシュ領域から回収する。しきい値に基づく検出器は、注意マップやトークン表現(トークン表現)の分類など、ViT特有の特徴を活用して、通常のサンプルと反対のサンプルを区別する。
論文参考訳（メタデータ） (2024-09-20T18:11:56Z)
Downstream Transfer Attack: Adversarial Attacks on Downstream Models with Pre-trained Vision Transformers [95.22517830759193]
本稿では、事前訓練されたViTモデルから下流タスクへのこのような逆の脆弱性の伝達可能性について検討する。 DTAは攻撃成功率(ASR)が90%を超え、既存の手法をはるかに上回っていることを示す。
論文参考訳（メタデータ） (2024-08-03T08:07:03Z)
MIMIR: Masked Image Modeling for Mutual Information-based Adversarial Robustness [31.603115393528746]
堅牢なビジョントランスフォーマー(ViTs)の構築は、専用のAdversarial Training(AT)戦略に大きく依存している。自動エンコーダに基づく自己教師型事前学習における理論的相互情報(MI)解析について述べる。マスク付きオートエンコーダを用いたMIMIRを提案する。
論文参考訳（メタデータ） (2023-12-08T10:50:02Z)
Transferable Adversarial Attacks on Vision Transformers with Token Gradient Regularization [32.908816911260615]
ビジョントランス (ViT) は様々なコンピュータビジョンタスクにうまく展開されているが、それでも敵のサンプルには弱い。転送ベースの攻撃は、ローカルモデルを使用して敵のサンプルを生成し、ターゲットのブラックボックスモデルを攻撃するために直接転送する。本稿では,既存のアプローチの欠点を克服するために,Token Gradient Regularization (TGR)法を提案する。
論文参考訳（メタデータ） (2023-03-28T06:23:17Z)
A Light Recipe to Train Robust Vision Transformers [34.51642006926379]
我々は、視覚変換器(ViT)が、回避攻撃に対する機械学習モデルの堅牢性を改善するための基盤となるアーキテクチャとして機能することを示します。我々は、ImageNetデータセットのサブセットに関する厳密なアブレーション研究を用いて、独自の逆トレーニングレシピを用いて、この目的を達成する。提案手法は,完全なImageNet-1k上でのViTアーキテクチャと大規模モデルの異なるクラスに一般化可能であることを示す。
論文参考訳（メタデータ） (2022-09-15T16:00:04Z)
Self-Ensembling Vision Transformer (SEViT) for Robust Medical Image Classification [4.843654097048771]
ビジョントランスフォーマー(ViT)は、医療画像における様々なコンピュータビジョンタスクのために、畳み込みニューラルネットワーク(CNN)を置き換えるために競合している。近年の研究では、ViTsはそのような攻撃の影響を受けやすく、攻撃下での大幅な性能劣化が報告されている。本稿では,対戦型攻撃の存在下でのViTの堅牢性を高めるための,新たな自己認識手法を提案する。
論文参考訳（メタデータ） (2022-08-04T19:02:24Z)
Distributed Adversarial Training to Robustify Deep Neural Networks at Scale [100.19539096465101]
現在のディープニューラルネットワーク(DNN)は、入力に対する敵の摂動が分類を変更したり操作したりする敵の攻撃に対して脆弱である。このような攻撃を防御するために、敵の訓練(AT)として知られる効果的なアプローチが、堅牢な訓練を緩和するために示されている。複数のマシンにまたがって実装された大規模バッチ対逆トレーニングフレームワークを提案する。
論文参考訳（メタデータ） (2022-06-13T15:39:43Z)
Deeper Insights into ViTs Robustness towards Common Corruptions [82.79764218627558]
我々は、CNNのようなアーキテクチャ設計とCNNベースのデータ拡張戦略が、一般的な汚職に対するViTsの堅牢性にどのように影響するかを検討する。重なり合うパッチ埋め込みと畳み込みフィードフォワードネットワーク(FFN)がロバスト性の向上を実証する。また、2つの角度から入力値の増大を可能にする新しい条件付き手法も導入する。
論文参考訳（メタデータ） (2022-04-26T08:22:34Z)
Policy Smoothing for Provably Robust Reinforcement Learning [109.90239627115336]
入力のノルム有界対向摂動に対する強化学習の証明可能な堅牢性について検討する。我々は、スムーズなポリシーによって得られる全報酬が、入力の摂動のノルムバウンドな逆数の下で一定の閾値以下に収まらないことを保証した証明書を生成する。
論文参考訳（メタデータ） (2021-06-21T21:42:08Z)
Adaptive Feature Alignment for Adversarial Training [56.17654691470554]
CNNは通常、敵攻撃に対して脆弱であり、セキュリティに敏感なアプリケーションに脅威をもたらす。任意の攻撃強度の特徴を生成するための適応的特徴アライメント(AFA)を提案する。本手法は任意の攻撃強度の特徴を自動的に整列するように訓練されている。
論文参考訳（メタデータ） (2021-05-31T17:01:05Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。