論文の概要: Improving Adversarial Transferability on Vision Transformers via Forward Propagation Refinement
- arxiv url: http://arxiv.org/abs/2503.15404v1
- Date: Wed, 19 Mar 2025 16:44:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-20 15:24:23.655289
- Title: Improving Adversarial Transferability on Vision Transformers via Forward Propagation Refinement
- Title(参考訳): 前方伝搬リファインメントによる視覚変換器の逆変換性の向上
- Authors: Yuchen Ren, Zhengyu Zhao, Chenhao Lin, Bo Yang, Lu Zhou, Zhe Liu, Chao Shen,
- Abstract要約: We refine two key module of ViTs: attention map and token embeddeds。
注意マップについては,注意マップを多角化した注意マップ分割 (AMD) を提案するとともに,後進伝播時に有益な消滅を暗黙的に課す。
我々は、VTから様々なCNNやVTへ移行した敵の例による広範な実験を行い、FPRが現在最高の(後方)サロゲート改良を平均7.0%向上させることを示した。
- 参考スコア(独自算出の注目度): 17.496082209866923
- License:
- Abstract: Vision Transformers (ViTs) have been widely applied in various computer vision and vision-language tasks. To gain insights into their robustness in practical scenarios, transferable adversarial examples on ViTs have been extensively studied. A typical approach to improving adversarial transferability is by refining the surrogate model. However, existing work on ViTs has restricted their surrogate refinement to backward propagation. In this work, we instead focus on Forward Propagation Refinement (FPR) and specifically refine two key modules of ViTs: attention maps and token embeddings. For attention maps, we propose Attention Map Diversification (AMD), which diversifies certain attention maps and also implicitly imposes beneficial gradient vanishing during backward propagation. For token embeddings, we propose Momentum Token Embedding (MTE), which accumulates historical token embeddings to stabilize the forward updates in both the Attention and MLP blocks. We conduct extensive experiments with adversarial examples transferred from ViTs to various CNNs and ViTs, demonstrating that our FPR outperforms the current best (backward) surrogate refinement by up to 7.0\% on average. We also validate its superiority against popular defenses and its compatibility with other transfer methods. Codes and appendix are available at https://github.com/RYC-98/FPR.
- Abstract(参考訳): 視覚変換器(ViT)は様々なコンピュータビジョンや視覚言語タスクに広く応用されている。
実用シナリオにおけるロバスト性に関する洞察を得るため、ViTの移動可能な逆例が広く研究されている。
対向移動性を改善する典型的なアプローチは、代理モデルを精錬することである。
しかし、既存のViTsの研究は、サロゲートの精製を後方伝播に制限している。
この研究では、フォワードプロパゲーション・リファインメント(FPR)に焦点を当て、特に注目マップとトークンの埋め込みという、ViTの2つの重要なモジュールを洗練します。
注意マップについては,注意マップを多角化した注意マップ分割(AMD)を提案する。
トークン埋め込みについては,過去のトークン埋め込みを蓄積したMomentum Token Embedding (MTE)を提案する。
我々は、VTから様々なCNNやVTへ移行した敵の例による広範囲な実験を行い、我々のFPRが、現在最高の(後方)サロゲート改良を平均7.0\%向上させることを示した。
また、一般的な防御に対する優越性や、他の転送方法との整合性についても検証する。
コードと付録はhttps://github.com/RYC-98/FPRで入手できる。
関連論文リスト
- Multi-Attribute Vision Transformers are Efficient and Robust Learners [4.53923275658276]
畳み込みニューラルネットワーク(CNN)の代替として、視覚変換器(ViT)が登場した。
異なるタスクとして1つのViTネットワークを介して、様々な属性をトレーニングするための、単純かつ効果的な戦略を提案する。
対戦型攻撃に対する多属性ViTのレジリエンスを評価し,その性能を単一属性に設計したViTと比較した。
論文 参考訳(メタデータ) (2024-02-12T21:31:13Z) - A Close Look at Spatial Modeling: From Attention to Convolution [70.5571582194057]
ビジョントランスフォーマーは最近、洞察に富んだアーキテクチャ設計とアテンションメカニズムのために、多くのビジョンタスクに対して大きな約束をしました。
我々は、自己意図の定式化を一般化し、クエリ非関連なグローバルコンテキストを直接抽象化し、グローバルコンテキストを畳み込みに統合する。
FCViT-S12は14M未満のパラメータを持つため、ImageNet-1K上でのResT-Liteの精度は3.7%向上した。
論文 参考訳(メタデータ) (2022-12-23T19:13:43Z) - Self-Distilled Vision Transformer for Domain Generalization [58.76055100157651]
ビジョントランスフォーマー(ViT)は、標準ベンチマークにおけるCNNの優位性に挑戦している。
本稿では,ViTの自己蒸留法として考案された簡易なDG手法を提案する。
5つの挑戦的なデータセットにおいて、異なるDGベースラインと様々なViTバックボーンによる顕著なパフォーマンス向上を実証的に示す。
論文 参考訳(メタデータ) (2022-07-25T17:57:05Z) - Improving the Transferability of Adversarial Examples with Restructure
Embedded Patches [4.476012751070559]
入力の組込みパッチを再構築することにより、ViTのユニークな自己保持機構を攻撃する。
提案手法は, 転送性が高く, 画質が向上したWhite-box ViTの逆例を生成する。
論文 参考訳(メタデータ) (2022-04-27T03:22:55Z) - The Principle of Diversity: Training Stronger Vision Transformers Calls
for Reducing All Levels of Redundancy [111.49944789602884]
本稿では,パッチ埋め込み,アテンションマップ,ウェイトスペースという3つのレベルにおいて,冗長性のユビキタスな存在を体系的に研究する。
各レベルにおける表現の多様性とカバレッジを促進するための対応正規化器を提案する。
論文 参考訳(メタデータ) (2022-03-12T04:48:12Z) - Towards Transferable Adversarial Attacks on Vision Transformers [110.55845478440807]
視覚変換器(ViT)は、コンピュータビジョンの一連のタスクにおいて印象的なパフォーマンスを示してきたが、それでも敵の例に悩まされている。
本稿では、PNA攻撃とPatchOut攻撃を含むデュアルアタックフレームワークを導入し、異なるViT間での対向サンプルの転送性を改善する。
論文 参考訳(メタデータ) (2021-09-09T11:28:25Z) - TVT: Transferable Vision Transformer for Unsupervised Domain Adaptation [54.61786380919243]
Unsupervised domain adapt (UDA) は、ラベル付きソースドメインから学習した知識をラベル付きターゲットドメインに転送することを目的としている。
これまでの研究は主に、ドメイン不変表現を学ぶために畳み込みニューラルネットワーク(CNN)上に構築されていた。
近年、視覚タスクに視覚変換器(ViT)を適用する指数関数的増加に伴い、ドメイン間の知識を適応するViTの能力は文献上未解明のままである。
論文 参考訳(メタデータ) (2021-08-12T22:37:43Z) - On Improving Adversarial Transferability of Vision Transformers [97.17154635766578]
視覚変換器(ViT)は、入力画像を、自己注意によるパッチのシーケンスとして処理する。
本稿では,ViTモデルの対角的特徴空間とその伝達性について検討する。
本稿では,ViTモデルのアーキテクチャに特有な2つの新しい戦略を紹介する。
論文 参考訳(メタデータ) (2021-06-08T08:20:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。