論文の概要: Boosting Generative Adversarial Transferability with Self-supervised Vision Transformer Features
- arxiv url: http://arxiv.org/abs/2506.21046v1
- Date: Thu, 26 Jun 2025 06:47:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-27 19:53:10.006188
- Title: Boosting Generative Adversarial Transferability with Self-supervised Vision Transformer Features
- Title(参考訳): 自己教師型視覚変換器による生成逆変換性の向上
- Authors: Shangbo Wu, Yu-an Tan, Ruinan Ma, Wencong Ma, Dehua Zhu, Yuanzhang Li,
- Abstract要約: 本稿では,自己教師型視覚変換器(ViT)の表現を活用すれば,対向トランスフォーマビリティが向上するかどうかを考察する。
コントラスト学習(CL)によるグローバルな構造的特徴とマスク画像モデリング(MIM)による局所的なテクスチャ的特徴の両方を活用する。
CLおよびMIMは,ViTsを異なる特徴傾向に適応し,タンデムで利用した場合,高い対向的一般化性を示すことが示唆された。
- 参考スコア(独自算出の注目度): 3.7165774213454847
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: The ability of deep neural networks (DNNs) come from extracting and interpreting features from the data provided. By exploiting intermediate features in DNNs instead of relying on hard labels, we craft adversarial perturbation that generalize more effectively, boosting black-box transferability. These features ubiquitously come from supervised learning in previous work. Inspired by the exceptional synergy between self-supervised learning and the Transformer architecture, this paper explores whether exploiting self-supervised Vision Transformer (ViT) representations can improve adversarial transferability. We present dSVA -- a generative dual self-supervised ViT features attack, that exploits both global structural features from contrastive learning (CL) and local textural features from masked image modeling (MIM), the self-supervised learning paradigm duo for ViTs. We design a novel generative training framework that incorporates a generator to create black-box adversarial examples, and strategies to train the generator by exploiting joint features and the attention mechanism of self-supervised ViTs. Our findings show that CL and MIM enable ViTs to attend to distinct feature tendencies, which, when exploited in tandem, boast great adversarial generalizability. By disrupting dual deep features distilled by self-supervised ViTs, we are rewarded with remarkable black-box transferability to models of various architectures that outperform state-of-the-arts. Code available at https://github.com/spencerwooo/dSVA.
- Abstract(参考訳): ディープニューラルネットワーク(DNN)の能力は、提供されたデータから特徴を抽出して解釈することにある。
ハードラベルを頼らずにDNNの中間機能を利用することで、より効果的に一般化する敵の摂動を創造し、ブラックボックスの転送可能性を高める。
これらの機能は、以前の研究で教師付き学習からユビキタスに生まれました。
本稿では,自己教師型学習とトランスフォーマーアーキテクチャの並外れた相乗効果に触発されて,自己教師型視覚トランスフォーマー(ViT)表現を活用することで,対向的伝達性が向上するかどうかを考察する。
本稿では,VTの自己教師型学習パラダイムであるマスク画像モデリング(MIM)から,コントラスト学習(CL)からのグローバルな構造的特徴と局所的テクスチャ的特徴の両方を活かした,ジェネレーティブなデュアル教師型VT機能であるdSVAを提案する。
我々は、ブラックボックスの敵例を作成するジェネレータを組み込んだ新しいジェネレータ学習フレームワークを設計し、自己監督型VTのジョイント特徴とアテンション機構を利用してジェネレータを訓練する戦略を考案した。
CLおよびMIMは,ViTsを異なる特徴傾向に適応し,タンデムで利用した場合,高い対向的一般化性を示すことが示唆された。
自己監督型ViTで蒸留した二重深度特性を破壊することにより、最先端技術より優れた様々なアーキテクチャのモデルに顕著なブラックボックス転送性を持たせることができる。
コードはhttps://github.com/spencerwooo/dSVA.comで公開されている。
関連論文リスト
- SERE: Exploring Feature Self-relation for Self-supervised Transformer [79.5769147071757]
視覚変換器(ViT)は、空間的自己アテンションとチャネルレベルのフィードフォワードネットワークを備えた強力な表現能力を有する。
最近の研究によると、自己教師型学習はViTの大きな可能性を解き放つのに役立つ。
空間次元とチャネル次元のリレーショナルモデリングは、他のネットワークとViTを区別する。
論文 参考訳(メタデータ) (2022-06-10T15:25:00Z) - Improving the Transferability of Adversarial Examples with Restructure
Embedded Patches [4.476012751070559]
入力の組込みパッチを再構築することにより、ViTのユニークな自己保持機構を攻撃する。
提案手法は, 転送性が高く, 画質が向上したWhite-box ViTの逆例を生成する。
論文 参考訳(メタデータ) (2022-04-27T03:22:55Z) - Self-slimmed Vision Transformer [52.67243496139175]
視覚変換器(ViT)は、様々な視覚タスクにおいて一般的な構造となり、CNN(Creative Convolutional Neural Network)よりも優れています。
本稿では,バニラVT,すなわちSiTに対する汎用的な自己スリム学習手法を提案する。
具体的には、まず、ViTの推論効率を向上させる新しいToken Slimming Module (TSM) を設計する。
論文 参考訳(メタデータ) (2021-11-24T16:48:57Z) - On Improving Adversarial Transferability of Vision Transformers [97.17154635766578]
視覚変換器(ViT)は、入力画像を、自己注意によるパッチのシーケンスとして処理する。
本稿では,ViTモデルの対角的特徴空間とその伝達性について検討する。
本稿では,ViTモデルのアーキテクチャに特有な2つの新しい戦略を紹介する。
論文 参考訳(メタデータ) (2021-06-08T08:20:38Z) - ViTAE: Vision Transformer Advanced by Exploring Intrinsic Inductive Bias [76.16156833138038]
コンボリューション, ie, ViTAEから内在性IBを探索するビジョントランスフォーマーを提案する。
ViTAEはいくつかの空間ピラミッド縮小モジュールを備えており、入力イメージをリッチなマルチスケールコンテキストでトークンに埋め込む。
各トランス層では、ViTAEはマルチヘッド自己保持モジュールと平行な畳み込みブロックを持ち、その特徴は融合されフィードフォワードネットワークに供給される。
論文 参考訳(メタデータ) (2021-06-07T05:31:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。