論文の概要: MIMIR: Masked Image Modeling for Mutual Information-based Adversarial Robustness
- arxiv url: http://arxiv.org/abs/2312.04960v4
- Date: Tue, 15 Apr 2025 10:50:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-16 22:08:44.050607
- Title: MIMIR: Masked Image Modeling for Mutual Information-based Adversarial Robustness
- Title(参考訳): MIMIR:相互情報に基づく対向ロバスト性のためのマスク画像モデリング
- Authors: Xiaoyun Xu, Shujian Yu, Zhuoran Liu, Stjepan Picek,
- Abstract要約: 視覚変換器(ViT)は基本的なアーキテクチャとして登場し、現代の視覚言語モデルのバックボーンとして機能している。
本稿では,ViTの対向ロバスト性に関する体系的な研究を行い,その自己教師型事前学習における理論的相互情報(MI)解析について述べる。
自動エンコーダを用いたマスク画像モデリングにより,MIペナルティを利用した自己教師型AT法MIMIRを提案する。
- 参考スコア(独自算出の注目度): 31.603115393528746
- License:
- Abstract: Vision Transformers (ViTs) have emerged as a fundamental architecture and serve as the backbone of modern vision-language models. Despite their impressive performance, ViTs exhibit notable vulnerability to evasion attacks, necessitating the development of specialized Adversarial Training (AT) strategies tailored to their unique architecture. While a direct solution might involve applying existing AT methods to ViTs, our analysis reveals significant incompatibilities, particularly with state-of-the-art (SOTA) approaches such as Generalist (CVPR 2023) and DBAT (USENIX Security 2024). This paper presents a systematic investigation of adversarial robustness in ViTs and provides a novel theoretical Mutual Information (MI) analysis in its autoencoder-based self-supervised pre-training. Specifically, we show that MI between the adversarial example and its latent representation in ViT-based autoencoders should be constrained via derived MI bounds. Building on this insight, we propose a self-supervised AT method, MIMIR, that employs an MI penalty to facilitate adversarial pre-training by masked image modeling with autoencoders. Extensive experiments on CIFAR-10, Tiny-ImageNet, and ImageNet-1K show that MIMIR can consistently provide improved natural and robust accuracy, where MIMIR outperforms SOTA AT results on ImageNet-1K. Notably, MIMIR demonstrates superior robustness against unforeseen attacks and common corruption data and can also withstand adaptive attacks where the adversary possesses full knowledge of the defense mechanism.
- Abstract(参考訳): 視覚変換器(ViT)は基本的なアーキテクチャとして登場し、現代の視覚言語モデルのバックボーンとして機能している。
優れた性能にもかかわらず、ViTは回避攻撃に対する顕著な脆弱性を示し、独自のアーキテクチャに適合した特殊対人訓練(AT)戦略の開発を必要とした。
特にGeneralist(CVPR 2023)やDBAT(USENIX Security 2024)といった最先端のSOTA(State-of-the-art)アプローチにおいて,既存のATメソッドをViTに適用する際の直接的な解決策として,大きな不整合性を明らかにした。
本稿では,ViTの対向ロバスト性に関する体系的な研究を行い,その自己教師型事前学習における理論的相互情報(MI)解析について述べる。
具体的には、逆例とViTベースのオートエンコーダにおける潜在表現の間のMIは、導出したMI境界によって制約されるべきであることを示す。
この知見に基づいて,自動エンコーダを用いたマスク画像モデリングにより,MIペナルティを利用した自己教師型AT法MIMIRを提案する。
CIFAR-10、Tiny-ImageNet、ImageNet-1Kの広範囲にわたる実験により、MIMIRは、画像Net-1KでSOTAよりも優れた結果が得られるように、改善された自然的かつ堅牢な精度を提供することができた。
特にMIMIRは、予期せぬ攻撃や一般的な汚職データに対して優れた堅牢性を示し、敵が防御機構の完全な知識を持っている場合の適応攻撃にも耐えうる。
関連論文リスト
- Downstream Transfer Attack: Adversarial Attacks on Downstream Models with Pre-trained Vision Transformers [95.22517830759193]
本稿では、事前訓練されたViTモデルから下流タスクへのこのような逆の脆弱性の伝達可能性について検討する。
DTAは攻撃成功率(ASR)が90%を超え、既存の手法をはるかに上回っていることを示す。
論文 参考訳(メタデータ) (2024-08-03T08:07:03Z) - SpecFormer: Guarding Vision Transformer Robustness via Maximum Singular Value Penalization [39.09638432514626]
ビジョントランスフォーマー(ViT)は、ハイパフォーマンスのため、コンピュータビジョンでの利用が増えているが、敵攻撃に対する脆弱性が懸念されている。
本研究は, 敵攻撃に対するViTsの強化に適したSpecFormerを導入し, 理論的基盤となる。
論文 参考訳(メタデータ) (2024-01-02T14:27:24Z) - Experts Weights Averaging: A New General Training Scheme for Vision
Transformers [57.62386892571636]
推論コストを増大させることなく性能向上を実現するビジョントランスフォーマー(ViT)のトレーニング手法を提案する。
トレーニング中、ViTのFeed-Forward Networks(FFN)を、特別に設計されたより効率的なMoEに置き換える。
トレーニング後、各MoEを専門家を平均化してFFNに変換し、モデルを推論のために元のViTに変換する。
論文 参考訳(メタデータ) (2023-08-11T12:05:12Z) - When Adversarial Training Meets Vision Transformers: Recipes from
Training to Architecture [32.260596998171835]
ViTがこのような敵の攻撃に対して防衛するためには、依然として敵の訓練が必要である。
対人訓練にはプレトレーニングとSGDが必要であることが判明した。
私たちのコードはhttps://versa.com/mo666666/When-Adrial-Training-Meets-Vision-Transformersで利用可能です。
論文 参考訳(メタデータ) (2022-10-14T05:37:20Z) - A Light Recipe to Train Robust Vision Transformers [34.51642006926379]
我々は、視覚変換器(ViT)が、回避攻撃に対する機械学習モデルの堅牢性を改善するための基盤となるアーキテクチャとして機能することを示します。
我々は、ImageNetデータセットのサブセットに関する厳密なアブレーション研究を用いて、独自の逆トレーニングレシピを用いて、この目的を達成する。
提案手法は,完全なImageNet-1k上でのViTアーキテクチャと大規模モデルの異なるクラスに一般化可能であることを示す。
論文 参考訳(メタデータ) (2022-09-15T16:00:04Z) - Self-Ensembling Vision Transformer (SEViT) for Robust Medical Image
Classification [4.843654097048771]
ビジョントランスフォーマー(ViT)は、医療画像における様々なコンピュータビジョンタスクのために、畳み込みニューラルネットワーク(CNN)を置き換えるために競合している。
近年の研究では、ViTsはそのような攻撃の影響を受けやすく、攻撃下での大幅な性能劣化が報告されている。
本稿では,対戦型攻撃の存在下でのViTの堅牢性を高めるための,新たな自己認識手法を提案する。
論文 参考訳(メタデータ) (2022-08-04T19:02:24Z) - Towards Efficient Adversarial Training on Vision Transformers [41.6396577241957]
敵の訓練は、堅牢なCNNを実現するための最も効果的な方法の1つである。
本稿では,効率的な注意指導型対人訓練機構を提案する。
高速な敵のトレーニング時間のわずか65%で、挑戦的なImageNetベンチマークの最先端の結果と一致します。
論文 参考訳(メタデータ) (2022-07-21T14:23:50Z) - Deeper Insights into ViTs Robustness towards Common Corruptions [82.79764218627558]
我々は、CNNのようなアーキテクチャ設計とCNNベースのデータ拡張戦略が、一般的な汚職に対するViTsの堅牢性にどのように影響するかを検討する。
重なり合うパッチ埋め込みと畳み込みフィードフォワードネットワーク(FFN)がロバスト性の向上を実証する。
また、2つの角度から入力値の増大を可能にする新しい条件付き手法も導入する。
論文 参考訳(メタデータ) (2022-04-26T08:22:34Z) - Self-Promoted Supervision for Few-Shot Transformer [178.52948452353834]
SUN(Self-promoted sUpervisioN)は視覚変換器(ViT)のための数発の学習フレームワークである
SUNは、数ショットの学習データセットでViTを事前トレーニングし、各パッチトークンを導くために、個別のロケーション固有の監視を生成する。
実験によると、ViTを使ったSUNは、ViTを使った他の数発の学習フレームワークを大幅に上回っており、CNNの最先端技術よりも高いパフォーマンスを実現している。
論文 参考訳(メタデータ) (2022-03-14T12:53:27Z) - On the Adversarial Robustness of Visual Transformers [129.29523847765952]
本研究は、視覚変換器(ViT)の対逆的摂動に対する堅牢性に関する最初の包括的な研究を提供する。
さまざまなホワイトボックスとトランスファーアタック設定でテストされた ViT は、畳み込みニューラルネットワーク (CNN) と比較して、より優れた敵対的堅牢性を持っています。
論文 参考訳(メタデータ) (2021-03-29T14:48:24Z) - Robust Pre-Training by Adversarial Contrastive Learning [120.33706897927391]
近年の研究では、敵の訓練と統合されると、自己監督型事前訓練が最先端の堅牢性につながることが示されている。
我々は,データ強化と対向的摂動の両面に整合した学習表現により,ロバストネスを意識した自己指導型事前学習を改善する。
論文 参考訳(メタデータ) (2020-10-26T04:44:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。