論文の概要: MIMIR: Masked Image Modeling for Mutual Information-based Adversarial
Robustness
- arxiv url: http://arxiv.org/abs/2312.04960v2
- Date: Wed, 17 Jan 2024 13:47:32 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-18 19:49:42.468501
- Title: MIMIR: Masked Image Modeling for Mutual Information-based Adversarial
Robustness
- Title(参考訳): MIMIR:相互情報に基づく対向ロバスト性のためのマスク画像モデリング
- Authors: Xiaoyun Xu, Shujian Yu, Jingzheng Wu, Stjepan Picek
- Abstract要約: 視覚変換器(ViT)は畳み込みニューラルネットワーク(CNN)と比較して様々なタスクにおいて優れた性能を発揮する
本報告では, マスク付き画像モデリングを事前学習時に活用することにより, 異なる対角的訓練手法を構築することを目的とした, 新たな防御手法MIMIRを提案する。
以上の結果から,MIMIRではCIFAR-10では4.19%,ImageNet-1Kでは5.52%の精度向上が見られた。
- 参考スコア(独自算出の注目度): 31.76309077313509
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Vision Transformers (ViTs) achieve superior performance on various tasks
compared to convolutional neural networks (CNNs), but ViTs are also vulnerable
to adversarial attacks. Adversarial training is one of the most successful
methods to build robust CNN models. Thus, recent works explored new
methodologies for adversarial training of ViTs based on the differences between
ViTs and CNNs, such as better training strategies, preventing attention from
focusing on a single block, or discarding low-attention embeddings. However,
these methods still follow the design of traditional supervised adversarial
training, limiting the potential of adversarial training on ViTs. This paper
proposes a novel defense method, MIMIR, which aims to build a different
adversarial training methodology by utilizing Masked Image Modeling at
pre-training. We create an autoencoder that accepts adversarial examples as
input but takes the clean examples as the modeling target. Then, we create a
mutual information (MI) penalty following the idea of the Information
Bottleneck. Among the two information source inputs and corresponding
adversarial perturbation, the perturbation information is eliminated due to the
constraint of the modeling target. Next, we provide a theoretical analysis of
MIMIR using the bounds of the MI penalty. We also design two adaptive attacks
when the adversary is aware of the MIMIR defense and show that MIMIR still
performs well. The experimental results show that MIMIR improves (natural and
adversarial) accuracy on average by 4.19% on CIFAR-10 and 5.52% on ImageNet-1K,
compared to baselines. On Tiny-ImageNet, we obtained improved natural accuracy
of 2.99\% on average and comparable adversarial accuracy. Our code and trained
models are publicly available https://github.com/xiaoyunxxy/MIMIR.
- Abstract(参考訳): 視覚トランスフォーマー (vits) は畳み込みニューラルネットワーク (cnns) と比較して様々なタスクで優れた性能を発揮するが、vitsは逆攻撃にも弱い。
敵の訓練は、堅牢なCNNモデルを構築する最も成功した方法の1つである。
そこで,近年の研究では,vitsとcnnの違い,例えばトレーニング戦略の改善,シングルブロックへの注意の集中の防止,低アテンション埋め込みの破棄などに基づいて,vitsの敵対的トレーニングのための新しい手法が検討されている。
しかし、これらの手法は従来型の教師付き対人訓練の設計に従い、ViTの対人訓練の可能性を制限する。
本稿では,新しい防御法であるmimirを提案し,プレトレーニング時のマスク画像モデリングを活用し,異なる対向訓練手法の構築を目指す。
我々は、逆例を入力として受け入れるオートエンコーダを作成するが、クリーン例をモデリング対象とする。
次に、情報ボトルネックの考え方に従って相互情報(mi)ペナルティを作成する。
2つの情報ソース入力と対応する対向的摂動のうち、モデリング対象の制約により摂動情報が排除される。
次に,miペナルティの限界を用いたmimirの理論的解析を行う。
また、敵がMIMIRの防御に気付いていれば2つのアダプティブアタックを設計し、MIMIRの動作が良好であることを示す。
実験の結果、MIMIRはベースラインに比べてCIFAR-10では4.19%、ImageNet-1Kでは5.52%の精度で(自然と敵の)精度が向上した。
Tiny-ImageNetでは, 自然精度が2.99\%向上し, 対逆精度が向上した。
私たちのコードとトレーニングされたモデルは、https://github.com/xiaoyunxxy/MIMIR.comで公開されています。
関連論文リスト
- Downstream Transfer Attack: Adversarial Attacks on Downstream Models with Pre-trained Vision Transformers [95.22517830759193]
本稿では、事前訓練されたViTモデルから下流タスクへのこのような逆の脆弱性の伝達可能性について検討する。
DTAは攻撃成功率(ASR)が90%を超え、既存の手法をはるかに上回っていることを示す。
論文 参考訳(メタデータ) (2024-08-03T08:07:03Z) - SpecFormer: Guarding Vision Transformer Robustness via Maximum Singular Value Penalization [39.09638432514626]
ビジョントランスフォーマー(ViT)は、ハイパフォーマンスのため、コンピュータビジョンでの利用が増えているが、敵攻撃に対する脆弱性が懸念されている。
本研究は, 敵攻撃に対するViTsの強化に適したSpecFormerを導入し, 理論的基盤となる。
論文 参考訳(メタデータ) (2024-01-02T14:27:24Z) - Experts Weights Averaging: A New General Training Scheme for Vision
Transformers [57.62386892571636]
推論コストを増大させることなく性能向上を実現するビジョントランスフォーマー(ViT)のトレーニング手法を提案する。
トレーニング中、ViTのFeed-Forward Networks(FFN)を、特別に設計されたより効率的なMoEに置き換える。
トレーニング後、各MoEを専門家を平均化してFFNに変換し、モデルを推論のために元のViTに変換する。
論文 参考訳(メタデータ) (2023-08-11T12:05:12Z) - When Adversarial Training Meets Vision Transformers: Recipes from
Training to Architecture [32.260596998171835]
ViTがこのような敵の攻撃に対して防衛するためには、依然として敵の訓練が必要である。
対人訓練にはプレトレーニングとSGDが必要であることが判明した。
私たちのコードはhttps://versa.com/mo666666/When-Adrial-Training-Meets-Vision-Transformersで利用可能です。
論文 参考訳(メタデータ) (2022-10-14T05:37:20Z) - A Light Recipe to Train Robust Vision Transformers [34.51642006926379]
我々は、視覚変換器(ViT)が、回避攻撃に対する機械学習モデルの堅牢性を改善するための基盤となるアーキテクチャとして機能することを示します。
我々は、ImageNetデータセットのサブセットに関する厳密なアブレーション研究を用いて、独自の逆トレーニングレシピを用いて、この目的を達成する。
提案手法は,完全なImageNet-1k上でのViTアーキテクチャと大規模モデルの異なるクラスに一般化可能であることを示す。
論文 参考訳(メタデータ) (2022-09-15T16:00:04Z) - Self-Ensembling Vision Transformer (SEViT) for Robust Medical Image
Classification [4.843654097048771]
ビジョントランスフォーマー(ViT)は、医療画像における様々なコンピュータビジョンタスクのために、畳み込みニューラルネットワーク(CNN)を置き換えるために競合している。
近年の研究では、ViTsはそのような攻撃の影響を受けやすく、攻撃下での大幅な性能劣化が報告されている。
本稿では,対戦型攻撃の存在下でのViTの堅牢性を高めるための,新たな自己認識手法を提案する。
論文 参考訳(メタデータ) (2022-08-04T19:02:24Z) - Towards Efficient Adversarial Training on Vision Transformers [41.6396577241957]
敵の訓練は、堅牢なCNNを実現するための最も効果的な方法の1つである。
本稿では,効率的な注意指導型対人訓練機構を提案する。
高速な敵のトレーニング時間のわずか65%で、挑戦的なImageNetベンチマークの最先端の結果と一致します。
論文 参考訳(メタデータ) (2022-07-21T14:23:50Z) - Deeper Insights into ViTs Robustness towards Common Corruptions [82.79764218627558]
我々は、CNNのようなアーキテクチャ設計とCNNベースのデータ拡張戦略が、一般的な汚職に対するViTsの堅牢性にどのように影響するかを検討する。
重なり合うパッチ埋め込みと畳み込みフィードフォワードネットワーク(FFN)がロバスト性の向上を実証する。
また、2つの角度から入力値の増大を可能にする新しい条件付き手法も導入する。
論文 参考訳(メタデータ) (2022-04-26T08:22:34Z) - Self-Promoted Supervision for Few-Shot Transformer [178.52948452353834]
SUN(Self-promoted sUpervisioN)は視覚変換器(ViT)のための数発の学習フレームワークである
SUNは、数ショットの学習データセットでViTを事前トレーニングし、各パッチトークンを導くために、個別のロケーション固有の監視を生成する。
実験によると、ViTを使ったSUNは、ViTを使った他の数発の学習フレームワークを大幅に上回っており、CNNの最先端技術よりも高いパフォーマンスを実現している。
論文 参考訳(メタデータ) (2022-03-14T12:53:27Z) - On the Adversarial Robustness of Visual Transformers [129.29523847765952]
本研究は、視覚変換器(ViT)の対逆的摂動に対する堅牢性に関する最初の包括的な研究を提供する。
さまざまなホワイトボックスとトランスファーアタック設定でテストされた ViT は、畳み込みニューラルネットワーク (CNN) と比較して、より優れた敵対的堅牢性を持っています。
論文 参考訳(メタデータ) (2021-03-29T14:48:24Z) - Robust Pre-Training by Adversarial Contrastive Learning [120.33706897927391]
近年の研究では、敵の訓練と統合されると、自己監督型事前訓練が最先端の堅牢性につながることが示されている。
我々は,データ強化と対向的摂動の両面に整合した学習表現により,ロバストネスを意識した自己指導型事前学習を改善する。
論文 参考訳(メタデータ) (2020-10-26T04:44:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。