論文の概要: Improving Adversarial Robustness of Masked Autoencoders via Test-time
Frequency-domain Prompting
- arxiv url: http://arxiv.org/abs/2308.10315v1
- Date: Sun, 20 Aug 2023 16:27:17 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-22 16:08:52.583580
- Title: Improving Adversarial Robustness of Masked Autoencoders via Test-time
Frequency-domain Prompting
- Title(参考訳): テスト時間周波数領域プロンプトによるマスキングオートエンコーダの対向ロバスト性向上
- Authors: Qidong Huang, Xiaoyi Dong, Dongdong Chen, Yinpeng Chen, Lu Yuan, Gang
Hua, Weiming Zhang, Nenghai Yu
- Abstract要約: 以上の結果から,MAEは他のBERT事前学習法に比べて,対向的堅牢性が著しく低下していることが示唆された。
我々は,MAEの対角的堅牢性を高めるための,シンプルで効果的な方法を提案する。
提案手法は,ImageNet-1k分類のクリーンな性能を維持しつつ,MAEの対向ロバスト性を高める。
- 参考スコア(独自算出の注目度): 133.55037976429088
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we investigate the adversarial robustness of vision
transformers that are equipped with BERT pretraining (\eg, BEiT, MAE). A
surprising observation is that MAE has significantly worse adversarial
robustness than other BERT pretraining methods. This observation drives us to
rethink the basic differences between these BERT pretraining methods and how
these differences affect the robustness against adversarial perturbations. Our
empirical analysis reveals that the adversarial robustness of BERT pretraining
is highly related to the reconstruction target, \ie, predicting the raw pixels
of masked image patches will degrade more adversarial robustness of the model
than predicting the semantic context, since it guides the model to concentrate
more on medium-/high-frequency components of images. Based on our analysis, we
provide a simple yet effective way to boost the adversarial robustness of MAE.
The basic idea is using the dataset-extracted domain knowledge to occupy the
medium-/high-frequency of images, thus narrowing the optimization space of
adversarial perturbations. Specifically, we group the distribution of
pretraining data and optimize a set of cluster-specific visual prompts on
frequency domain. These prompts are incorporated with input images through
prototype-based prompt selection during test period. Extensive evaluation shows
that our method clearly boost MAE's adversarial robustness while maintaining
its clean performance on ImageNet-1k classification. Our code is available at:
\href{https://github.com/shikiw/RobustMAE}{https://github.com/shikiw/RobustMAE}.
- Abstract(参考訳): 本稿では,BERT事前訓練(\eg, BEiT, MAE)を備えた視覚変換器の対角的堅牢性について検討する。
意外な観察は、MAEが他のBERT事前訓練法よりも敵の頑健さが著しく悪いことである。
この観察により、これらのBERT事前学習方法の基本的な相違と、これらの相違が敵の摂動に対する堅牢性に与える影響を再考する。
実験結果から,bertプリトレーニングの敵対的ロバスト性は,画像の中・高頻度成分に集中するように誘導されるため,マスキング画像パッチの生画素を予測することで,意味的文脈を予測するよりも,モデルの敵対的ロバスト性が低下することが明らかとなった。
解析結果から,mae の敵対的ロバスト性を高めるための簡便かつ効果的な方法を提案する。
基本的な考え方は、データセット抽出されたドメイン知識を用いて画像の中・高頻度を占有し、対向摂動の最適化空間を狭めることである。
具体的には、プリトレーニングデータの分布をグループ化し、周波数領域でクラスタ固有の視覚的プロンプトのセットを最適化する。
これらのプロンプトは、テスト期間中にプロトタイプベースのプロンプト選択によって入力画像に組み込まれる。
本手法は,ImageNet-1k分類におけるクリーンな性能を維持しつつ,MAEの対向ロバスト性を向上することを示す。
私たちのコードは以下の通りである。 \href{https://github.com/shikiw/RobustMAE}{https://github.com/shikiw/RobustMAE}。
関連論文リスト
- Rethinking and Defending Protective Perturbation in Personalized Diffusion Models [21.30373461975769]
パーソナライズされた拡散モデル(PDM)の微調整過程について,ショートカット学習のレンズを用いて検討した。
PDMは小さな逆境の摂動に影響を受けやすいため、破損したデータセットを微調整すると著しく劣化する。
本稿では,データ浄化と対照的なデカップリング学習を含むシステム防衛フレームワークを提案する。
論文 参考訳(メタデータ) (2024-06-27T07:14:14Z) - Counterfactual Image Generation for adversarially robust and
interpretable Classifiers [1.3859669037499769]
本稿では,GAN(Generative Adrial Networks)を基盤として,画像から画像への変換を利用した統合フレームワークを提案する。
これは、分類器と識別器を1つのモデルに組み合わせて、実際の画像をそれぞれのクラスに属性付け、生成されたイメージを「フェイク」として生成することで達成される。
モデルが敵攻撃に対するロバスト性の向上を示すことを示すとともに,判別器の「フェイクネス」値が予測の不確かさの指標となることを示す。
論文 参考訳(メタデータ) (2023-10-01T18:50:29Z) - PAIF: Perception-Aware Infrared-Visible Image Fusion for Attack-Tolerant
Semantic Segmentation [50.556961575275345]
対向シーンにおけるセグメンテーションの堅牢性を促進するための認識認識型融合フレームワークを提案する。
我々は,先進の競争相手に比べて15.3% mIOUの利得で,ロバスト性を大幅に向上させることを示す。
論文 参考訳(メタデータ) (2023-08-08T01:55:44Z) - Learning to Mask and Permute Visual Tokens for Vision Transformer
Pre-Training [59.923672191632065]
我々はMasked and Permuted Vision Transformer(MaPeT)という自己教師型事前学習手法を提案する。
MaPeTは、自動回帰および置換予測を使用して、パッチ内依存関係をキャプチャする。
以上の結果から,MaPeTはImageNet上での競合性能を実証した。
論文 参考訳(メタデータ) (2023-06-12T18:12:19Z) - Improving Masked Autoencoders by Learning Where to Mask [65.89510231743692]
マスケ画像モデリングは視覚データに対する有望な自己教師型学習手法である。
本稿では,Gumbel-Softmax を用いて,対向学習マスク生成装置とマスク誘導画像モデリングプロセスとを相互接続するフレームワーク AutoMAE を提案する。
実験の結果,AutoMAEは,標準の自己監督型ベンチマークや下流タスクに対して,効果的な事前学習モデルを提供することがわかった。
論文 参考訳(メタデータ) (2023-03-12T05:28:55Z) - Masked Images Are Counterfactual Samples for Robust Fine-tuning [77.82348472169335]
微調整の深層学習モデルは、分布内(ID)性能と分布外(OOD)堅牢性の間のトレードオフにつながる可能性がある。
そこで本研究では,マスク付き画像を対物サンプルとして用いて,ファインチューニングモデルのロバスト性を向上させる新しいファインチューニング手法を提案する。
論文 参考訳(メタデータ) (2023-03-06T11:51:28Z) - mc-BEiT: Multi-choice Discretization for Image BERT Pre-training [52.04866462439979]
Image BERT pre-training with masked image modeling (MIM)は、自己教師付き表現学習に対処する一般的な実践である。
改良されたBERTスタイルの画像事前学習手法であるmc-BEiTを導入する。
論文 参考訳(メタデータ) (2022-03-29T09:08:18Z) - Adaptive Clustering of Robust Semantic Representations for Adversarial
Image Purification [0.9203366434753543]
我々は、モデルに依存しず、目に見えない敵に対して汎用可能な、敵対攻撃に対する堅牢な防御を提案します。
本稿では,各クラスの潜在表現を抽出し,意味的類似性を持つ潜在表現を適応的にクラスタ化する。
我々は、逆空間表現と真のクラスタ分布の間の距離を最小化するために、潜空間表現を制限する新しいモデルを逆向きに訓練する。
論文 参考訳(メタデータ) (2021-04-05T21:07:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。