論文の概要: Denoising Masked AutoEncoders are Certifiable Robust Vision Learners
- arxiv url: http://arxiv.org/abs/2210.06983v1
- Date: Mon, 10 Oct 2022 12:37:59 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-14 14:59:00.389899
- Title: Denoising Masked AutoEncoders are Certifiable Robust Vision Learners
- Title(参考訳): マスクオートエンコーダはロバストな視覚学習者である
- Authors: Quanlin Wu, Hang Ye, Yuntian Gu, Huishuai Zhang, Liwei Wang, Di He
- Abstract要約: DMAE(Denoising Masked AutoEncoders)と呼ばれる自己教師型手法を提案する。
DMAEは各ピクセル値にガウスノイズを加え、複数のパッチをランダムにマスキングすることで、各イメージを劣化させる。
その後、Transformerベースのエンコーダデコーダモデルをトレーニングして、オリジナルのイメージを破損したイメージから再構築する。
- 参考スコア(独自算出の注目度): 37.04863068273281
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we propose a new self-supervised method, which is called
Denoising Masked AutoEncoders (DMAE), for learning certified robust classifiers
of images. In DMAE, we corrupt each image by adding Gaussian noises to each
pixel value and randomly masking several patches. A Transformer-based
encoder-decoder model is then trained to reconstruct the original image from
the corrupted one. In this learning paradigm, the encoder will learn to capture
relevant semantics for the downstream tasks, which is also robust to Gaussian
additive noises. We show that the pre-trained encoder can naturally be used as
the base classifier in Gaussian smoothed models, where we can analytically
compute the certified radius for any data point. Although the proposed method
is simple, it yields significant performance improvement in downstream
classification tasks. We show that the DMAE ViT-Base model, which just uses
1/10 parameters of the model developed in recent work arXiv:2206.10550,
achieves competitive or better certified accuracy in various settings. The DMAE
ViT-Large model significantly surpasses all previous results, establishing a
new state-of-the-art on ImageNet dataset. We further demonstrate that the
pre-trained model has good transferability to the CIFAR-10 dataset, suggesting
its wide adaptability. Models and code are available at
https://github.com/quanlin-wu/dmae.
- Abstract(参考訳): 本稿では,画像のロバスト分類法を学習するために,denoising masked autoencoder (dmae) と呼ばれる新しい自己教師付き手法を提案する。
DMAEでは,各画素値にガウスノイズを加え,複数のパッチをランダムにマスキングすることにより,各画像の劣化を防止した。
その後、トランスフォーマーベースのエンコーダデコーダモデルをトレーニングして、オリジナルのイメージを破損したイメージから再構築する。
この学習パラダイムでは、エンコーダは下流タスクの関連するセマンティクスをキャプチャすることを学びます。
予備学習エンコーダはgaussian smoothed modelのベース分類器として自然に利用可能であり,任意のデータポイントに対する認証半径を解析的に計算できることを示した。
提案手法は単純であるが,下流分類タスクにおいて有意な性能改善をもたらす。
DMAE ViT-Baseモデルは,最近の研究 arXiv:2206.10550 で開発されたモデルの1/10パラメータのみを使用するだけで,様々な環境での競争力や精度向上を実現する。
DMAE ViT-Largeモデルは以前のすべての結果を大きく上回り、ImageNetデータセットに新たな最先端のデータセットを確立する。
さらに、事前学習されたモデルがCIFAR-10データセットに優れた転送性を持つことを示す。
モデルとコードはhttps://github.com/quanlin-wu/dmaeで入手できる。
関連論文リスト
- Unified Auto-Encoding with Masked Diffusion [15.264296748357157]
我々はUMD(Unified Masked Diffusion)と呼ばれる,統合された自己監督的目標を提案する。
UMDは、パッチベースとノイズベースの破損テクニックを1つの自動エンコーディングフレームワークに組み合わせている。
下流の生成および表現学習タスクにおいて、高いパフォーマンスを達成する。
論文 参考訳(メタデータ) (2024-06-25T16:24:34Z) - Denoising Autoregressive Representation Learning [13.185567468951628]
DARLはデコーダのみのトランスフォーマーを用いて,画像パッチの自動回帰予測を行う。
提案手法では, 適応型ノイズスケジュールを用いて学習表現を改良し, より大規模なモデルでより長い訓練を行えることを示す。
論文 参考訳(メタデータ) (2024-03-08T10:19:00Z) - Improve Supervised Representation Learning with Masked Image Modeling [30.30649867772395]
マスク付き画像モデリングを既存の教師付きトレーニングパラダイムに簡単に統合できる,シンプルで効果的なセットアップを提案する。
アーキテクチャの変更は最小限であり、この設定が学習した表現の質を向上させることができるという仮定のオーバーヘッドはない。
論文 参考訳(メタデータ) (2023-12-01T22:03:25Z) - Improving Masked Autoencoders by Learning Where to Mask [65.89510231743692]
マスケ画像モデリングは視覚データに対する有望な自己教師型学習手法である。
本稿では,Gumbel-Softmax を用いて,対向学習マスク生成装置とマスク誘導画像モデリングプロセスとを相互接続するフレームワーク AutoMAE を提案する。
実験の結果,AutoMAEは,標準の自己監督型ベンチマークや下流タスクに対して,効果的な事前学習モデルを提供することがわかった。
論文 参考訳(メタデータ) (2023-03-12T05:28:55Z) - Masked Images Are Counterfactual Samples for Robust Fine-tuning [77.82348472169335]
微調整の深層学習モデルは、分布内(ID)性能と分布外(OOD)堅牢性の間のトレードオフにつながる可能性がある。
そこで本研究では,マスク付き画像を対物サンプルとして用いて,ファインチューニングモデルのロバスト性を向上させる新しいファインチューニング手法を提案する。
論文 参考訳(メタデータ) (2023-03-06T11:51:28Z) - MAGE: MAsked Generative Encoder to Unify Representation Learning and
Image Synthesis [33.46831766206675]
MASked Generative (MAGE)は、SOTA画像生成と自己教師付き表現学習を統合するための最初のフレームワークである。
以前の生成モデルにインスパイアされたMAGEは、入力と出力でベクトル量子化されたGANによって学習された意味トークンを使用する。
ImageNet-1Kでは、1つのMAGE ViT-Lモデルがクラス非条件画像生成のタスクで9.10 FIDを得る。
論文 参考訳(メタデータ) (2022-11-16T18:59:02Z) - SdAE: Self-distillated Masked Autoencoder [95.3684955370897]
本稿では,自己蒸留マスク付きオートエンコーダネットワークSdAEを提案する。
300エポックの事前トレーニングで、バニラViT-BaseモデルはImageNet-1k分類において84.1%の微調整精度を達成する。
論文 参考訳(メタデータ) (2022-07-31T15:07:25Z) - Corrupted Image Modeling for Self-Supervised Visual Pre-Training [103.99311611776697]
自己教師型視覚前訓練のためのCIM(Corrupted Image Modeling)を提案する。
CIMは、小さなトレーニング可能なBEiTを備えた補助発電機を使用して、人工マスクトークンを使用する代わりに入力イメージを破損させる。
事前トレーニング後、エンハンサーは下流タスク用の高容量ビジュアルエンコーダとして使用できる。
論文 参考訳(メタデータ) (2022-02-07T17:59:04Z) - Masked Autoencoders Are Scalable Vision Learners [60.97703494764904]
Masked Autoencoders (MAE) は、コンピュータビジョンのためのスケーラブルな自己教師型学習システムである。
我々は入力画像のランダムなパッチを隠蔽し、欠落したピクセルを再構成する。
これら2つの設計を結合することで,大規模モデルを効率的かつ効率的にトレーニングすることが可能になります。
論文 参考訳(メタデータ) (2021-11-11T18:46:40Z) - Locally Masked Convolution for Autoregressive Models [107.4635841204146]
LMConvは標準的な2Dコンボリューションの簡単な修正であり、任意のマスクを画像の各位置の重みに適用することができる。
我々は,パラメータを共有するが生成順序が異なる分布推定器のアンサンブルを学習し,全画像密度推定の性能を向上させる。
論文 参考訳(メタデータ) (2020-06-22T17:59:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。