論文の概要: Masked Autoencoders are Robust Data Augmentors
- arxiv url: http://arxiv.org/abs/2206.04846v1
- Date: Fri, 10 Jun 2022 02:41:48 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-13 15:10:06.153848
- Title: Masked Autoencoders are Robust Data Augmentors
- Title(参考訳): Masked Autoencodersはロバストデータ拡張器
- Authors: Haohang Xu and Shuangrui Ding and Xiaopeng Zhang and Hongkai Xiong and
Qi Tian
- Abstract要約: ディープニューラルネットワークの一般化には、画像拡張のような正規化技術が必要である。
本稿では,トレーニングプロセスの正規化に向けて,新たな拡張の視点を提案する。
このようなモデルに基づく非線形変換をデータ拡張として活用することで,高レベルの認識タスクを向上できることを示す。
- 参考スコア(独自算出の注目度): 90.34825840657774
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Deep neural networks are capable of learning powerful representations to
tackle complex vision tasks but expose undesirable properties like the
over-fitting issue. To this end, regularization techniques like image
augmentation are necessary for deep neural networks to generalize well.
Nevertheless, most prevalent image augmentation recipes confine themselves to
off-the-shelf linear transformations like scale, flip, and colorjitter. Due to
their hand-crafted property, these augmentations are insufficient to generate
truly hard augmented examples. In this paper, we propose a novel perspective of
augmentation to regularize the training process. Inspired by the recent success
of applying masked image modeling to self-supervised learning, we adopt the
self-supervised masked autoencoder to generate the distorted view of the input
images. We show that utilizing such model-based nonlinear transformation as
data augmentation can improve high-level recognition tasks. We term the
proposed method as \textbf{M}ask-\textbf{R}econstruct \textbf{A}ugmentation
(MRA). The extensive experiments on various image classification benchmarks
verify the effectiveness of the proposed augmentation. Specifically, MRA
consistently enhances the performance on supervised, semi-supervised as well as
few-shot classification. The code will be available at
\url{https://github.com/haohang96/MRA}.
- Abstract(参考訳): ディープニューラルネットワークは、複雑なビジョンタスクに取り組むために強力な表現を学習することができるが、過剰フィッティング問題のような望ましくない特性を公開する。
この目的のために、ディープニューラルネットワークの一般化には、画像拡張のような正規化技術が必要である。
しかし、最も一般的な画像強化のレシピは、スケール、フリップ、カラージッタといった、市販の線形変換に限定している。
手作りの特質のため、これらの強化は真の硬い強化例を生成するには不十分である。
本稿では,トレーニングプロセスの正規化に向けた拡張の新たな視点を提案する。
自己教師付き学習にマスク付き画像モデリングを適用した最近の成功に触発されて,我々は自己教師付きマスク付きオートエンコーダを採用し,入力画像の歪んだビューを生成する。
このようなモデルに基づく非線形変換をデータ拡張として活用することで,高レベルの認識タスクを向上できることを示す。
提案手法は, 提案手法を \textbf{M}ask-\textbf{R}econstruct \textbf{A}ugmentation (MRA) と呼ぶ。
画像分類ベンチマークの広範な実験により,提案手法の有効性が検証された。
具体的には、MRAは、教師付き半教師付きおよび少数ショット分類の性能を一貫して向上させる。
コードは \url{https://github.com/haohang96/MRA} で入手できる。
関連論文リスト
- HAT: Hybrid Attention Transformer for Image Restoration [61.74223315807691]
トランスフォーマーに基づく手法は、画像の超解像や復調といった画像復元タスクにおいて顕著な性能を示している。
本稿では,新たなHAT(Hybrid Attention Transformer)を提案する。
我々のHATは,定量的かつ定性的に,最先端の性能を達成する。
論文 参考訳(メタデータ) (2023-09-11T05:17:55Z) - CL-MAE: Curriculum-Learned Masked Autoencoders [49.24994655813455]
本稿では,自己指導型再建作業の複雑さを継続的に増大させるために,マスキング戦略を更新するカリキュラム学習手法を提案する。
我々は、ImageNet上でCL-MAE(Curriculum-Learned Masked Autoencoder)をトレーニングし、MAEよりも優れた表現学習能力を示すことを示す。
論文 参考訳(メタデータ) (2023-08-31T09:13:30Z) - Not All Image Regions Matter: Masked Vector Quantization for
Autoregressive Image Generation [78.13793505707952]
既存の自己回帰モデルは、まず画像再構成のための潜伏空間のコードブックを学習し、学習したコードブックに基づいて自己回帰的に画像生成を完了する2段階生成パラダイムに従っている。
そこで本研究では,Masked Quantization VAE (MQ-VAE) Stackモデルを用いた2段階フレームワークを提案する。
論文 参考訳(メタデータ) (2023-05-23T02:15:53Z) - Improving Masked Autoencoders by Learning Where to Mask [65.89510231743692]
マスケ画像モデリングは視覚データに対する有望な自己教師型学習手法である。
本稿では,Gumbel-Softmax を用いて,対向学習マスク生成装置とマスク誘導画像モデリングプロセスとを相互接続するフレームワーク AutoMAE を提案する。
実験の結果,AutoMAEは,標準の自己監督型ベンチマークや下流タスクに対して,効果的な事前学習モデルを提供することがわかった。
論文 参考訳(メタデータ) (2023-03-12T05:28:55Z) - MAGE: MAsked Generative Encoder to Unify Representation Learning and
Image Synthesis [33.46831766206675]
MASked Generative (MAGE)は、SOTA画像生成と自己教師付き表現学習を統合するための最初のフレームワークである。
以前の生成モデルにインスパイアされたMAGEは、入力と出力でベクトル量子化されたGANによって学習された意味トークンを使用する。
ImageNet-1Kでは、1つのMAGE ViT-Lモデルがクラス非条件画像生成のタスクで9.10 FIDを得る。
論文 参考訳(メタデータ) (2022-11-16T18:59:02Z) - Stare at What You See: Masked Image Modeling without Reconstruction [154.74533119863864]
Masked Autoencoders (MAE) は、大規模な視覚表現事前学習のパラダイムとして広く普及している。
近年の手法では, 画像特徴を再構成対象として抽出するために, セマンティック・リッチな教師モデルが適用されており, 性能が向上している。
強力な教師モデルによって抽出された特徴は、画像中の領域間のリッチなセマンティックな相関を既にエンコードしていると論じる。
論文 参考訳(メタデータ) (2022-11-16T12:48:52Z) - Masked Autoencoders Are Scalable Vision Learners [60.97703494764904]
Masked Autoencoders (MAE) は、コンピュータビジョンのためのスケーラブルな自己教師型学習システムである。
我々は入力画像のランダムなパッチを隠蔽し、欠落したピクセルを再構成する。
これら2つの設計を結合することで,大規模モデルを効率的かつ効率的にトレーニングすることが可能になります。
論文 参考訳(メタデータ) (2021-11-11T18:46:40Z) - InAugment: Improving Classifiers via Internal Augmentation [14.281619356571724]
本稿では,画像内部統計を活用した新しい拡張操作を提案する。
最先端の増補技術による改善を示す。
また,imagenetデータセット上では,resnet50 と efficientnet-b3 top-1 の精度も向上している。
論文 参考訳(メタデータ) (2021-04-08T15:37:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。