論文の概要: Masked autoencoders are effective solution to transformer data-hungry
- arxiv url: http://arxiv.org/abs/2212.05677v2
- Date: Tue, 13 Dec 2022 02:34:43 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-14 14:38:52.595413
- Title: Masked autoencoders are effective solution to transformer data-hungry
- Title(参考訳): マスクオートエンコーダはトランスフォーマーデータハングリーの効果的な解法である
- Authors: Jiawei Mao, Honggu Zhou, Xuesong Yin, Yuanqi Chang. Binling Nie. Rui
Xu
- Abstract要約: ビジョントランスフォーマー(ViT)は、いくつかのビジョンタスクにおいて、そのグローバルモデリング能力で畳み込みニューラルネットワーク(CNN)を上回っている。
ViTには、畳み込みに固有の帰納バイアスがなく、トレーニングに大量のデータを必要とする。
マスク付きオートエンコーダ(MAE)は、トランスフォーマーが画像自体にもっと焦点を合わせることができる。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Vision Transformers (ViTs) outperforms convolutional neural networks (CNNs)
in several vision tasks with its global modeling capabilities. However, ViT
lacks the inductive bias inherent to convolution making it require a large
amount of data for training. This results in ViT not performing as well as CNNs
on small datasets like medicine and science. We experimentally found that
masked autoencoders (MAE) can make the transformer focus more on the image
itself, thus alleviating the data-hungry issue of ViT to some extent. Yet the
current MAE model is too complex resulting in over-fitting problems on small
datasets. This leads to a gap between MAEs trained on small datasets and
advanced CNNs models still. Therefore, we investigated how to reduce the
decoder complexity in MAE and found a more suitable architectural configuration
for it with small datasets. Besides, we additionally designed a location
prediction task and a contrastive learning task to introduce localization and
invariance characteristics for MAE. Our contrastive learning task not only
enables the model to learn high-level visual information but also allows the
training of MAE's class token. This is something that most MAE improvement
efforts do not consider. Extensive experiments have shown that our method shows
state-of-the-art performance on standard small datasets as well as medical
datasets with few samples compared to the current popular masked image modeling
(MIM) and vision transformers for small datasets.The code and models are
available at https://github.com/Talented-Q/SDMAE.
- Abstract(参考訳): ビジョントランスフォーマー(ViT)は、いくつかのビジョンタスクにおいて、そのグローバルモデリング能力で畳み込みニューラルネットワーク(CNN)を上回っている。
しかし、ViTには畳み込みに固有の誘導バイアスがないため、トレーニングには大量のデータが必要である。
これにより、ViTは医学や科学のような小さなデータセット上でCNNと同等に動作しない。
マスク付きオートエンコーダ(mae)はトランスフォーマーを画像そのものに集中させることで、vitのデータ・ハングリー問題をある程度緩和できることを実験的に発見した。
しかし、現在のmaeモデルは複雑すぎるため、小さなデータセットに過剰フィッティング問題が発生する。
これにより、小さなデータセットでトレーニングされたMAEと高度なCNNモデルのギャップが生じる。
そこで、maeにおけるデコーダの複雑さを低減させる方法について検討し、小さなデータセットでそれに適したアーキテクチャ構成を見出した。
さらに,位置予測タスクと対比学習タスクも設計し,maeの局所化と不分散特性を導入した。
対照的な学習タスクは、モデルがハイレベルなビジュアル情報を学習できるだけでなく、maeのクラストークンのトレーニングも可能にします。
ほとんどのMAE改善努力は考慮していません。
大規模な実験により,本手法は,現在普及しているマスク画像モデリング(MIM)や小型データセットのビジョントランスフォーマーと比較して,標準の小型データセットと医療データセットの最先端性能を示すとともに,そのコードとモデルはhttps://github.com/Talented-Q/SDMAEで公開されている。
関連論文リスト
- AViT: Adapting Vision Transformers for Small Skin Lesion Segmentation Datasets [19.44142290594537]
AViTは、トレーニング済みのViTをSLSタスクに転送することで、ViTのデータハンガーを緩和する新しい戦略である。
AViTはSOTAよりも競争力があり、時には優れているが、訓練可能なパラメータは大幅に少ない。
論文 参考訳(メタデータ) (2023-07-26T01:44:31Z) - Delving Deeper into Data Scaling in Masked Image Modeling [145.36501330782357]
視覚認識のためのマスク付き画像モデリング(MIM)手法のスケーリング能力に関する実証的研究を行った。
具体的には、Webで収集したCoyo-700Mデータセットを利用する。
我々のゴールは、データとモデルのサイズの異なるスケールでダウンストリームタスクのパフォーマンスがどのように変化するかを調べることです。
論文 参考訳(メタデータ) (2023-05-24T15:33:46Z) - How to Train Vision Transformer on Small-scale Datasets? [4.56717163175988]
畳み込みニューラルネットワークとは対照的に、Vision Transformerには固有の帰納バイアスがない。
自己教師付き帰納バイアスは,小規模データセットから直接学習可能であることを示す。
これにより、大規模な事前トレーニングやモデルアーキテクチャの変更、損失関数を必要とせずに、これらのモデルをトレーニングすることができる。
論文 参考訳(メタデータ) (2022-10-13T17:59:19Z) - Where are my Neighbors? Exploiting Patches Relations in Self-Supervised
Vision Transformer [3.158346511479111]
視覚変換器(ViT)を訓練するための簡易かつ効果的な自己教師付き学習(SSL)戦略を提案する。
我々は、ダウンストリームトレーニングの前後で、モデルが解決しなければならないイメージパッチの関係に基づいてSSLタスクのセットを定義する。
我々のRelViTモデルは、画像パッチに関連するトランスフォーマーエンコーダの出力トークンをすべて最適化し、トレーニングステップ毎により多くのトレーニング信号を利用する。
論文 参考訳(メタデータ) (2022-06-01T13:25:32Z) - Multimodal Masked Autoencoders Learn Transferable Representations [127.35955819874063]
単純でスケーラブルなネットワークアーキテクチャであるM3AE(Multimodal Masked Autoencoder)を提案する。
M3AEは、マスク付きトークン予測により、視覚と言語データの両方の統一エンコーダを学習する。
我々は,大規模な画像テキストデータセット上で訓練されたM3AEについて実証的研究を行い,M3AEが下流タスクによく伝達される一般化可能な表現を学習できることを見出した。
論文 参考訳(メタデータ) (2022-05-27T19:09:42Z) - ViT-P: Rethinking Data-efficient Vision Transformers from Locality [9.515925867530262]
我々は多焦点アテンションバイアスを導入することにより、畳み込みニューラルネットワークのようなデータ効率を向上する。
十分に訓練されたViTの注意距離にインスパイアされ、我々はViTの自己注意をマルチスケールの局所受容野に制限する。
Cifar100では、私たちのViT-P Baseモデルは、ゼロからトレーニングされた最先端の精度(83.16%)を達成する。
論文 参考訳(メタデータ) (2022-03-04T14:49:48Z) - Training Vision Transformers with Only 2040 Images [35.86457465241119]
視覚変換器(ViT)は、視覚認識のための畳み込みニューラルネットワーク(CNN)の代替として登場した。
本手法は他の手法よりも優れているという理論的解析を行い,特徴のアライメントとインスタンスの類似性の両方を捉えることができる。
様々なViTバックボーンの下で7つの小さなデータセットをスクラッチからトレーニングすると、最先端の結果が得られます。
論文 参考訳(メタデータ) (2022-01-26T03:22:08Z) - Efficient Training of Visual Transformers with Small-Size Datasets [64.60765211331697]
進化的ネットワーク(CNN)に代わるアーキテクチャパラダイムとして、ビジュアルトランスフォーマー(VT)が登場している。
ImageNetでトレーニングされた場合、同等の精度を持つにもかかわらず、より小さなデータセットでのパフォーマンスは、大きく異なる可能性があることを示す。
本稿では,計算オーバーヘッドの少ない画像から追加情報を抽出できる自己教師型タスクを提案する。
論文 参考訳(メタデータ) (2021-06-07T16:14:06Z) - When Vision Transformers Outperform ResNets without Pretraining or
Strong Data Augmentations [111.44860506703307]
Vision Transformer (ViTs) と既存のVisionNetsは、ハンドワイヤ機能やインダクティブスループットを汎用神経アーキテクチャに置き換えようとしている。
本稿では、損失幾何学のレンズからViTとRes-Mixersを解析し、トレーニングおよび推論時のモデルのデータ効率を改善することを目的とする。
最初の数層では、スペーサー活動ニューロンの頑健性が改善していることが示されている。
その結果、ViTsは、大規模な事前トレーニングや強力なデータ拡張なしに、ImageNet上でスクラッチからトレーニングした時に、同様のサイズと滑らかさのネットより優れています。
論文 参考訳(メタデータ) (2021-06-03T02:08:03Z) - Vision Transformers are Robust Learners [65.91359312429147]
ビジョントランスフォーマー(ViT)の一般的な腐敗や摂動、分布シフト、自然逆転例に対する堅牢性について検討します。
ViTsが実際により堅牢な学習者である理由を説明するために、定量的および定性的な指標を提供する分析を提示します。
論文 参考訳(メタデータ) (2021-05-17T02:39:22Z) - Visformer: The Vision-friendly Transformer [105.52122194322592]
我々は視覚に優しいトランスフォーマーから短縮したvisformerという新しいアーキテクチャを提案する。
同じ計算の複雑さにより、VisformerはTransformerベースのモデルとConvolutionベースのモデルの両方をImageNet分類精度で上回る。
論文 参考訳(メタデータ) (2021-04-26T13:13:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。