論文の概要: The effectiveness of MAE pre-pretraining for billion-scale pretraining
- arxiv url: http://arxiv.org/abs/2303.13496v3
- Date: Thu, 25 Jan 2024 03:20:12 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-26 18:36:04.233206
- Title: The effectiveness of MAE pre-pretraining for billion-scale pretraining
- Title(参考訳): 億規模のプレトレーニングにおけるMAEプレトレーニングの有効性
- Authors: Mannat Singh, Quentin Duval, Kalyan Vasudev Alwala, Haoqi Fan, Vaibhav
Aggarwal, Aaron Adcock, Armand Joulin, Piotr Doll\'ar, Christoph
Feichtenhofer, Ross Girshick, Rohit Girdhar, Ishan Misra
- Abstract要約: モデルの初期化には自己教師付きMAE技術を用いる。
画像分類, 映像認識, 物体検出, ローショット分類, ゼロショット認識にまたがる10種類の視覚的タスクに対して, 事前学習の有効性を評価する。
- 参考スコア(独自算出の注目度): 65.98338857597935
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper revisits the standard pretrain-then-finetune paradigm used in
computer vision for visual recognition tasks. Typically, state-of-the-art
foundation models are pretrained using large scale (weakly) supervised datasets
with billions of images. We introduce an additional pre-pretraining stage that
is simple and uses the self-supervised MAE technique to initialize the model.
While MAE has only been shown to scale with the size of models, we find that it
scales with the size of the training dataset as well. Thus, our MAE-based
pre-pretraining scales with both model and data size making it applicable for
training foundation models. Pre-pretraining consistently improves both the
model convergence and the downstream transfer performance across a range of
model scales (millions to billions of parameters), and dataset sizes (millions
to billions of images). We measure the effectiveness of pre-pretraining on 10
different visual recognition tasks spanning image classification, video
recognition, object detection, low-shot classification and zero-shot
recognition. Our largest model achieves new state-of-the-art results on
iNaturalist-18 (91.7%), ImageNet-ReaL (91.1%), 1-shot ImageNet-1k (63.6%), and
zero-shot transfer on Food-101 (96.2%). Our study reveals that model
initialization plays a significant role, even for web-scale pretraining with
billions of images, and our models are available publicly.
- Abstract(参考訳): 本稿では,コンピュータビジョンで視覚認識タスクに使用される標準プリトレイン・テン・フィニチューンパラダイムを再考する。
通常、最先端の基礎モデルは何十億もの画像を持つ大規模な(弱く)教師付きデータセットを使用して事前訓練される。
我々は,モデルの初期化に自己教師付きmae技術を用いた,簡易な事前トレーニングステージを新たに導入する。
maeはモデルのサイズでしかスケールできないことが示されていますが、トレーニングデータセットのサイズに合わせてもスケールすることが分かっています。
したがって、maeベースの事前トレーニングは、モデルとデータサイズの両方でスケールし、基礎モデルのトレーニングに適用できます。
事前トレーニングは、モデルスケール(数百万から数十億のパラメータ)とデータセットサイズ(数百万から数十億のイメージ)にわたって、モデル収束と下流転送のパフォーマンスを一貫して改善します。
画像分類,映像認識,物体検出,低ショット分類,ゼロショット認識にまたがる10種類の視覚認識タスクにおける事前学習の有効性を計測した。
我々の最大のモデルは、iNaturalist-18 (91.7%)、 ImageNet-ReaL (91.1%)、 1-shot ImageNet-1k (63.6%)、およびFood-101 (96.2%)のゼロショット転送に関する新しい最先端結果を達成する。
本研究は,数十億の画像を用いたWebスケール事前学習においても,モデル初期化が重要な役割を担っていることを明らかにする。
関連論文リスト
- Scalable Pre-training of Large Autoregressive Image Models [65.824197847617]
本稿では,自己回帰目標を事前学習した視覚モデル集であるAIMを紹介する。
そこで本研究では,(1)モデルキャパシティとデータ量の両方で視覚的特徴がスケールし,(2)目標関数の値は下流タスクにおけるモデルの性能と相関することを示す。
論文 参考訳(メタデータ) (2024-01-16T18:03:37Z) - A Simple and Efficient Baseline for Data Attribution on Images [107.12337511216228]
現在の最先端のアプローチでは、モデル予測を正確に評価するために、最大30万のモデルの大規模なアンサンブルが必要となる。
本研究では、自己教師付き学習によって事前訓練されたバックボーンの特徴空間を利用して、データ帰属を行うミニマリストベースラインに焦点を当てる。
提案手法はモデルに依存しず,大規模データセットに容易にスケールできる。
論文 参考訳(メタデータ) (2023-11-03T17:29:46Z) - Delving Deeper into Data Scaling in Masked Image Modeling [145.36501330782357]
視覚認識のためのマスク付き画像モデリング(MIM)手法のスケーリング能力に関する実証的研究を行った。
具体的には、Webで収集したCoyo-700Mデータセットを利用する。
我々のゴールは、データとモデルのサイズの異なるスケールでダウンストリームタスクのパフォーマンスがどのように変化するかを調べることです。
論文 参考訳(メタデータ) (2023-05-24T15:33:46Z) - DINOv2: Learning Robust Visual Features without Supervision [75.42921276202522]
この研究は、既存の事前学習手法、特に自己教師付き手法が、多様なソースから十分なキュレートされたデータで訓練すれば、そのような特徴を生み出すことができることを示している。
技術的な貢献の多くは、大規模なトレーニングを加速し、安定化することを目的としています。
データの観点からは、自己組織化されていないデータではなく、専用で多様でキュレートされた画像データセットを構築するための自動パイプラインを提案する。
論文 参考訳(メタデータ) (2023-04-14T15:12:19Z) - On Data Scaling in Masked Image Modeling [36.00347416479826]
マスク付き画像モデリング(MIM)は、大きなデータの恩恵を受けられないと疑われている。
ImageNet-1Kの10%から完全なImageNet-22Kまで、モデルサイズは4900万から10億まで、トレーニング期間は125万から5万まで。
事前トレーニングにおけるバリデーションの損失は、複数のタスクの微調整においてモデルがどれだけうまく機能するかを測定するのに良い指標である。
論文 参考訳(メタデータ) (2022-06-09T17:58:24Z) - METRO: Efficient Denoising Pretraining of Large Scale Autoencoding
Language Models with Model Generated Signals [151.3601429216877]
本稿では,補助モデルにより生成された学習信号を用いて,大規模自動符号化言語モデルの事前学習を行う。
我々は「モデル生成dEnoising TRaining Objective」(METRO)というレシピを提案する。
結果、最大54億のパラメータからなるMETRO-LMは、GLUE、SuperGLUE、SQuADベンチマークで新しい最先端を実現する。
論文 参考訳(メタデータ) (2022-04-13T21:39:15Z) - Vision Models Are More Robust And Fair When Pretrained On Uncurated
Images Without Supervision [38.22842778742829]
差別的な自己教師型学習は、インターネット画像の任意のランダムなグループでのトレーニングモデルを可能にする。
データ前処理や事前の仮定なしで、何十億ものランダムなイメージでモデルをトレーニングします。
フェアネス、分布シフト、地理的多様性、微粒化認識、画像コピー検出、および多くの画像分類データセットを含む50以上のベンチマークにおいて、我々のモデル性能を広範囲に研究し、検証した。
論文 参考訳(メタデータ) (2022-02-16T22:26:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。