論文の概要: On Data Scaling in Masked Image Modeling
- arxiv url: http://arxiv.org/abs/2206.04664v1
- Date: Thu, 9 Jun 2022 17:58:24 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-10 15:49:25.077654
- Title: On Data Scaling in Masked Image Modeling
- Title(参考訳): マスク画像モデリングにおけるデータスケーリングについて
- Authors: Zhenda Xie, Zheng Zhang, Yue Cao, Yutong Lin, Yixuan Wei, Qi Dai, Han
Hu
- Abstract要約: マスク付き画像モデリング(MIM)は、大きなデータの恩恵を受けられないと疑われている。
ImageNet-1Kの10%から完全なImageNet-22Kまで、モデルサイズは4900万から10億まで、トレーニング期間は125万から5万まで。
事前トレーニングにおけるバリデーションの損失は、複数のタスクの微調整においてモデルがどれだけうまく機能するかを測定するのに良い指標である。
- 参考スコア(独自算出の注目度): 36.00347416479826
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: An important goal of self-supervised learning is to enable model pre-training
to benefit from almost unlimited data. However, one method that has recently
become popular, namely masked image modeling (MIM), is suspected to be unable
to benefit from larger data. In this work, we break this misconception through
extensive experiments, with data scales ranging from 10\% of ImageNet-1K to
full ImageNet-22K, model sizes ranging from 49 million to 1 billion, and
training lengths ranging from 125K iterations to 500K iterations. Our study
reveals that: (i) Masked image modeling is also demanding on larger data. We
observed that very large models got over-fitted with relatively small data;
(ii) The length of training matters. Large models trained with masked image
modeling can benefit from more data with longer training; (iii) The validation
loss in pre-training is a good indicator to measure how well the model performs
for fine-tuning on multiple tasks. This observation allows us to pre-evaluate
pre-trained models in advance without having to make costly trial-and-error
assessments of downstream tasks. We hope that our findings will advance the
understanding of masked image modeling in terms of scaling ability.
- Abstract(参考訳): 自己教師付き学習の重要な目標は、モデル事前学習をほぼ無制限のデータから恩恵を受けることである。
しかし,最近,マスク画像モデリング (MIM) と呼ばれる手法が普及し,大きなデータから恩恵を受けることができないことが疑われている。
本研究では、この誤解を、ImageNet-1Kの10%から完全なImageNet-22Kまで、モデルサイズが4900万から10億まで、トレーニング期間が125万から500万まで、広範囲にわたる実験を通じて解決する。
私たちの研究はそれを明らかにしています
(i)マスク付き画像モデリングも大きなデータを必要とする。
私たちは、非常に大きなモデルが比較的小さなデータで過剰に適合していることを観察しました。
(ii)訓練期間
マスク付き画像モデリングで訓練された大規模なモデルは、長いトレーニングでより多くのデータから恩恵を受けることができる。
3) 事前学習における検証損失は,複数のタスクの微調整において,モデルの性能を評価する上でよい指標である。
この観察により、ダウンストリームタスクの試行錯誤評価を行うことなく、事前訓練済みモデルを事前に評価することができる。
我々は,スケーリング能力の観点から,マスク画像モデリングの理解を深めることを期待している。
関連論文リスト
- A Simple and Efficient Baseline for Data Attribution on Images [107.12337511216228]
現在の最先端のアプローチでは、モデル予測を正確に評価するために、最大30万のモデルの大規模なアンサンブルが必要となる。
本研究では、自己教師付き学習によって事前訓練されたバックボーンの特徴空間を利用して、データ帰属を行うミニマリストベースラインに焦点を当てる。
提案手法はモデルに依存しず,大規模データセットに容易にスケールできる。
論文 参考訳(メタデータ) (2023-11-03T17:29:46Z) - Masked Diffusion Models Are Fast Distribution Learners [32.485235866596064]
拡散モデルは、スクラッチからきめ細かい視覚情報を学習するために一般的に訓練されている。
まず, 素数分布を学習するためにモデルの事前学習を行うことにより, 強い拡散モデルを訓練するのに十分であることを示す。
そして、事前学習されたモデルは、様々な生成タスクに対して効率的に微調整することができる。
論文 参考訳(メタデータ) (2023-06-20T08:02:59Z) - Delving Deeper into Data Scaling in Masked Image Modeling [145.36501330782357]
視覚認識のためのマスク付き画像モデリング(MIM)手法のスケーリング能力に関する実証的研究を行った。
具体的には、Webで収集したCoyo-700Mデータセットを利用する。
我々のゴールは、データとモデルのサイズの異なるスケールでダウンストリームタスクのパフォーマンスがどのように変化するかを調べることです。
論文 参考訳(メタデータ) (2023-05-24T15:33:46Z) - DINOv2: Learning Robust Visual Features without Supervision [75.42921276202522]
この研究は、既存の事前学習手法、特に自己教師付き手法が、多様なソースから十分なキュレートされたデータで訓練すれば、そのような特徴を生み出すことができることを示している。
技術的な貢献の多くは、大規模なトレーニングを加速し、安定化することを目的としています。
データの観点からは、自己組織化されていないデータではなく、専用で多様でキュレートされた画像データセットを構築するための自動パイプラインを提案する。
論文 参考訳(メタデータ) (2023-04-14T15:12:19Z) - The effectiveness of MAE pre-pretraining for billion-scale pretraining [65.98338857597935]
モデルの初期化には自己教師付きMAE技術を用いる。
画像分類, 映像認識, 物体検出, ローショット分類, ゼロショット認識にまたがる10種類の視覚的タスクに対して, 事前学習の有効性を評価する。
論文 参考訳(メタデータ) (2023-03-23T17:56:12Z) - Could Giant Pretrained Image Models Extract Universal Representations? [94.97056702288317]
本稿では,多種多様なコンピュータビジョンタスクに適用した凍結事前学習モデルについて述べる。
私たちの研究は、この凍結した設定にどのような事前学習タスクが最適か、凍結した設定を様々な下流タスクに柔軟にする方法、より大きなモデルサイズの影響について、質問に答えています。
論文 参考訳(メタデータ) (2022-11-03T17:57:10Z) - Vision Models Are More Robust And Fair When Pretrained On Uncurated
Images Without Supervision [38.22842778742829]
差別的な自己教師型学習は、インターネット画像の任意のランダムなグループでのトレーニングモデルを可能にする。
データ前処理や事前の仮定なしで、何十億ものランダムなイメージでモデルをトレーニングします。
フェアネス、分布シフト、地理的多様性、微粒化認識、画像コピー検出、および多くの画像分類データセットを含む50以上のベンチマークにおいて、我々のモデル性能を広範囲に研究し、検証した。
論文 参考訳(メタデータ) (2022-02-16T22:26:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。