論文の概要: Exploring the Limits of Large Scale Pre-training
- arxiv url: http://arxiv.org/abs/2110.02095v1
- Date: Tue, 5 Oct 2021 14:49:00 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-06 14:29:21.333420
- Title: Exploring the Limits of Large Scale Pre-training
- Title(参考訳): 大規模事前学習の限界を探る
- Authors: Samira Abnar and Mostafa Dehghani and Behnam Neyshabur and Hanie
Sedghi
- Abstract要約: 大規模機械学習の最近の進歩は、事前学習の改善が、ほとんどの下流タスクに好適に反映されることを示唆している。
この現象を考察し、上流の精度を高めると、下流のタスクの性能が飽和することを示す。
本稿では、飽和現象を反映し、上流タスクと下流タスクのパフォーマンスの非線形関係をキャプチャする下流パフォーマンスモデルを提案する。
- 参考スコア(独自算出の注目度): 34.18163065498687
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent developments in large-scale machine learning suggest that by scaling
up data, model size and training time properly, one might observe that
improvements in pre-training would transfer favorably to most downstream tasks.
In this work, we systematically study this phenomena and establish that, as we
increase the upstream accuracy, the performance of downstream tasks saturates.
In particular, we investigate more than 4800 experiments on Vision
Transformers, MLP-Mixers and ResNets with number of parameters ranging from ten
million to ten billion, trained on the largest scale of available image data
(JFT, ImageNet21K) and evaluated on more than 20 downstream image recognition
tasks. We propose a model for downstream performance that reflects the
saturation phenomena and captures the nonlinear relationship in performance of
upstream and downstream tasks. Delving deeper to understand the reasons that
give rise to these phenomena, we show that the saturation behavior we observe
is closely related to the way that representations evolve through the layers of
the models. We showcase an even more extreme scenario where performance on
upstream and downstream are at odds with each other. That is, to have a better
downstream performance, we need to hurt upstream accuracy.
- Abstract(参考訳): 大規模機械学習の最近の進歩は、データ、モデルサイズ、トレーニング時間を適切にスケールアップすることで、事前学習の改善がほとんどの下流タスクに好適に反映されることを示唆している。
本研究では,この現象を体系的に研究し,上流の精度を高めると,下流タスクの性能が飽和することを示す。
特に,視覚トランスフォーマー,mlpミキサー,およびresnetに関する4800以上の実験を,100万から100億までのパラメータで実施し,利用可能な画像データ(jft,imagenet21k)の最大スケールでトレーニングし,20以上の下流画像認識タスクで評価した。
本研究では,飽和現象を反映した下流性能モデルを提案し,上流タスクと下流タスクのパフォーマンスにおける非線形関係を捉える。
これらの現象を引き起こす理由を深く理解するために、我々が観察する飽和挙動は、モデルの層を通して表現が進化する方法と密接に関連していることを示す。
上流と下流のパフォーマンスが互いに相反する、さらに極端なシナリオを紹介します。
つまり、下流のパフォーマンスを改善するためには、上流の精度を損なう必要があるのです。
関連論文リスト
- An Experimental Study on Exploring Strong Lightweight Vision Transformers via Masked Image Modeling Pre-Training [51.622652121580394]
Masked Image Modeling (MIM) Pre-training for Large-scale Vision Transformer (ViTs) は、学習した自己教師型ViT機能に加えて、下流での有望なパフォーマンスを実現する。
本稿では,テキストテキストレメリーで軽量なViTの微調整性能が,この事前学習パラダイムの恩恵を受けるかどうかを問う。
バニラ/階層設計(5.7M$/6.5M$)による純軽量ViTの蒸留による事前トレーニングは、ImageNet-1で79.4%$/78.9%の精度で達成できる。
論文 参考訳(メタデータ) (2024-04-18T14:14:44Z) - No "Zero-Shot" Without Exponential Data: Pretraining Concept Frequency Determines Multimodal Model Performance [68.18779562801762]
マルチモーダルモデルは、下流の"ゼロショット"のパフォーマンスを線形改善するために、指数関数的に多くのデータを必要とする。
本研究は,大規模な訓練パラダイムの下での「ゼロショット」一般化能力の鍵となる訓練データに対する指数関数的要求を明らかにする。
論文 参考訳(メタデータ) (2024-04-04T17:58:02Z) - FLODCAST: Flow and Depth Forecasting via Multimodal Recurrent
Architectures [31.879514593973195]
本研究では,両モードを同時に予測するフローおよび深さ予測モデルを提案する。
提案したモデルをトレーニングし、将来いくつかのタイムステップの予測を行う。
セグメンテーション予測の下流タスクの利点を報告し、フローベースのマスクウォーピングフレームワークに予測を注入する。
論文 参考訳(メタデータ) (2023-10-31T16:30:16Z) - Delving Deeper into Data Scaling in Masked Image Modeling [145.36501330782357]
視覚認識のためのマスク付き画像モデリング(MIM)手法のスケーリング能力に関する実証的研究を行った。
具体的には、Webで収集したCoyo-700Mデータセットを利用する。
我々のゴールは、データとモデルのサイズの異なるスケールでダウンストリームタスクのパフォーマンスがどのように変化するかを調べることです。
論文 参考訳(メタデータ) (2023-05-24T15:33:46Z) - Could Giant Pretrained Image Models Extract Universal Representations? [94.97056702288317]
本稿では,多種多様なコンピュータビジョンタスクに適用した凍結事前学習モデルについて述べる。
私たちの研究は、この凍結した設定にどのような事前学習タスクが最適か、凍結した設定を様々な下流タスクに柔軟にする方法、より大きなモデルサイズの影響について、質問に答えています。
論文 参考訳(メタデータ) (2022-11-03T17:57:10Z) - Advancing Plain Vision Transformer Towards Remote Sensing Foundation
Model [97.9548609175831]
約1億のパラメータを持つプレーンビジョントランスフォーマーを利用して、リモートセンシングタスク用にカスタマイズされた大規模なビジョンモデルを提案する。
具体的には、RS画像における大きな画像サイズと様々な向きのオブジェクトを扱うために、回転する様々なウィンドウアテンションを提案する。
検出タスクの実験は、DOTA-V1.0データセット上で81.16%のmAPを達成したすべての最先端モデルよりも、我々のモデルの方が優れていることを示す。
論文 参考訳(メタデータ) (2022-08-08T09:08:40Z) - On Data Scaling in Masked Image Modeling [36.00347416479826]
マスク付き画像モデリング(MIM)は、大きなデータの恩恵を受けられないと疑われている。
ImageNet-1Kの10%から完全なImageNet-22Kまで、モデルサイズは4900万から10億まで、トレーニング期間は125万から5万まで。
事前トレーニングにおけるバリデーションの損失は、複数のタスクの微調整においてモデルがどれだけうまく機能するかを測定するのに良い指標である。
論文 参考訳(メタデータ) (2022-06-09T17:58:24Z) - How Well Do Sparse Imagenet Models Transfer? [75.98123173154605]
転送学習は、大規模な"上流"データセットで事前訓練されたモデルが、"下流"データセットで良い結果を得るために適応される古典的なパラダイムである。
本研究では、ImageNetデータセットでトレーニングされた畳み込みニューラルネットワーク(CNN)のコンテキストにおいて、この現象を詳細に調査する。
スパースモデルでは, 高空間であっても, 高密度モデルの転送性能にマッチしたり, 性能に優れることを示す。
論文 参考訳(メタデータ) (2021-11-26T11:58:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。