論文の概要: DailyMAE: Towards Pretraining Masked Autoencoders in One Day
- arxiv url: http://arxiv.org/abs/2404.00509v1
- Date: Sun, 31 Mar 2024 00:59:10 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-04 03:20:34.714330
- Title: DailyMAE: Towards Pretraining Masked Autoencoders in One Day
- Title(参考訳): DailyMAE: 仮装オートエンコーダを1日で準備中
- Authors: Jiantao Wu, Shentong Mo, Sara Atito, Zhenhua Feng, Josef Kittler, Muhammad Awais,
- Abstract要約: マスク付き画像モデリング(MIM)は、ラベルのないデータからデータ表現を学習する上での有効性に注目されている。
本研究では,データロードボトルネックの軽減を目的としたMIMベースのSSLの効率的なトレーニングレシピを提案する。
このライブラリは,ImageNet 1Kデータセット上のMAE-Base/16モデルのトレーニングを,わずか18時間で800エポックで行うことができる。
- 参考スコア(独自算出の注目度): 37.206816999538496
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recently, masked image modeling (MIM), an important self-supervised learning (SSL) method, has drawn attention for its effectiveness in learning data representation from unlabeled data. Numerous studies underscore the advantages of MIM, highlighting how models pretrained on extensive datasets can enhance the performance of downstream tasks. However, the high computational demands of pretraining pose significant challenges, particularly within academic environments, thereby impeding the SSL research progress. In this study, we propose efficient training recipes for MIM based SSL that focuses on mitigating data loading bottlenecks and employing progressive training techniques and other tricks to closely maintain pretraining performance. Our library enables the training of a MAE-Base/16 model on the ImageNet 1K dataset for 800 epochs within just 18 hours, using a single machine equipped with 8 A100 GPUs. By achieving speed gains of up to 5.8 times, this work not only demonstrates the feasibility of conducting high-efficiency SSL training but also paves the way for broader accessibility and promotes advancement in SSL research particularly for prototyping and initial testing of SSL ideas. The code is available in https://github.com/erow/FastSSL.
- Abstract(参考訳): 近年,重要な自己教師付き学習(SSL)手法であるマスク画像モデリング(MIM)が,ラベルのないデータからデータ表現を学習する上での有効性に注目されている。
多くの研究がMIMの利点を強調し、広範囲なデータセットで事前訓練されたモデルが下流タスクのパフォーマンスを高める方法を強調している。
しかし、事前学習による高い計算要求は、特に学術的環境において重大な課題を引き起こし、SSL研究の進展を妨げる。
本研究では、MIMベースのSSLの効率的なトレーニングレシピを提案し、データのロードボトルネックを緩和し、プログレッシブトレーニング技術やその他の手法を用いて事前学習性能を厳格に維持する。
我々のライブラリは,8A100 GPUを搭載した1台のマシンを用いて,イメージネット1Kデータセット上のMAE-Base/16モデルのトレーニングを,わずか18時間で800エポックで行うことができる。
最大5.8倍の速度向上を達成することで、この研究は高効率SSLトレーニングの実現可能性を示すだけでなく、より幅広いアクセシビリティの道を開くとともに、特にSSLのアイデアのプロトタイピングと初期テストのためのSSL研究の進歩を促進する。
コードはhttps://github.com/erow/FastSSLで公開されている。
関連論文リスト
- Label-Efficient Sleep Staging Using Transformers Pre-trained with Position Prediction [2.591936982899312]
本稿では,特徴と時間的エンコーディングをシームレスに結合するアーキテクチャと,モデル全体を事前訓練する適切な事前学習方式を提案する。
サンプル睡眠ステージングデータセットにおいて,提案手法はラベル付きトレーニングデータに飽和しない性能向上を提供する。
論文 参考訳(メタデータ) (2024-03-29T23:22:30Z) - On Pretraining Data Diversity for Self-Supervised Learning [57.91495006862553]
我々は、より多様なデータセットを用いたトレーニングが、固定された計算予算の下での自己教師付き学習(SSL)のパフォーマンスに与える影響について検討する。
以上の結果から,事前学習データの多様性の増大はSSL性能を向上させるが,下流データへの分布距離が最小である場合に限る。
論文 参考訳(メタデータ) (2024-03-20T17:59:58Z) - Self-supervised learning for skin cancer diagnosis with limited training data [0.196629787330046]
自己教師付き学習(SSL)は、限られたトレーニングデータを持つシナリオに対するImageNetの標準教師付き事前トレーニングの代替である。
textitfurther SSL をタスク固有のデータセットで事前トレーニングし、その実装は教師あり転送学習によって動機づけられる。
タスク固有のデータに対するより最小限のSSL事前トレーニングは、限られたラベル付きデータによる医療画像分類タスクにおいて、ImageNet上の大規模なSSL事前トレーニングと同じくらい効果的である。
論文 参考訳(メタデータ) (2024-01-01T08:11:38Z) - Joint Prediction and Denoising for Large-scale Multilingual
Self-supervised Learning [69.77973092264338]
我々は、より強力な技術がより効率的な事前トレーニングをもたらし、SSLをより多くの研究グループに開放することを示します。
我々は,WavLMのジョイント予測を拡張し,136言語にまたがる40k時間のデータをデノベーションするWavLabLMを提案する。
このモデルではXLS-Rの性能を94%維持でき、データの3%しか保持できない。
論文 参考訳(メタデータ) (2023-09-26T23:55:57Z) - CroSSL: Cross-modal Self-Supervised Learning for Time-series through
Latent Masking [11.616031590118014]
CroSSLは、欠落したモダリティとエンドツーエンドのクロスモーダル学習を扱うことができる。
動作センサを含む幅広いデータを用いて本手法の評価を行った。
論文 参考訳(メタデータ) (2023-07-31T17:10:10Z) - Match to Win: Analysing Sequences Lengths for Efficient Self-supervised
Learning in Speech and Audio [19.865050806327147]
自己教師型学習は、音声および音声関連アプリケーションにおいて不可欠であることが証明されている。
本稿では、特定配列長の異なるSSL事前トレーニングに関する最初の実証的研究について述べる。
ショートシーケンスでのトレーニングは、すべてのタスクで満足なパフォーマンスを維持しながら、リソースコストを劇的に削減できることがわかった。
論文 参考訳(メタデータ) (2022-09-30T16:35:42Z) - Task-Customized Self-Supervised Pre-training with Scalable Dynamic
Routing [76.78772372631623]
セルフ教師付き事前トレーニングの一般的な実践は、できるだけ多くのデータを使用することである。
しかし、特定のダウンストリームタスクでは、事前トレーニングで無関係なデータを含むと、ダウンストリームのパフォーマンスが低下する可能性がある。
異なるタスクのための事前トレーニングで、異なるダウンストリームタスクにカスタマイズされたデータセットを使用することは、重荷であり、実現不可能である。
論文 参考訳(メタデータ) (2022-05-26T10:49:43Z) - DATA: Domain-Aware and Task-Aware Pre-training [94.62676913928831]
我々は、自己教師付き学習(SSL)に特化した、シンプルで効果的なNASアプローチであるDataを提示する。
提案手法は,画像分類,オブジェクト検出,セマンティックセグメンテーションなど,下流タスクにおける計算コストの広い範囲にわたる有望な結果を実現する。
論文 参考訳(メタデータ) (2022-03-17T02:38:49Z) - Transfer Learning or Self-supervised Learning? A Tale of Two Pretraining
Paradigms [36.04356511882304]
自己教師付き学習(SSL)は、幅広いアプリケーションで有望な結果を示している。
データとタスクの性質について明確な理解が得られていないため、一方のアプローチがもう一方よりも優れている。
論文 参考訳(メタデータ) (2020-06-19T05:21:00Z) - TAFSSL: Task-Adaptive Feature Sub-Space Learning for few-shot
classification [50.358839666165764]
本稿では,タスク適応機能サブスペース学習(TAFSSL)により,Few-Shot Learningシナリオの性能を大幅に向上させることができることを示す。
具体的には、挑戦的な miniImageNet と tieredImageNet ベンチマークにおいて、TAFSSL はトランスダクティブおよび半教師付き FSL 設定の両方で現在の状態を改善することができることを示しています。
論文 参考訳(メタデータ) (2020-03-14T16:59:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。