論文の概要: EfficientTrain++: Generalized Curriculum Learning for Efficient Visual Backbone Training
- arxiv url: http://arxiv.org/abs/2405.08768v1
- Date: Tue, 14 May 2024 17:00:43 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-15 13:18:28.175305
- Title: EfficientTrain++: Generalized Curriculum Learning for Efficient Visual Backbone Training
- Title(参考訳): EfficientTrain++: 効率的なビジュアルバックボーントレーニングのための一般化されたカリキュラム学習
- Authors: Yulin Wang, Yang Yue, Rui Lu, Yizeng Han, Shiji Song, Gao Huang,
- Abstract要約: 訓練カリキュラムをソフトセレクション機能として再構築する。
自然画像の内容の露光は,データ拡張の強度によって容易に達成できることを示す。
結果のメソッドであるEfficientTrain++は単純で汎用的だが驚くほど効果的である。
- 参考スコア(独自算出の注目度): 79.96741042766524
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The superior performance of modern visual backbones usually comes with a costly training procedure. We contribute to this issue by generalizing the idea of curriculum learning beyond its original formulation, i.e., training models using easier-to-harder data. Specifically, we reformulate the training curriculum as a soft-selection function, which uncovers progressively more difficult patterns within each example during training, instead of performing easier-to-harder sample selection. Our work is inspired by an intriguing observation on the learning dynamics of visual backbones: during the earlier stages of training, the model predominantly learns to recognize some 'easier-to-learn' discriminative patterns in the data. These patterns, when observed through frequency and spatial domains, incorporate lower-frequency components, and the natural image contents without distortion or data augmentation. Motivated by these findings, we propose a curriculum where the model always leverages all the training data at every learning stage, yet the exposure to the 'easier-to-learn' patterns of each example is initiated first, with harder patterns gradually introduced as training progresses. To implement this idea in a computationally efficient way, we introduce a cropping operation in the Fourier spectrum of the inputs, enabling the model to learn from only the lower-frequency components. Then we show that exposing the contents of natural images can be readily achieved by modulating the intensity of data augmentation. Finally, we integrate these aspects and design curriculum schedules with tailored search algorithms. The resulting method, EfficientTrain++, is simple, general, yet surprisingly effective. It reduces the training time of a wide variety of popular models by 1.5-3.0x on ImageNet-1K/22K without sacrificing accuracy. It also demonstrates efficacy in self-supervised learning (e.g., MAE).
- Abstract(参考訳): 現代の視覚的バックボーンの優れたパフォーマンスは、通常、高価な訓練手順が伴う。
我々は、カリキュラム学習の考え方を当初の定式化を超えて一般化することで、この問題に寄与する。
具体的には、トレーニングカリキュラムをソフトセレクション関数として再構成し、トレーニング中のサンプル選択をより容易に行うのではなく、各サンプル内のより難しいパターンを徐々に明らかにする。
私たちの研究は、視覚的バックボーンの学習力学に関する興味深い観察から着想を得ています。
これらのパターンは、周波数領域と空間領域を通して観察される場合、低周波成分と、歪みやデータ拡張を伴わない自然な画像内容を含む。
これらの結果から,モデルは常に学習段階ごとにトレーニングデータを利用するカリキュラムを提案するが,まず,学習の進行とともに,より簡単な学習パターンを提示し,より難しいパターンを徐々に導入する。
このアイデアを計算的に効率よく実装するために、入力のフーリエスペクトルにトリミング演算を導入し、低周波成分のみからモデルを学習できるようにする。
そして,データ拡張の強度を変調することにより,自然画像の内容の露光が容易に実現できることを示す。
最後に、これらの側面を統合し、適切な検索アルゴリズムでカリキュラムのスケジュールを設計する。
結果のメソッドであるEfficientTrain++は単純で汎用的だが驚くほど効果的である。
これは、ImageNet-1K/22K上の1.5-3.0xで、精度を犠牲にすることなく、様々な人気モデルのトレーニング時間を短縮する。
また、自己教師付き学習(例えば、MAE)において効果を示す。
関連論文リスト
- From Prototypes to General Distributions: An Efficient Curriculum for Masked Image Modeling [11.634154932876719]
Masked Image Modelingは視覚表現学習のための強力な自己教師型学習パラダイムとして登場した。
本稿では,原典例からデータセットのより複雑なバリエーションまで,学習プロセスの進行を構造化する,プロトタイプ駆動型カリキュラム学習フレームワークを提案する。
本研究は, 自己指導型視覚学習において, トレーニング事例の順序を慎重に制御することが重要な役割を担っていることを示唆している。
論文 参考訳(メタデータ) (2024-11-16T03:21:06Z) - One-Shot Image Restoration [0.0]
提案手法の適用性, 堅牢性, 計算効率を, 教師付き画像の劣化と超解像に応用できることを実験的に示す。
本結果は,学習モデルのサンプル効率,一般化,時間複雑性を大幅に改善したことを示す。
論文 参考訳(メタデータ) (2024-04-26T14:03:23Z) - A Simple and Efficient Baseline for Data Attribution on Images [107.12337511216228]
現在の最先端のアプローチでは、モデル予測を正確に評価するために、最大30万のモデルの大規模なアンサンブルが必要となる。
本研究では、自己教師付き学習によって事前訓練されたバックボーンの特徴空間を利用して、データ帰属を行うミニマリストベースラインに焦点を当てる。
提案手法はモデルに依存しず,大規模データセットに容易にスケールできる。
論文 参考訳(メタデータ) (2023-11-03T17:29:46Z) - ALP: Action-Aware Embodied Learning for Perception [60.64801970249279]
認知のための行動認識型身体学習(ALP)について紹介する。
ALPは、強化学習ポリシーと逆ダイナミクス予測目標を最適化することにより、行動情報を表現学習に組み込む。
ALPは、複数の下流認識タスクにおいて、既存のベースラインよりも優れていることを示す。
論文 参考訳(メタデータ) (2023-06-16T21:51:04Z) - EfficientTrain: Exploring Generalized Curriculum Learning for Training
Visual Backbones [80.662250618795]
本稿では視覚バックボーン(例えば視覚変換器)の効率的なトレーニングのための新しいカリキュラム学習手法を提案する。
オフザシェルフ方式として、様々な人気モデルのウォールタイムトレーニングコストを、精度を犠牲にすることなく、ImageNet-1K/22Kで1.5倍に削減する。
論文 参考訳(メタデータ) (2022-11-17T17:38:55Z) - Training Dynamics for Text Summarization Models [45.62439188988816]
我々は、ニュース要約に着目して、世代モデルのトレーニングダイナミクスを分析する。
異なるデータセット (CNN/DM, XSum, MediaSum) と要約特性を用いて, モデルが微調整プロセスの異なる段階で何を学習するかを検討する。
コピー動作などの特性は、トレーニングプロセスの早い段階で学習され、これらの観察はドメイン間で堅牢であることがわかった。
一方, 隠蔽事実の幻覚などの事実誤りは後期に学習され, この行動は領域によって多様である。
論文 参考訳(メタデータ) (2021-10-15T21:13:41Z) - Few-Cost Salient Object Detection with Adversarial-Paced Learning [95.0220555274653]
本稿では,少数のトレーニング画像にのみ手動アノテーションを応用して,効果的なサルエント物体検出モデルを学習することを提案する。
我々は,このタスクを,少額の有能な物体検出とみなし,少数のコストの学習シナリオを促進するために,APL(Adversarialpaced Learning)ベースのフレームワークを提案する。
論文 参考訳(メタデータ) (2021-04-05T14:15:49Z) - Learning to Sample the Most Useful Training Patches from Images [11.219920058662698]
我々は、画像から最も有用なパッチを選択して、新しいトレーニングセットを構築する、PatchNetと呼ばれるデータ駆動型アプローチを提案する。
我々の単純なアイデアは、大規模なデータセットから情報的サンプルを自動的に選択することを示し、PSNRの観点で2.35dBの一般化が驚くべき結果となった。
論文 参考訳(メタデータ) (2020-11-24T14:06:50Z) - Omni-supervised Facial Expression Recognition via Distilled Data [120.11782405714234]
ネットワークトレーニングにおいて,信頼度の高いサンプルを多量のラベルのないデータで活用するためのオムニ教師付き学習を提案する。
我々は,新しいデータセットが学習したFERモデルの能力を大幅に向上させることができることを実験的に検証した。
そこで本研究では,生成したデータセットを複数のクラスワイド画像に圧縮するために,データセット蒸留戦略を適用することを提案する。
論文 参考訳(メタデータ) (2020-05-18T09:36:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。