論文の概要: Beyond Cosine Decay: On the effectiveness of Infinite Learning Rate Schedule for Continual Pre-training
- arxiv url: http://arxiv.org/abs/2503.02844v2
- Date: Thu, 06 Mar 2025 00:17:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-07 12:14:23.494571
- Title: Beyond Cosine Decay: On the effectiveness of Infinite Learning Rate Schedule for Continual Pre-training
- Title(参考訳): コサインの減少を超えて:継続的な事前学習における無限学習率スケジュールの有効性について
- Authors: Vaibhav Singh, Paul Janson, Paria Mehrbod, Adam Ibrahim, Irina Rish, Eugene Belilovsky, Benjamin Thérien,
- Abstract要約: ラベルのないデータは、人工知能システムのトレーニングの機会と課題の両方を提示します。
自己教師付き学習は、大量のラベルのないデータから有意義な表現を抽出する強力なパラダイムとして現れてきたが、既存の手法は、それまでの知識を忘れずに、実世界のデータストリームの静的で非IID的な性質に適応することに苦慮している。
本研究では,最近提案された無限学習率スケジュールと広く使用されているコサインスケジュールを体系的に比較し,後者がより効果的な方法であることを示す。
- 参考スコア(独自算出の注目度): 17.371995357694736
- License:
- Abstract: The ever-growing availability of unlabeled data presents both opportunities and challenges for training artificial intelligence systems. While self-supervised learning (SSL) has emerged as a powerful paradigm for extracting meaningful representations from vast amounts of unlabeled data, existing methods still struggle to adapt to the non-stationary, non-IID nature of real-world data streams without forgetting previously learned knowledge. Recent works have adopted a repeated cosine annealing schedule for large-scale continual pre-training; however, these schedules (1) inherently cause forgetting during the re-warming phase and (2) have not been systematically compared to existing continual SSL methods. In this work, we systematically compare the widely used cosine schedule with the recently proposed infinite learning rate schedule and empirically find the latter to be a more effective alternative. Our extensive empirical evaluation across diverse image and language datasets demonstrates that the infinite learning rate schedule consistently enhances continual pre-training performance compared to a repeated cosine decay without being restricted to a fixed iteration budget. For instance, in a small-scale MAE pre-training setup, it outperforms several strong baselines from the literature. We then scale up our experiments to larger MAE pre-training and autoregressive language model pre-training. Our results show that the infinite learning rate schedule remains effective at scale, surpassing repeated cosine decay for both MAE pre-training and zero-shot LM benchmarks.
- Abstract(参考訳): ラベルなしデータの利用は、人工知能システムのトレーニングの機会と課題の両方を示している。
自己教師付き学習(SSL)は、膨大な量のラベルのないデータから有意義な表現を抽出する強力なパラダイムとして登場したが、既存の手法は、それまでの知識を忘れずに、実世界の非定常的で非IID的なデータストリームに適応することに苦慮している。
最近の研究では, 大規模連続型事前訓練において, コサインアニーリングの繰り返しスケジュールが採用されているが, これらのスケジュールは, 本質的には再温暖期における忘れを生じさせ, 2) 既存の連続型SSL法と体系的に比較されていない。
本研究では,最近提案された無限学習率スケジュールと広く使用されているコサインスケジュールを体系的に比較し,後者がより効果的な方法であることを示す。
多様な画像や言語データセットにまたがる広範な経験的評価により、無限学習率のスケジュールは、固定された反復予算に制限されることなく、反復するコサイン崩壊と比較して連続的な事前学習性能を継続的に向上することが示された。
例えば、小規模のMAE事前トレーニング設定では、文学からいくつかの強力なベースラインを上回ります。
次に、実験をより大きなMAE事前学習と自己回帰言語モデルにスケールアップする。
以上の結果から,MAE事前学習とゼロショットLMベンチマークの両ベンチマークにおいて,コサイン崩壊の繰り返しを越えながら,無限学習率のスケジュールが引き続き有効であることが示唆された。
関連論文リスト
- SegACIL: Solving the Stability-Plasticity Dilemma in Class-Incremental Semantic Segmentation [12.315674474349956]
線形閉形式解に基づくセマンティックセグメンテーションのための連続学習手法であるSegACILを提案する。
トレーニングに複数のエポックを必要とする従来の方法とは異なり、SegACILは1つのエポックしか必要としない。
Pascal VOC2012データセットの実験によると、SegACILはシーケンシャル、不整合、重なり合う設定において優れたパフォーマンスを達成する。
論文 参考訳(メタデータ) (2024-12-14T13:39:56Z) - SLCA++: Unleash the Power of Sequential Fine-tuning for Continual Learning with Pre-training [68.7896349660824]
本稿では,Seq FTのレンズからの進行オーバーフィッティング問題を詳細に解析する。
過度に高速な表現学習と偏りのある分類層がこの問題を構成することを考慮し、先進的なSlow Learner with Alignment(S++)フレームワークを導入する。
提案手法は,バックボーンパラメータの学習率を選択的に減少させるスローラーナーと,ポストホック方式で不規則な分類層を整列させるアライメントを含む。
論文 参考訳(メタデータ) (2024-08-15T17:50:07Z) - Incremental Self-training for Semi-supervised Learning [56.57057576885672]
ISTは単純だが有効であり、既存の自己学習に基づく半教師あり学習手法に適合する。
提案したISTを5つのデータセットと2種類のバックボーンで検証し,認識精度と学習速度を効果的に向上させる。
論文 参考訳(メタデータ) (2024-04-14T05:02:00Z) - Towards Robust Continual Learning with Bayesian Adaptive Moment Regularization [51.34904967046097]
継続的な学習は、モデルが以前に学習した情報を忘れてしまう破滅的な忘れ込みの課題を克服しようとする。
本稿では,パラメータ成長の制約を緩和し,破滅的な忘れを減らし,新しい事前手法を提案する。
以上の結果から, BAdamは, 単頭クラスインクリメンタル実験に挑戦する先行手法に対して, 最先端の性能を達成できることが示唆された。
論文 参考訳(メタデータ) (2023-09-15T17:10:51Z) - CTP: Towards Vision-Language Continual Pretraining via Compatible
Momentum Contrast and Topology Preservation [128.00940554196976]
Vision-Language Continual Pretraining (VLCP)は、大規模なデータセット上でオフラインでトレーニングすることで、さまざまな下流タスクに対して印象的な結果を示している。
VLCP(Vision-Language Continual Pretraining)の研究を支援するために,我々はまず,包括的で統一されたベンチマークデータセットP9Dをコントリビュートする。
独立したタスクとしての各業界からのデータは、継続的な学習をサポートし、Webデータの事前学習をシミュレートする現実世界のロングテールな性質に準拠している。
論文 参考訳(メタデータ) (2023-08-14T13:53:18Z) - Effective and Efficient Training for Sequential Recommendation using
Recency Sampling [91.02268704681124]
本稿では,新しいRecency-based Smpling of Sequencesトレーニング目標を提案する。
提案手法により拡張されたモデルにより,最先端のBERT4Recに近い性能が得られることを示す。
論文 参考訳(メタデータ) (2022-07-06T13:06:31Z) - The Challenges of Continuous Self-Supervised Learning [40.941767578622745]
自己教師付き学習(SSL)は、表現学習における主要なボトルネックの1つ、すなわち人間のアノテーションの必要性を取り除くことを目的としている。
このような連続的なセットアップに対する現在の手法の直接的な適用は、計算量と必要なデータ量の両方において非効率であることを示す。
本稿では,非効率性や時間的相関の問題を緩和する手法として,リプレイバッファの利用を提案する。
論文 参考訳(メタデータ) (2022-03-23T20:05:06Z) - An Empirical Investigation of the Role of Pre-training in Lifelong
Learning [21.995593026269578]
複数のタスクを逐次学習する際の破滅的忘れの影響を,ジェネリック事前学習が暗黙的に軽減することを示す。
本研究では、この現象を損失景観を解析し、トレーニング済みの重みがより広いミニマへと導くことで忘れやすいように見えることを明らかにする。
論文 参考訳(メタデータ) (2021-12-16T19:00:55Z) - Self-Supervised Training Enhances Online Continual Learning [37.91734641808391]
連続学習では、システムは壊滅的な忘れずに、非定常データストリームから段階的に学習する必要があります。
自己教師付き事前トレーニングは、教師付き学習よりも一般化する機能をもたらす可能性がある。
我々の最善のシステムは、オンライン連続学習の最先端技術よりも、クラスインクリメンタルイメージネットにおいて、トップ1の精度を14.95%向上させる。
論文 参考訳(メタデータ) (2021-03-25T17:45:27Z) - Active Learning for Sequence Tagging with Deep Pre-trained Models and
Bayesian Uncertainty Estimates [52.164757178369804]
自然言語処理のためのトランスファーラーニングとアクティブラーニングの最近の進歩は、必要なアノテーション予算を大幅に削減する可能性を開く。
我々は,様々なベイズ不確実性推定手法とモンテカルロドロップアウトオプションの実験的研究を,アクティブ学習フレームワークで実施する。
また, 能動学習中にインスタンスを取得するためには, 完全サイズのトランスフォーマーを蒸留版に置き換えることにより, 計算性能が向上することを示した。
論文 参考訳(メタデータ) (2021-01-20T13:59:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。