論文の概要: Step Out and Seek Around: On Warm-Start Training with Incremental Data
- arxiv url: http://arxiv.org/abs/2406.04484v1
- Date: Thu, 6 Jun 2024 20:12:55 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-10 18:07:23.106891
- Title: Step Out and Seek Around: On Warm-Start Training with Incremental Data
- Title(参考訳): Step Out and Seek around: インクリメンタルデータによるウォームスタートトレーニングについて
- Authors: Maying Shen, Hongxu Yin, Pavlo Molchanov, Lei Mao, Jose M. Alvarez,
- Abstract要約: データは、自律運転のような現実世界のディープラーニングアプリケーションにおいて、時間とともに連続的にやってくることが多い。
以前トレーニングされたチェックポイントからのウォームスタートは、知識と高度な学習を維持する最も直感的な方法です。
本稿では、2つの新しいコンポーネントを持つ連続モデル改善アルゴリズムである知識統合・獲得(CKCA)を提案する。
- 参考スコア(独自算出の注目度): 28.85668076145673
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Data often arrives in sequence over time in real-world deep learning applications such as autonomous driving. When new training data is available, training the model from scratch undermines the benefit of leveraging the learned knowledge, leading to significant training costs. Warm-starting from a previously trained checkpoint is the most intuitive way to retain knowledge and advance learning. However, existing literature suggests that this warm-starting degrades generalization. In this paper, we advocate for warm-starting but stepping out of the previous converging point, thus allowing a better adaptation to new data without compromising previous knowledge. We propose Knowledge Consolidation and Acquisition (CKCA), a continuous model improvement algorithm with two novel components. First, a novel feature regularization (FeatReg) to retain and refine knowledge from existing checkpoints; Second, we propose adaptive knowledge distillation (AdaKD), a novel approach to forget mitigation and knowledge transfer. We tested our method on ImageNet using multiple splits of the training data. Our approach achieves up to $8.39\%$ higher top1 accuracy than the vanilla warm-starting and consistently outperforms the prior art with a large margin.
- Abstract(参考訳): データは、自律運転のような現実世界のディープラーニングアプリケーションにおいて、時間とともに連続的にやってくることが多い。
新しいトレーニングデータが利用可能になった場合、スクラッチからモデルをトレーニングすることは、学習した知識を活用するメリットを損なう。
以前トレーニングされたチェックポイントからのウォームスタートは、知識と高度な学習を維持する最も直感的な方法です。
しかし、現存する文献では、この温暖化による一般化の低下が示唆されている。
本稿では,従来の知識を損なうことなく,新たなデータへの適応性を高めることを目的として,ウォームスタートを提唱する。
本稿では、2つの新しいコンポーネントを持つ連続モデル改善アルゴリズムである知識統合・獲得(CKCA)を提案する。
第1に,既存のチェックポイントから知識を保持・洗練するための新しい特徴正規化(FeatReg),第2に適応型知識蒸留(AdaKD)を提案する。
トレーニングデータの複数分割を用いて,ImageNet上で本手法を検証した。
我々の手法は、バニラのウォームスタートよりも最高8.39 %$高いトップ1の精度を達成し、高いマージンで先行技術より一貫して優れている。
関連論文リスト
- Why pre-training is beneficial for downstream classification tasks? [32.331679393303446]
本稿では,ゲーム理論の新たな視点から,事前学習が下流作業に与える影響を定量的かつ明示的に説明することを提案する。
具体的には,事前学習モデルにより符号化された知識を抽出し,定量化する。
我々は、下流タスクの推測のために、少数の事前訓練されたモデルの知識しか保存されていないことを発見した。
論文 参考訳(メタデータ) (2024-10-11T02:13:16Z) - Beyond Prompt Learning: Continual Adapter for Efficient Rehearsal-Free Continual Learning [22.13331870720021]
C-ADA (Continuous Adapter) という,RFCL タスクに対する超高速学習手法を提案する。
C-ADAは、CALの特定の重みを柔軟に拡張し、各タスクの新たな知識を学び、古い重みを凍結して以前の知識を保存する。
提案手法は,現状のSOTA(State-of-the-art)法よりも優れ,性能とトレーニング速度を大幅に向上させる。
論文 参考訳(メタデータ) (2024-07-14T17:40:40Z) - Adaptively Integrated Knowledge Distillation and Prediction Uncertainty
for Continual Learning [71.43841235954453]
現在のディープラーニングモデルは、新しい知識を継続的に学習するときに、古い知識を破滅的に忘れることに悩まされることが多い。
この問題を軽減する既存の戦略は、古い知識(安定性)の維持と新しい知識(塑性)の学習のトレードオフを解消することが多い。
論文 参考訳(メタデータ) (2023-01-18T05:36:06Z) - PIVOT: Prompting for Video Continual Learning [50.80141083993668]
PIVOTは、画像領域から事前学習したモデルにおける広範な知識を活用する新しい手法である。
実験の結果,PIVOTは20タスクのアクティビティネット設定において,最先端の手法を27%向上することがわかった。
論文 参考訳(メタデータ) (2022-12-09T13:22:27Z) - EfficientTrain: Exploring Generalized Curriculum Learning for Training
Visual Backbones [80.662250618795]
本稿では視覚バックボーン(例えば視覚変換器)の効率的なトレーニングのための新しいカリキュラム学習手法を提案する。
オフザシェルフ方式として、様々な人気モデルのウォールタイムトレーニングコストを、精度を犠牲にすることなく、ImageNet-1K/22Kで1.5倍に削減する。
論文 参考訳(メタデータ) (2022-11-17T17:38:55Z) - A Memory Transformer Network for Incremental Learning [64.0410375349852]
本研究では,モデルが学習する時間とともに,新しいデータクラスが観察される学習環境であるクラスインクリメンタルラーニングについて検討する。
素直な問題定式化にもかかわらず、クラス増分学習への分類モデルの素直な適用は、これまで見られたクラスの「破滅的な忘れ込み」をもたらす。
これは、過去のデータのサブセットをメモリバンクに保存し、将来のタスクをトレーニングする際の忘れの防止にそれを活用することで、破滅的な忘れの問題を克服するものだ。
論文 参考訳(メタデータ) (2022-10-10T08:27:28Z) - Informed Pre-Training on Prior Knowledge [6.666503127282259]
トレーニングデータが少ない場合には、追加の事前知識が組み込まれて学習プロセスを支援することができる。
本稿では,新しい情報機械学習手法を提案し,事前知識の事前学習を提案する。
論文 参考訳(メタデータ) (2022-05-23T16:24:40Z) - EXPANSE: A Deep Continual / Progressive Learning System for Deep
Transfer Learning [1.1024591739346294]
現在のDTL技術は、破滅的な忘れジレンマまたは過度に偏った事前訓練モデルに悩まされている。
本稿では,これらの制約に対処する深層移動学習のための新しい連続的・進行的学習手法を提案する。
私たちは、人間の教育システムにインスパイアされたディープラーニングモデルをトレーニングする新しい方法を提供する。
論文 参考訳(メタデータ) (2022-05-19T03:54:58Z) - Preserve Pre-trained Knowledge: Transfer Learning With Self-Distillation
For Action Recognition [8.571437792425417]
本研究では,大規模データセットから学習した事前学習モデルから知識を保存するために,微調整における自己蒸留を併用した新しい伝達学習手法を提案する。
具体的には,最後のエポックから教師モデルとしてエンコーダを固定し,トランスファー学習における現在のエポックからエンコーダのトレーニングを指導する。
論文 参考訳(メタデータ) (2022-05-01T16:31:25Z) - Knowledge Distillation as Efficient Pre-training: Faster Convergence,
Higher Data-efficiency, and Better Transferability [53.27240222619834]
効率的な事前学習としての知識蒸留は、学習した特徴表現を学習済みモデルから将来の下流タスクのための新しい学生モデルに効率的に転送することを目的としている。
提案手法は,3つの下流タスクにおける教師付き事前学習タスクと,10倍少ないデータと5倍少ない事前学習時間を必要とする9つの下流データセットとを比較検討する。
論文 参考訳(メタデータ) (2022-03-10T06:23:41Z) - Always Be Dreaming: A New Approach for Data-Free Class-Incremental
Learning [73.24988226158497]
データフリークラスインクリメンタルラーニング(DFCIL)における高インパクト問題について考察する。
そこで本研究では, 改良型クロスエントロピートレーニングと重要重み付き特徴蒸留に寄与するDFCILの新たなインクリメンタル蒸留戦略を提案する。
本手法は,共通クラスインクリメンタルベンチマークにおけるSOTA DFCIL法と比較して,最終タスク精度(絶対差)が25.1%向上する。
論文 参考訳(メタデータ) (2021-06-17T17:56:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。