論文の概要: A Faster Path to Continual Learning
- arxiv url: http://arxiv.org/abs/2604.11064v1
- Date: Mon, 13 Apr 2026 06:45:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-14 20:13:16.367225
- Title: A Faster Path to Continual Learning
- Title(参考訳): 継続的な学習への高速な道
- Authors: Wei Li, Hangjie Yuan, Zixiang Zhao, Borui Kang, Ziwei Liu, Tao Feng,
- Abstract要約: Continual Learningは、以前学んだ知識を忘れずに、タスクの動的なストリーム上でニューラルネットワークをトレーニングすることを目的としている。
C-Flatは、プラグアンドプレイの性質と、均一に低損失領域を奨励する能力のために、有望なソリューションとして登場した。
トレーニングコストを大幅に削減する高速かつ強力なソリューションであるC-Flat Turboを提案する。
- 参考スコア(独自算出の注目度): 45.827580979407166
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Continual Learning (CL) aims to train neural networks on a dynamic stream of tasks without forgetting previously learned knowledge. Among optimization-based approaches, C-Flat has emerged as a promising solution due to its plug-and-play nature and its ability to encourage uniformly low-loss regions for both new and old tasks. However, C-Flat requires three additional gradient computations per iteration, imposing substantial overhead on the optimization process. In this work, we propose C-Flat Turbo, a faster yet stronger optimizer that significantly reduces the training cost. We show that the gradients associated with first-order flatness contain direction-invariant components relative to the proxy-model gradients, enabling us to skip redundant gradient computations in the perturbed ascent steps. Moreover, we observe that these flatness-promoting gradients progressively stabilize across tasks, which motivates a linear scheduling strategy with an adaptive trigger to allocate larger turbo steps for later tasks. Experiments show that C-Flat Turbo is 1.0$\times$ to 1.25$\times$ faster than C-Flat across a wide range of CL methods, while achieving comparable or even improved accuracy.
- Abstract(参考訳): 継続学習(CL)は、以前学んだ知識を忘れずに、タスクの動的なストリーム上でニューラルネットワークをトレーニングすることを目的としている。
最適化ベースのアプローチの中で、C-Flatは、プラグアンドプレイの性質と、新しいタスクと古いタスクの両方に一様に低損失領域を奨励する能力により、有望なソリューションとして登場した。
しかし、C-Flatは1イテレーションごとに3つのグラデーション計算を必要とし、最適化プロセスにかなりのオーバーヘッドを与える。
本研究では,トレーニングコストを大幅に削減する高速かつ強力な最適化器であるC-Flat Turboを提案する。
1次平坦度に関連する勾配は、プロキシモデル勾配に対する方向不変成分を含み、乱れした上昇ステップにおける冗長な勾配計算を省略できることを示す。
さらに、これらの平坦性促進勾配はタスク間で徐々に安定化し、その後のタスクにより大きなターボステップを割り当てるために、適応的なトリガによる線形スケジューリング戦略を動機付ける。
実験の結果、C-Flat Turbo は 1.0$\times$から 1.25$\times$ であり、C-Flat よりも広い範囲のCLメソッドで高速であり、精度は同等あるいは改善された。
関連論文リスト
- Prior-Informed Zeroth-Order Optimization with Adaptive Direction Alignment for Memory-Efficient LLM Fine-Tuning [4.278794376089146]
本稿では,事前インフォームド摂動を組み込んだプラグアンドプレイ手法を提案する。
本手法は標準ZO法と比較して収束を著しく加速する。
勾配推定器が真の勾配方向とより強く一致することを証明する。
論文 参考訳(メタデータ) (2026-01-08T08:27:15Z) - Gradient Descent with Provably Tuned Learning-rate Schedules [14.391648046717073]
そこで我々は,勾配に基づくアルゴリズムにおいて,因子を確実にチューニングするための新しい解析ツールを開発した。
我々の分析は、一般的に使用される活性化関数を持つニューラルネットワークに適用される。
論文 参考訳(メタデータ) (2025-12-04T18:49:58Z) - Accelerating Augmentation Invariance Pretraining [7.772780341646099]
我々は、特に視覚変換器(ViT)の事前学習において、対照的な学習手法の計算課題に取り組む。
様々なシーケンス長の入力をまたいで一般化するViTのユニークな能力を生かしたアクセラレーションフレームワークを提案する。
本手法では,ランダム化トークンドロップアウトやフレキシブルパッチスケーリングなどのシーケンス圧縮戦略を併用することにより,勾配推定のコストを低減し,収束を加速する。
論文 参考訳(メタデータ) (2024-10-27T21:53:33Z) - Gradient-Variation Online Learning under Generalized Smoothness [56.38427425920781]
勾配変分オンライン学習は、オンライン関数の勾配の変化とともにスケールする後悔の保証を達成することを目的としている。
ニューラルネットワーク最適化における最近の取り組みは、一般化された滑らかさ条件を示唆し、滑らかさは勾配ノルムと相関する。
ゲームにおける高速収束と拡張逆最適化への応用について述べる。
論文 参考訳(メタデータ) (2024-08-17T02:22:08Z) - Continuous-Time Meta-Learning with Forward Mode Differentiation [65.26189016950343]
本稿では,勾配ベクトル場の力学に適応するメタ学習アルゴリズムであるContinuous Meta-Learning(COMLN)を紹介する。
学習プロセスをODEとして扱うことは、軌跡の長さが現在連続しているという顕著な利点を提供する。
本稿では,実行時とメモリ使用時の効率を実証的に示すとともに,いくつかの画像分類問題に対して有効性を示す。
論文 参考訳(メタデータ) (2022-03-02T22:35:58Z) - Joint inference and input optimization in equilibrium networks [68.63726855991052]
ディープ均衡モデル(Deep equilibrium model)は、従来のネットワークの深さを予測し、代わりに単一の非線形層の固定点を見つけることによってネットワークの出力を計算するモデルのクラスである。
この2つの設定の間には自然なシナジーがあることが示されています。
この戦略は、生成モデルのトレーニングや、潜時符号の最適化、デノベートやインペインティングといった逆問題に対するトレーニングモデル、対逆トレーニング、勾配に基づくメタラーニングなど、様々なタスクにおいて実証される。
論文 参考訳(メタデータ) (2021-11-25T19:59:33Z) - Extrapolation for Large-batch Training in Deep Learning [72.61259487233214]
我々は、バリエーションのホストが、我々が提案する統一されたフレームワークでカバー可能であることを示す。
本稿では,この手法の収束性を証明し,ResNet,LSTM,Transformer上での経験的性能を厳格に評価する。
論文 参考訳(メタデータ) (2020-06-10T08:22:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。