論文の概要: Parameter-Efficient Fine-Tuning for Continual Learning: A Neural Tangent Kernel Perspective
- arxiv url: http://arxiv.org/abs/2407.17120v1
- Date: Wed, 24 Jul 2024 09:30:04 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-25 14:23:43.939268
- Title: Parameter-Efficient Fine-Tuning for Continual Learning: A Neural Tangent Kernel Perspective
- Title(参考訳): 連続学習のためのパラメータ効率の良いファインチューニング:ニューラル・タンジェント・カーネル・パースペクティブ
- Authors: Jingren Liu, Zhong Ji, YunLong Yu, Jiale Cao, Yanwei Pang, Jungong Han, Xuelong Li,
- Abstract要約: 本稿では,タスク関連機能を適応的に生成しながら,タスク固有のパラメータ記憶を不要にする新しいフレームワークNTK-CLを紹介する。
最適化可能なパラメータを適切な正規化で微調整することにより、NTK-CLは確立されたPEFT-CLベンチマーク上で最先端のパフォーマンスを達成する。
- 参考スコア(独自算出の注目度): 125.00228936051657
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Parameter-efficient fine-tuning for continual learning (PEFT-CL) has shown promise in adapting pre-trained models to sequential tasks while mitigating catastrophic forgetting problem. However, understanding the mechanisms that dictate continual performance in this paradigm remains elusive. To tackle this complexity, we undertake a rigorous analysis of PEFT-CL dynamics to derive relevant metrics for continual scenarios using Neural Tangent Kernel (NTK) theory. With the aid of NTK as a mathematical analysis tool, we recast the challenge of test-time forgetting into the quantifiable generalization gaps during training, identifying three key factors that influence these gaps and the performance of PEFT-CL: training sample size, task-level feature orthogonality, and regularization. To address these challenges, we introduce NTK-CL, a novel framework that eliminates task-specific parameter storage while adaptively generating task-relevant features. Aligning with theoretical guidance, NTK-CL triples the feature representation of each sample, theoretically and empirically reducing the magnitude of both task-interplay and task-specific generalization gaps. Grounded in NTK analysis, our approach imposes an adaptive exponential moving average mechanism and constraints on task-level feature orthogonality, maintaining intra-task NTK forms while attenuating inter-task NTK forms. Ultimately, by fine-tuning optimizable parameters with appropriate regularization, NTK-CL achieves state-of-the-art performance on established PEFT-CL benchmarks. This work provides a theoretical foundation for understanding and improving PEFT-CL models, offering insights into the interplay between feature representation, task orthogonality, and generalization, contributing to the development of more efficient continual learning systems.
- Abstract(参考訳): 連続学習のためのパラメータ効率の良い微調整(PEFT-CL)は、破滅的な忘れ込み問題を軽減しつつ、訓練済みモデルを逐次的なタスクに適応する上で有望である。
しかし、このパラダイムで連続的なパフォーマンスを規定するメカニズムを理解することは、いまだ解明されていない。
この複雑さに対処するため,我々は,ニューラル・タンジェント・カーネル(NTK)理論を用いてPEFT-CL力学の厳密な解析を行い,連続シナリオの関連指標を導出する。
NTKを数学的解析ツールとして活用することにより,これらのギャップに影響を及ぼす3つの要因,およびPEFT-CLの性能(トレーニングサンプルサイズ,タスクレベルの特徴直交性,正規化)を抽出し,学習中の定量化ギャップにテストタイムを忘れることの課題を再考する。
これらの課題に対処するために,タスク関連機能を適応的に生成しながらタスク固有のパラメータ記憶を不要にする新しいフレームワークNTK-CLを導入する。
理論的なガイダンスに従って、NTK-CLは各サンプルの特徴表現を3倍にし、理論的かつ経験的にタスク・インタープレイとタスク固有の一般化ギャップの大きさを減らした。
NTK解析では,タスクレベルの特徴の直交性に適応的な指数的移動平均機構と制約を課し,タスク間NTK形式を減衰させながらタスク内NTK形式を維持する。
最終的に、最適化可能なパラメータを適切な正規化で微調整することで、NTK-CLは確立されたPEFT-CLベンチマーク上で最先端のパフォーマンスを達成する。
この研究は、PEFT-CLモデルの理解と改善のための理論的基盤を提供し、特徴表現、タスク直交、一般化の間の相互作用に関する洞察を提供し、より効率的な連続学習システムの開発に寄与する。
関連論文リスト
- ICL-TSVD: Bridging Theory and Practice in Continual Learning with Pre-trained Models [103.45785408116146]
連続学習(CL)は、連続的に提示される複数のタスクを解決できるモデルを訓練することを目的としている。
最近のCLアプローチは、ダウンストリームタスクをうまく一般化する大規模な事前学習モデルを活用することで、強力なパフォーマンスを実現している。
しかし、これらの手法には理論的保証がなく、予期せぬ失敗をしがちである。
私たちは、経験的に強いアプローチを原則化されたフレームワークに統合することで、このギャップを埋めます。
論文 参考訳(メタデータ) (2024-10-01T12:58:37Z) - Super Level Sets and Exponential Decay: A Synergistic Approach to Stable Neural Network Training [0.0]
指数減衰と高度な反オーバーフィッティング戦略を統合する動的学習率アルゴリズムを開発した。
適応学習率の影響を受けて、損失関数の超レベル集合が常に連結であることを証明する。
論文 参考訳(メタデータ) (2024-09-25T09:27:17Z) - NTK-Guided Few-Shot Class Incremental Learning [47.92720244138099]
本稿では, ニューラル・タンジェント・カーネル(NTK)の観点から, 数学的一般化の観点から, 反アムネシアの新たな概念化について述べる。
提案手法は,NTK収束の最適確保とNTK関連一般化損失の最小化という2つの重要な側面に焦点をあてる。
我々のNTK-FSCILは現代の最先端のアプローチを超越し、エンドセッション精度を2.9%から9.3%向上させた。
論文 参考訳(メタデータ) (2024-03-19T06:43:46Z) - Efficient kernel surrogates for neural network-based regression [0.8030359871216615]
ニューラルタンジェントカーネル(NTK)の効率的な近似である共役カーネル(CK)の性能について検討する。
CK性能がNTKよりもわずかに劣っていることを示し、特定の場合において、CK性能が優れていることを示す。
NTKの代わりにCKを使用するための理論的基盤を提供するだけでなく,DNNの精度を安価に向上するためのレシピを提案する。
論文 参考訳(メタデータ) (2023-10-28T06:41:47Z) - Benign Overfitting in Deep Neural Networks under Lazy Training [72.28294823115502]
データ分布が適切に分離された場合、DNNは分類のためのベイズ最適テスト誤差を達成できることを示す。
よりスムーズな関数との補間により、より一般化できることを示す。
論文 参考訳(メタデータ) (2023-05-30T19:37:44Z) - End-to-End Meta-Bayesian Optimisation with Transformer Neural Processes [52.818579746354665]
本稿では,ニューラルネットワークを一般化し,トランスフォーマーアーキテクチャを用いて獲得関数を学習する,エンド・ツー・エンドの差別化可能な最初のメタBOフレームワークを提案する。
我々は、この強化学習(RL)によるエンドツーエンドのフレームワークを、ラベル付き取得データの欠如に対処できるようにします。
論文 参考訳(メタデータ) (2023-05-25T10:58:46Z) - Learning k-Level Structured Sparse Neural Networks Using Group Envelope Regularization [4.0554893636822]
制約のあるリソースに大規模ディープニューラルネットワークをデプロイするための新しいアプローチを導入する。
この手法は推論時間を短縮し、メモリ需要と消費電力を減らすことを目的とする。
論文 参考訳(メタデータ) (2022-12-25T15:40:05Z) - Scalable PAC-Bayesian Meta-Learning via the PAC-Optimal Hyper-Posterior:
From Theory to Practice [54.03076395748459]
メタラーニング文学の中心的な疑問は、目に見えないタスクへの一般化を保証するために、いかに正規化するかである。
本稿では,Rothfussらによって最初に導かれたメタラーニングの一般化について述べる。
PAC-Bayesian per-task 学習境界におけるメタラーニングの条件と程度について,理論的解析および実証事例研究を行った。
論文 参考訳(メタデータ) (2022-11-14T08:51:04Z) - Task-Agnostic Continual Reinforcement Learning: Gaining Insights and
Overcoming Challenges [27.474011433615317]
連続学習(CL)は、一連のタスクから学習するモデルやエージェントの開発を可能にする。
タスクに依存しないCLとマルチタスク(MTL)エージェントのパフォーマンス差に寄与する要因について検討する。
論文 参考訳(メタデータ) (2022-05-28T17:59:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。