論文の概要: Regularization-Based Efficient Continual Learning in Deep State-Space Models
- arxiv url: http://arxiv.org/abs/2403.10123v1
- Date: Fri, 15 Mar 2024 09:14:18 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-18 17:50:08.405408
- Title: Regularization-Based Efficient Continual Learning in Deep State-Space Models
- Title(参考訳): 状態空間モデルにおける正規化に基づく効率的な連続学習
- Authors: Yuanhang Zhang, Zhidi Lin, Yiyong Sun, Feng Yin, Carsten Fritsche,
- Abstract要約: 本稿では,大惨事な忘れを伴わずに,進化するタスクに適応できる連続学習DSSMを提案する。
提案するCLDSSMは、正規化に基づく継続学習(CL)手法を統合し、一定の計算とメモリコストで効率的な更新を保証する。
- 参考スコア(独自算出の注目度): 7.709959121230049
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Deep state-space models (DSSMs) have gained popularity in recent years due to their potent modeling capacity for dynamic systems. However, existing DSSM works are limited to single-task modeling, which requires retraining with historical task data upon revisiting a forepassed task. To address this limitation, we propose continual learning DSSMs (CLDSSMs), which are capable of adapting to evolving tasks without catastrophic forgetting. Our proposed CLDSSMs integrate mainstream regularization-based continual learning (CL) methods, ensuring efficient updates with constant computational and memory costs for modeling multiple dynamic systems. We also conduct a comprehensive cost analysis of each CL method applied to the respective CLDSSMs, and demonstrate the efficacy of CLDSSMs through experiments on real-world datasets. The results corroborate that while various competing CL methods exhibit different merits, the proposed CLDSSMs consistently outperform traditional DSSMs in terms of effectively addressing catastrophic forgetting, enabling swift and accurate parameter transfer to new tasks.
- Abstract(参考訳): 近年,動的システムに強力なモデリング能力を持つDSSM(Deep State-space Model)が普及している。
しかし、既存のDSSMの作業はシングルタスクのモデリングに限られており、フォアパスされたタスクを再考する際には、過去のタスクデータで再トレーニングする必要がある。
この制限に対処するために,大惨な忘れをすることなく,進化するタスクに適応できる連続学習DSSM(CLDSSM)を提案する。
提案するCLDSSMは、主流正規化に基づく連続学習(CL)手法を統合し、複数の動的システムのモデリングに一定の計算とメモリコストで効率的な更新を実現する。
また,各CLDSSMに適用したCL手法の包括的コスト解析を行い,実世界のデータセットを用いた実験によるCLDSSMの有効性を実証する。
その結果、様々な競合するCL手法は異なるメリットを示すが、提案されたCLDSSMは破滅的な忘れを効果的に解決し、新しいタスクへの迅速かつ正確なパラメータ転送を可能にするという点で、従来のDSSMよりも一貫して優れていた。
関連論文リスト
- Mamba-CL: Optimizing Selective State Space Model in Null Space for Continual Learning [54.19222454702032]
継続的学習は、AIモデルに時間とともに一連のタスクを学習する能力を持たせることを目的としている。
ステートスペースモデル(SSM)はコンピュータビジョンにおいて顕著な成功を収めた。
大規模マンバ基礎モデルのコアSSMを連続的に微調整するフレームワークであるMamba-CLを紹介する。
論文 参考訳(メタデータ) (2024-11-23T06:36:16Z) - Continual Task Learning through Adaptive Policy Self-Composition [54.95680427960524]
CompoFormerは構造ベースの連続トランスフォーマーモデルであり、メタポリシックネットワークを介して、以前のポリシーを適応的に構成する。
実験の結果,CompoFormerは従来の継続学習法(CL)よりも優れており,特にタスクシーケンスが長いことが判明した。
論文 参考訳(メタデータ) (2024-11-18T08:20:21Z) - Temporal-Difference Variational Continual Learning [89.32940051152782]
現実世界のアプリケーションにおける機械学習モデルの重要な機能は、新しいタスクを継続的に学習する能力である。
継続的な学習設定では、モデルは以前の知識を保持することで新しいタスクの学習のバランスをとるのに苦労することが多い。
複数の先行推定の正則化効果を統合する新たな学習目標を提案する。
論文 参考訳(メタデータ) (2024-10-10T10:58:41Z) - Theoretical Insights into Overparameterized Models in Multi-Task and Replay-Based Continual Learning [37.745896674964186]
マルチタスク学習(MTL)は,複数のタスクを同時に学習することで,複数のタスクにおけるモデルの一般化性能を向上させることを目的としている。
連続学習(CL)は、以前取得した知識を忘れずに、時間とともに新しい逐次到着タスクに適応する。
MTL設定におけるモデルの性能に及ぼす各種システムパラメータの影響を理論的に記述する。
その結果,バッファサイズとモデルキャパシティがCLセットアップの記憶率に及ぼす影響を明らかにし,最先端のCL手法のいくつかに光を当てるのに役立つことがわかった。
論文 参考訳(メタデータ) (2024-08-29T23:22:40Z) - HOPE for a Robust Parameterization of Long-memory State Space Models [51.66430224089725]
線形時間不変(LTI)システムを利用する状態空間モデル(SSM)は、長いシーケンスの学習において有効であることが知られている。
我々は,ハンケル作用素内のマルコフパラメータを利用するLTIシステムに対して,HOPEと呼ばれる新しいパラメータ化手法を開発した。
我々の新しいパラメータ化は、固定時間ウィンドウ内に非遅延メモリを付与し、パッドドノイズのあるシーケンシャルCIFAR-10タスクによって実証的に相関する。
論文 参考訳(メタデータ) (2024-05-22T20:20:14Z) - Realistic Continual Learning Approach using Pre-trained Models [1.2582887633807602]
本稿では,タスク間のクラス分布がランダムな新しいCLパラダイムであるRealistic Continual Learning(RealCL)を紹介する。
CLARE(Continual Learning Approach with pRE-trained model for RealCL scenarios)も提案する。
論文 参考訳(メタデータ) (2024-04-11T13:19:46Z) - Scalable Language Model with Generalized Continual Learning [58.700439919096155]
The Joint Adaptive Re-ization (JARe) is integrated with Dynamic Task-related Knowledge Retrieval (DTKR) to enable adapt adjust of language model based on specific downstream task。
提案手法は,様々なバックボーンやベンチマーク上での最先端性能を実証し,最小限の忘れを伴い,フルセットおよび少数ショットのシナリオにおいて効果的な連続学習を実現する。
論文 参考訳(メタデータ) (2024-04-11T04:22:15Z) - Elastic Multi-Gradient Descent for Parallel Continual Learning [28.749215705746135]
動的マルチタスクシナリオにおける並列連続学習(PCL)のパラダイムについて検討する。
PCLは、学習の進捗が様々に異なる、特定されていないタスクのトレーニングによって、課題を提示する。
従来のタスクと新しいタスクのトレーニングのバランスをとるために,EMGDを用いて計算した勾配によって導かれるメモリ編集機構を提案する。
論文 参考訳(メタデータ) (2024-01-02T06:26:25Z) - Learning an evolved mixture model for task-free continual learning [11.540150938141034]
タスク自由連続学習(TFCL)では,非定常データストリーム上で,明示的なタスク情報を持たないモデルを訓練する。
メモリ過負荷を回避するため,記憶されているサンプルを選択的に削除する2つの単純なドロップアウト機構を導入する。
論文 参考訳(メタデータ) (2022-07-11T16:01:27Z) - A Unified Transferable Model for ML-Enhanced DBMS [53.46830627879208]
本稿では,タスク間で伝達可能な知識をキャプチャするマルチタスクトレーニングプロシージャと,db間でのメタ知識を蒸留するプリトレーニングファインチューンプロシージャを用いた統一モデルmtmlfを提案する。
このパラダイムはクラウドDBサービスに適しており、将来的にMLの使用方法に革命をもたらす可能性があると考えています。
論文 参考訳(メタデータ) (2021-05-06T03:31:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。