Fugu-MT 論文翻訳(概要): Regularization-Based Efficient Continual Learning in Deep State-Space Models

論文の概要: Regularization-Based Efficient Continual Learning in Deep State-Space Models

arxiv url: http://arxiv.org/abs/2403.10123v2
Date: Sat, 29 Jun 2024 23:01:10 GMT
ステータス: 翻訳完了
システム内更新日: 2024-07-02 14:49:11.238351
Title: Regularization-Based Efficient Continual Learning in Deep State-Space Models
Title（参考訳）: 状態空間モデルにおける正規化に基づく効率的な連続学習
Authors: Yuanhang Zhang, Zhidi Lin, Yiyong Sun, Feng Yin, Carsten Fritsche,
Abstract要約: 本稿では,大惨事な忘れを伴わずに,進化するタスクに適応できる連続学習DSSMを提案する。提案するCLDSSMは、正規化に基づく継続学習(CL)手法を統合し、一定の計算とメモリコストで効率的な更新を保証する。
参考スコア（独自算出の注目度）: 7.709959121230049
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Deep state-space models (DSSMs) have gained popularity in recent years due to their potent modeling capacity for dynamic systems. However, existing DSSM works are limited to single-task modeling, which requires retraining with historical task data upon revisiting a forepassed task. To address this limitation, we propose continual learning DSSMs (CLDSSMs), which are capable of adapting to evolving tasks without catastrophic forgetting. Our proposed CLDSSMs integrate mainstream regularization-based continual learning (CL) methods, ensuring efficient updates with constant computational and memory costs for modeling multiple dynamic systems. We also conduct a comprehensive cost analysis of each CL method applied to the respective CLDSSMs, and demonstrate the efficacy of CLDSSMs through experiments on real-world datasets. The results corroborate that while various competing CL methods exhibit different merits, the proposed CLDSSMs consistently outperform traditional DSSMs in terms of effectively addressing catastrophic forgetting, enabling swift and accurate parameter transfer to new tasks.
Abstract（参考訳）: 近年,動的システムに強力なモデリング能力を持つDSSM(Deep State-space Model)が普及している。しかし、既存のDSSMの作業はシングルタスクのモデリングに限られており、フォアパスされたタスクを再考する際には、過去のタスクデータで再トレーニングする必要がある。この制限に対処するために,大惨な忘れをすることなく,進化するタスクに適応できる連続学習DSSM(CLDSSM)を提案する。提案するCLDSSMは、主流正規化に基づく連続学習(CL)手法を統合し、複数の動的システムのモデリングに一定の計算とメモリコストで効率的な更新を実現する。また,各CLDSSMに適用したCL手法の包括的コスト解析を行い,実世界のデータセットを用いた実験によるCLDSSMの有効性を実証する。その結果、様々な競合するCL手法は異なるメリットを示すが、提案されたCLDSSMは破滅的な忘れを効果的に解決し、新しいタスクへの迅速かつ正確なパラメータ転送を可能にするという点で、従来のDSSMよりも一貫して優れていた。

関連論文リスト

Modular Memory is the Key to Continual Learning Agents [100.09688599754465]
In-Weight Learning(IWL)の強みと、モジュラーメモリの設計を通じて新たに登場したIn-Context Learning(ICL)の機能を組み合わせることが、大規模に継続的適応するための欠片である、と我々は主張する。我々は、ICLを高速適応と知識蓄積に活用するモジュール型メモリ中心アーキテクチャの概念的フレームワークと、モデル機能の安定した更新のためのIWLについて概説する。
論文参考訳（メタデータ） (2026-03-02T11:40:05Z)
In-Context Learning can Perform Continual Learning Like Humans [12.499724976235534]
大規模言語モデル(LLM)は、パラメータを更新することなく、ICL(In-context Learning)を介して新しいタスクに適応することができる。マルチタスク環境におけるICLの保持特性について検討し,それを文脈内連続学習(ICCL)に拡張する。 ICCLは、人間に類似した方法で分散プラクティスの恩恵を受けており、維持のための「スイートスポット」の間隔を一貫して明らかにしている。
論文参考訳（メタデータ） (2025-09-26T15:08:06Z)
Multi-level Collaborative Distillation Meets Global Workspace Model: A Unified Framework for OCIL [38.72433556055473]
Online Class-Incremental Learning (OCIL) は、非i.d.データストリームからモデルを継続的に学習することを可能にする。 OCILは、厳格なメモリ制約の下でモデルの安定性を維持すること、新しいタスクへの適応性を確保することの2つの主要な課題に直面している。グローバルワークスペースモデル(GWM)によるアンサンブル学習を強化する新しい手法を提案する。
論文参考訳（メタデータ） (2025-08-12T06:52:33Z)
MLLM-CL: Continual Learning for Multimodal Large Language Models [62.90736445575181]
ドメインと能力の連続学習を含む新しいベンチマークであるMLLM-CLを紹介する。我々のアプローチは、ドメイン固有の知識と機能的能力とを最小限の忘れ込みで統合することができ、既存の手法よりもはるかに優れています。
論文参考訳（メタデータ） (2025-06-05T17:58:13Z)
Continual Learning Beyond Experience Rehearsal and Full Model Surrogates [17.236861687708096]
深層ニューラルネットワークの継続的な学習は依然として重要な課題である。既存のソリューションは、経験のリハーサルや完全なモデルサロゲートに頼っていることが多い。本稿では,経験的リハーサルやフルモデルサロゲートの必要性を解消する,スケーラブルなCLアプローチを提案する。
論文参考訳（メタデータ） (2025-05-28T03:52:34Z)
Self-Controlled Dynamic Expansion Model for Continual Learning [10.447232167638816]
本稿では, 自己制御型動的拡張モデル(SCDEM)を提案する。 SCDEMは複数のトレーニング可能なトレーニング済みのViTバックボーンを編成し、多様で意味的に豊かな表現を提供する。提案手法の有効性を評価するため,幅広い実験が実施されている。
論文参考訳（メタデータ） (2025-04-14T15:22:51Z)
Continual learning via probabilistic exchangeable sequence modelling [6.269118318460723]
継続的な学習 (CL) は、過去の経験から有用な情報を保持しながら、継続的に学習し、新しい知識を蓄積する能力である。本稿では,スケーラブルでトラクタブルなベイズ更新と予測を行う確率的ニューラルプロセスに基づくCLモデルであるCL-Brunoを提案する。
論文参考訳（メタデータ） (2025-03-26T17:08:20Z)
CalFuse: Multi-Modal Continual Learning via Feature Calibration and Parameter Fusion [17.68751409041168]
クラス・コンチネンタル・ラーニング(CCL)は、歴史データを再考することなく、新たなクラス知識を段階的に取り入れることで、この課題に対処する。 CLIPのようなビジョンランゲージモデル(VLM)の最近の進歩は、事前訓練されたマルチモーダル知識を活用することで、CCLにとって重要な可能性を示している。本稿では,マルチモーダルな知識統合を実現するために,特徴パラメータFusionを相乗化するフレームワークであるCalFuseを提案する。
論文参考訳（メタデータ） (2025-03-24T13:44:12Z)
DATA: Decomposed Attention-based Task Adaptation for Rehearsal-Free Continual Learning [22.386864304549285]
大規模言語モデル(LLM)では、継続的な学習(CL)が現実の要求に適応するために不可欠である。近年のリハーサルフリー手法では、モデルベースおよび正規化ベースの戦略を用いてこの問題に対処している。我々は、$textbfD$e $textbfA$ttention-based $textbfTask $textbfA$daptation ( data)を提案する。データは、ハイランクなタスクアダプタとローランクなタスクアダプタを使用して、タスク固有の知識とタスク共有の知識を明示的に分離し、学習する。
論文参考訳（メタデータ） (2025-02-17T06:35:42Z)
Modality-Inconsistent Continual Learning of Multimodal Large Language Models [37.15220266767881]
マルチモーダル大言語モデル(MLLM)のための新しい連続学習シナリオであるMICL(Modality-Inconsistent Continual Learning)を導入する。既存の視覚のみやモダリティの増分設定とは異なり、MICLはモダリティとタスクタイプのシフトを組み合わせており、どちらも破滅的な忘れを招いている。本稿では, Pseudo Targets Generation Module を用いて, 以前見られたタスクタイプシフトによる忘れを軽減した MoInCL を提案する。
論文参考訳（メタデータ） (2024-12-17T16:13:56Z)
Mamba-CL: Optimizing Selective State Space Model in Null Space for Continual Learning [54.19222454702032]
継続的学習は、AIモデルに時間とともに一連のタスクを学習する能力を持たせることを目的としている。ステートスペースモデル(SSM)はコンピュータビジョンにおいて顕著な成功を収めた。大規模マンバ基礎モデルのコアSSMを連続的に微調整するフレームワークであるMamba-CLを紹介する。
論文参考訳（メタデータ） (2024-11-23T06:36:16Z)
Continual Task Learning through Adaptive Policy Self-Composition [54.95680427960524]
CompoFormerは構造ベースの連続トランスフォーマーモデルであり、メタポリシックネットワークを介して、以前のポリシーを適応的に構成する。実験の結果,CompoFormerは従来の継続学習法(CL)よりも優れており,特にタスクシーケンスが長いことが判明した。
論文参考訳（メタデータ） (2024-11-18T08:20:21Z)
Temporal-Difference Variational Continual Learning [89.32940051152782]
現実世界のアプリケーションにおける機械学習モデルの重要な機能は、新しいタスクを継続的に学習する能力である。継続的な学習設定では、モデルは以前の知識を保持することで新しいタスクの学習のバランスをとるのに苦労することが多い。複数の先行推定の正則化効果を統合する新たな学習目標を提案する。
論文参考訳（メタデータ） (2024-10-10T10:58:41Z)
Theoretical Insights into Overparameterized Models in Multi-Task and Replay-Based Continual Learning [37.745896674964186]
マルチタスク学習(MTL)は,複数のタスクを同時に学習することで,複数のタスクにおけるモデルの一般化性能を向上させることを目的としている。連続学習(CL)は、以前取得した知識を忘れずに、時間とともに新しい逐次到着タスクに適応する。 MTL設定におけるモデルの性能に及ぼす各種システムパラメータの影響を理論的に記述する。その結果,バッファサイズとモデルキャパシティがCLセットアップの記憶率に及ぼす影響を明らかにし,最先端のCL手法のいくつかに光を当てるのに役立つことがわかった。
論文参考訳（メタデータ） (2024-08-29T23:22:40Z)
HOPE for a Robust Parameterization of Long-memory State Space Models [51.66430224089725]
線形時間不変(LTI)システムを利用する状態空間モデル(SSM)は、長いシーケンスの学習において有効であることが知られている。我々は,ハンケル作用素内のマルコフパラメータを利用するLTIシステムに対して,HOPEと呼ばれる新しいパラメータ化手法を開発した。我々の新しいパラメータ化は、固定時間ウィンドウ内に非遅延メモリを付与し、パッドドノイズのあるシーケンシャルCIFAR-10タスクによって実証的に相関する。
論文参考訳（メタデータ） (2024-05-22T20:20:14Z)
Realistic Continual Learning Approach using Pre-trained Models [1.2582887633807602]
本稿では,タスク間のクラス分布がランダムな新しいCLパラダイムであるRealistic Continual Learning(RealCL)を紹介する。 CLARE(Continual Learning Approach with pRE-trained model for RealCL scenarios)も提案する。
論文参考訳（メタデータ） (2024-04-11T13:19:46Z)
Scalable Language Model with Generalized Continual Learning [58.700439919096155]
The Joint Adaptive Re-ization (JARe) is integrated with Dynamic Task-related Knowledge Retrieval (DTKR) to enable adapt adjust of language model based on specific downstream task。提案手法は,様々なバックボーンやベンチマーク上での最先端性能を実証し,最小限の忘れを伴い,フルセットおよび少数ショットのシナリオにおいて効果的な連続学習を実現する。
論文参考訳（メタデータ） (2024-04-11T04:22:15Z)
Elastic Multi-Gradient Descent for Parallel Continual Learning [28.749215705746135]
動的マルチタスクシナリオにおける並列連続学習(PCL)のパラダイムについて検討する。 PCLは、学習の進捗が様々に異なる、特定されていないタスクのトレーニングによって、課題を提示する。従来のタスクと新しいタスクのトレーニングのバランスをとるために,EMGDを用いて計算した勾配によって導かれるメモリ編集機構を提案する。
論文参考訳（メタデータ） (2024-01-02T06:26:25Z)
Learning an evolved mixture model for task-free continual learning [11.540150938141034]
タスク自由連続学習(TFCL)では,非定常データストリーム上で,明示的なタスク情報を持たないモデルを訓練する。メモリ過負荷を回避するため,記憶されているサンプルを選択的に削除する2つの単純なドロップアウト機構を導入する。
論文参考訳（メタデータ） (2022-07-11T16:01:27Z)
A Unified Transferable Model for ML-Enhanced DBMS [53.46830627879208]
本稿では,タスク間で伝達可能な知識をキャプチャするマルチタスクトレーニングプロシージャと,db間でのメタ知識を蒸留するプリトレーニングファインチューンプロシージャを用いた統一モデルmtmlfを提案する。このパラダイムはクラウドDBサービスに適しており、将来的にMLの使用方法に革命をもたらす可能性があると考えています。
論文参考訳（メタデータ） (2021-05-06T03:31:32Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。