論文の概要: Learning Mamba as a Continual Learner: Meta-learning Selective State Space Models for Efficient Continual Learning
- arxiv url: http://arxiv.org/abs/2412.00776v3
- Date: Sun, 09 Mar 2025 02:19:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-11 15:50:05.388783
- Title: Learning Mamba as a Continual Learner: Meta-learning Selective State Space Models for Efficient Continual Learning
- Title(参考訳): 連続学習者としてのマムバの学習--効果的な連続学習のためのメタラーニング選択状態空間モデル
- Authors: Chongyang Zhao, Dong Gong,
- Abstract要約: 継続学習(CL)は、すべてのサンプルを保存または再計算することなく、非定常データストリームから効率的に学習することを目的としている。
過去の表現を全て残さずに、メタラーニングシーケンスに基づく連続学習者に焦点を当てた。
Mambaの強いシーケンスモデリング性能と注意のない性質を考慮し、重要な疑問を探る: Mambaのような注意のないモデルは、メタ大陸学習でうまく機能するのか?
- 参考スコア(独自算出の注目度): 12.697915176594314
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Continual learning (CL) aims to efficiently learn from a non-stationary data stream, without storing or recomputing all seen samples. CL enables prediction on new tasks by incorporating sequential training samples. Building on this connection between CL and sequential modeling, meta-continual learning (MCL) aims to meta-learn an efficient continual learner as a sequence prediction model, with advanced sequence models like Transformers being natural choices. However, despite decent performance, Transformers rely on a linearly growing cache to store all past representations, conflicting with CL's objective of not storing all seen samples and limiting efficiency. In this paper, we focus on meta-learning sequence-prediction-based continual learners without retaining all past representations. While attention-free models with fixed-size hidden states (e.g., Linear Transformers) align with CL's essential goal and efficiency needs, they have shown limited effectiveness in MCL in previous literature. Given Mamba's strong sequence modeling performance and attention-free nature, we explore a key question: Can attention-free models like Mamba perform well on MCL? By formulating Mamba and the SSM for MCL tasks, we propose MambaCL, a meta-learned continual learner. To enhance MambaCL's training, we introduce selectivity regularization, leveraging the connection between Mamba and Transformers to guide its behavior over sequences. Furthermore, we study how Mamba and other models perform across various MCL scenarios through extensive and well-designed experiments. Our results highlight the promising performance and strong generalization of Mamba and attention-free models in MCL, demonstrating its potential for efficient continual learning and adaptation.
- Abstract(参考訳): 継続学習(CL)は、すべてのサンプルを保存または再計算することなく、非定常データストリームから効率的に学習することを目的としている。
CLは、シーケンシャルなトレーニングサンプルを組み込むことで、新しいタスクの予測を可能にする。
CLとシーケンシャルモデリングのこの関係に基づいて、メタ連続学習(MCL)は、トランスフォーマーのような先進的なシーケンスモデルが自然選択であるようなシーケンス予測モデルとして、効率的な連続学習者をメタ学習することを目的としている。
しかし、優れたパフォーマンスにもかかわらず、Transformerは過去のすべての表現を保存するために線形に成長するキャッシュに依存しており、CLの目的であるすべてのサンプルを保存せず、効率を制限している。
本稿では,過去の表現を全て残さずに,メタラーニングシーケンスに基づく連続学習に焦点をあてる。
固定サイズ隠れ状態(リニアトランスフォーマーなど)を持つ注意のないモデルは、CLの本質的な目標と効率性のニーズに合致するが、以前の文献ではMCLの有効性は限られていた。
Mambaのような注目のないモデルは、MCL上でうまく機能するのか?
MCLタスクのためのMambaとSSMを定式化することにより、メタ学習型連続学習システムMambaCLを提案する。
MambaCLのトレーニングを強化するために,MambaとTransformersの接続を利用してシーケンス上の動作をガイドする選択正則化を導入する。
さらに,Mamba などのモデルが多種多様な MCL シナリオにまたがってどのように機能するかを,広範囲かつよく設計された実験を通して検討する。
本研究は,MCLにおけるマンバの有望な性能と高機能化,およびアテンションフリーモデルについて,効率的な連続学習と適応の可能性を示すものである。
関連論文リスト
- Repetitive Contrastive Learning Enhances Mamba's Selectivity in Time Series Prediction [1.6590638305972631]
本稿では,マンバの選択能力向上を目的としたトークンレベルのコントラスト事前学習フレームワークである反復コントラスト学習(RCL)を紹介する。
RCLは選択能力を高めるために単一のマンバブロックを事前訓練し、これらの事前訓練されたパラメータを様々なバックボーンモデルでマンバブロックを初期化するために転送する。
大規模な実験により、RCLはバックボーンモデルの性能を継続的に向上し、既存の手法を超越し、最先端の結果を達成することが示されている。
論文 参考訳(メタデータ) (2025-04-12T11:57:27Z) - Enhancing Online Continual Learning with Plug-and-Play State Space Model and Class-Conditional Mixture of Discretization [72.81319836138347]
オンライン連続学習(OCL)は、以前に学習したタスクの知識を保持しながら、一度だけ現れるデータストリームから新しいタスクを学習することを目指している。
既存の方法の多くはリプレイに依存しており、正規化や蒸留によるメモリ保持の強化に重点を置いている。
既存のほとんどのメソッドに組み込むことができ、適応性を直接改善できるプラグイン・アンド・プレイモジュールであるS6MODを導入する。
論文 参考訳(メタデータ) (2024-12-24T05:25:21Z) - Mamba-CL: Optimizing Selective State Space Model in Null Space for Continual Learning [54.19222454702032]
継続的学習は、AIモデルに時間とともに一連のタスクを学習する能力を持たせることを目的としている。
ステートスペースモデル(SSM)はコンピュータビジョンにおいて顕著な成功を収めた。
大規模マンバ基礎モデルのコアSSMを連続的に微調整するフレームワークであるMamba-CLを紹介する。
論文 参考訳(メタデータ) (2024-11-23T06:36:16Z) - ReMamba: Equip Mamba with Effective Long-Sequence Modeling [50.530839868893786]
本研究では,長い文脈の理解能力を高めるReMambaを提案する。
ReMambaは2段階のプロセスで選択的圧縮と適応のテクニックを取り入れている。
論文 参考訳(メタデータ) (2024-08-28T02:47:27Z) - Boosting Continual Learning of Vision-Language Models via Mixture-of-Experts Adapters [65.15700861265432]
本稿では,視覚言語モデルを用いた漸進的学習における長期的忘れを緩和するパラメータ効率の連続学習フレームワークを提案する。
提案手法では,Mixture-of-Experts (MoE)アダプタの統合により,事前学習したCLIPモデルの動的拡張を行う。
視覚言語モデルのゼロショット認識能力を維持するために,分布判別オートセレクタを提案する。
論文 参考訳(メタデータ) (2024-03-18T08:00:23Z) - Can Mamba Learn How to Learn? A Comparative Study on In-Context Learning Tasks [25.092302463435523]
状態空間モデル(SSM)は言語モデリングにおけるトランスフォーマーネットワークの代替として提案されている。
本研究では,各種タスクを対象としたトランスフォーマーモデルに対して,マンバに着目したSSMのICL性能を評価する。
論文 参考訳(メタデータ) (2024-02-06T18:56:35Z) - Is Mamba Capable of In-Context Learning? [63.682741783013306]
GPT-4のような技術基盤モデルの現状は、文脈内学習(ICL)において驚くほどよく機能する
この研究は、新たに提案された状態空間モデルであるMambaが同様のICL能力を持つという実証的な証拠を提供する。
論文 参考訳(メタデータ) (2024-02-05T16:39:12Z) - Recasting Continual Learning as Sequence Modeling [44.437160324905726]
本稿では,連続学習をシーケンスモデリング問題として定式化することを提案する。
メタ連続学習(MCL)フレームワークを採用することで、メタレベルでシーケンスモデルをトレーニングすることができる。
分類と回帰の両方を網羅した7つのベンチマーク実験により、シーケンスモデルが一般的なMCLにとって魅力的な解であることを示す。
論文 参考訳(メタデータ) (2023-10-18T13:26:52Z) - Pre-training Language Model as a Multi-perspective Course Learner [103.17674402415582]
本研究では,サンプル効率のよい事前学習のためのマルチパースペクティブ・コース・ラーニング(MCL)手法を提案する。
本研究では,3つの自己超越コースが,「綱引き」力学の固有の欠陥を軽減するように設計されている。
本手法は,GLUEおよびSQuAD 2.0ベンチマークにおいて,ELECTRAの平均性能をそれぞれ2.8%,絶対点を3.2%向上させる。
論文 参考訳(メタデータ) (2023-05-06T09:02:10Z) - CLIPood: Generalizing CLIP to Out-of-Distributions [73.86353105017076]
対照的に、CLIP(Language-image Pre-training)モデルでは、印象的なゼロショット能力を示しているが、下流タスクにおけるCLIPのさらなる適応は、OODのパフォーマンスを好ましくない劣化させる。
ドメインシフトとオープンクラスの両方が見えないテストデータ上で発生する可能性があるOOD状況にCLIPモデルを適用するための微調整手法であるCLIPoodを提案する。
さまざまなOODシナリオによるさまざまなデータセットの実験は、CLIPoodが既存の一般化テクニックを一貫して上回っていることを示している。
論文 参考訳(メタデータ) (2023-02-02T04:27:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。