論文の概要: Learning Mamba as a Continual Learner: Meta-learning Selective State Space Models for Efficient Continual Learning
- arxiv url: http://arxiv.org/abs/2412.00776v3
- Date: Sun, 09 Mar 2025 02:19:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-11 15:40:06.680353
- Title: Learning Mamba as a Continual Learner: Meta-learning Selective State Space Models for Efficient Continual Learning
- Title(参考訳): 連続学習者としてのマムバの学習--効果的な連続学習のためのメタラーニング選択状態空間モデル
- Authors: Chongyang Zhao, Dong Gong,
- Abstract要約: 継続学習(CL)は、すべてのサンプルを保存または再計算することなく、非定常データストリームから効率的に学習することを目的としている。
過去の表現を全て残さずに、メタラーニングシーケンスに基づく連続学習者に焦点を当てた。
Mambaの強いシーケンスモデリング性能と注意のない性質を考慮し、重要な疑問を探る: Mambaのような注意のないモデルは、メタ大陸学習でうまく機能するのか?
- 参考スコア(独自算出の注目度): 12.697915176594314
- License:
- Abstract: Continual learning (CL) aims to efficiently learn from a non-stationary data stream, without storing or recomputing all seen samples. CL enables prediction on new tasks by incorporating sequential training samples. Building on this connection between CL and sequential modeling, meta-continual learning (MCL) aims to meta-learn an efficient continual learner as a sequence prediction model, with advanced sequence models like Transformers being natural choices. However, despite decent performance, Transformers rely on a linearly growing cache to store all past representations, conflicting with CL's objective of not storing all seen samples and limiting efficiency. In this paper, we focus on meta-learning sequence-prediction-based continual learners without retaining all past representations. While attention-free models with fixed-size hidden states (e.g., Linear Transformers) align with CL's essential goal and efficiency needs, they have shown limited effectiveness in MCL in previous literature. Given Mamba's strong sequence modeling performance and attention-free nature, we explore a key question: Can attention-free models like Mamba perform well on MCL? By formulating Mamba and the SSM for MCL tasks, we propose MambaCL, a meta-learned continual learner. To enhance MambaCL's training, we introduce selectivity regularization, leveraging the connection between Mamba and Transformers to guide its behavior over sequences. Furthermore, we study how Mamba and other models perform across various MCL scenarios through extensive and well-designed experiments. Our results highlight the promising performance and strong generalization of Mamba and attention-free models in MCL, demonstrating its potential for efficient continual learning and adaptation.
- Abstract(参考訳): 継続学習(CL)は、すべてのサンプルを保存または再計算することなく、非定常データストリームから効率的に学習することを目的としている。
CLは、シーケンシャルなトレーニングサンプルを組み込むことで、新しいタスクの予測を可能にする。
CLとシーケンシャルモデリングのこの関係に基づいて、メタ連続学習(MCL)は、トランスフォーマーのような先進的なシーケンスモデルが自然選択であるようなシーケンス予測モデルとして、効率的な連続学習者をメタ学習することを目的としている。
しかし、優れたパフォーマンスにもかかわらず、Transformerは過去のすべての表現を保存するために線形に成長するキャッシュに依存しており、CLの目的であるすべてのサンプルを保存せず、効率を制限している。
本稿では,過去の表現を全て残さずに,メタラーニングシーケンスに基づく連続学習に焦点をあてる。
固定サイズ隠れ状態(リニアトランスフォーマーなど)を持つ注意のないモデルは、CLの本質的な目標と効率性のニーズに合致するが、以前の文献ではMCLの有効性は限られていた。
Mambaのような注目のないモデルは、MCL上でうまく機能するのか?
MCLタスクのためのMambaとSSMを定式化することにより、メタ学習型連続学習システムMambaCLを提案する。
MambaCLのトレーニングを強化するために,MambaとTransformersの接続を利用してシーケンス上の動作をガイドする選択正則化を導入する。
さらに,Mamba などのモデルが多種多様な MCL シナリオにまたがってどのように機能するかを,広範囲かつよく設計された実験を通して検討する。
本研究は,MCLにおけるマンバの有望な性能と高機能化,およびアテンションフリーモデルについて,効率的な連続学習と適応の可能性を示すものである。
関連論文リスト
- Mamba-CL: Optimizing Selective State Space Model in Null Space for Continual Learning [54.19222454702032]
継続的学習は、AIモデルに時間とともに一連のタスクを学習する能力を持たせることを目的としている。
ステートスペースモデル(SSM)はコンピュータビジョンにおいて顕著な成功を収めた。
大規模マンバ基礎モデルのコアSSMを連続的に微調整するフレームワークであるMamba-CLを紹介する。
論文 参考訳(メタデータ) (2024-11-23T06:36:16Z) - ReMamba: Equip Mamba with Effective Long-Sequence Modeling [50.530839868893786]
本研究では,長い文脈の理解能力を高めるReMambaを提案する。
ReMambaは2段階のプロセスで選択的圧縮と適応のテクニックを取り入れている。
論文 参考訳(メタデータ) (2024-08-28T02:47:27Z) - MambaMIM: Pre-training Mamba with State Space Token-interpolation [14.343466340528687]
選択構造状態空間補間(S6T)に基づくMamba(MambaMIM)の自己教師型学習手法を提案する。
MambaMIMは、Mambaの長距離表現能力を向上するために、任意の単一またはハイブリッドのMambaアーキテクチャで使用することができる。
論文 参考訳(メタデータ) (2024-08-15T10:35:26Z) - MambaVision: A Hybrid Mamba-Transformer Vision Backbone [54.965143338206644]
本稿では,視覚応用に適した新しいハイブリッド型Mamba-TransformerバックボーンであるMambaVisionを提案する。
私たちのコアコントリビューションには、視覚的特徴の効率的なモデリング能力を高めるために、Mambaの定式化を再設計することが含まれています。
視覚変換器(ViT)とマンバの統合可能性に関する包括的アブレーション研究を行う。
論文 参考訳(メタデータ) (2024-07-10T23:02:45Z) - DeciMamba: Exploring the Length Extrapolation Potential of Mamba [89.07242846058023]
本研究では,マンバに特化して設計された文脈拡張手法であるDeciMambaを紹介する。
実世界の長距離NLPタスクに対する実験では、DeciMambaはトレーニング中に見られるものよりも、コンテキスト長に格段に長く当てはまることが示されている。
論文 参考訳(メタデータ) (2024-06-20T17:40:18Z) - Mamba State-Space Models Are Lyapunov-Stable Learners [1.6385815610837167]
Mamba State-space Model (SSM) は、最近様々なタスクでTransformer Large Language Model (LLM) より優れていることが示されている。
我々は,Mambaのリカレントダイナミクスが小さな入力変化に対して堅牢であることを示す。
また、命令チューニングにより、Mambaモデルはこのギャップを81%に、Mamba-2モデルはこのギャップを132%に制限できることを示す。
論文 参考訳(メタデータ) (2024-05-31T21:46:23Z) - Can Mamba Learn How to Learn? A Comparative Study on In-Context Learning Tasks [25.092302463435523]
状態空間モデル(SSM)は言語モデリングにおけるトランスフォーマーネットワークの代替として提案されている。
本研究では,各種タスクを対象としたトランスフォーマーモデルに対して,マンバに着目したSSMのICL性能を評価する。
論文 参考訳(メタデータ) (2024-02-06T18:56:35Z) - Is Mamba Capable of In-Context Learning? [63.682741783013306]
GPT-4のような技術基盤モデルの現状は、文脈内学習(ICL)において驚くほどよく機能する
この研究は、新たに提案された状態空間モデルであるMambaが同様のICL能力を持つという実証的な証拠を提供する。
論文 参考訳(メタデータ) (2024-02-05T16:39:12Z) - CLIPood: Generalizing CLIP to Out-of-Distributions [73.86353105017076]
対照的に、CLIP(Language-image Pre-training)モデルでは、印象的なゼロショット能力を示しているが、下流タスクにおけるCLIPのさらなる適応は、OODのパフォーマンスを好ましくない劣化させる。
ドメインシフトとオープンクラスの両方が見えないテストデータ上で発生する可能性があるOOD状況にCLIPモデルを適用するための微調整手法であるCLIPoodを提案する。
さまざまなOODシナリオによるさまざまなデータセットの実験は、CLIPoodが既存の一般化テクニックを一貫して上回っていることを示している。
論文 参考訳(メタデータ) (2023-02-02T04:27:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。