論文の概要: Learning Mamba as a Continual Learner
- arxiv url: http://arxiv.org/abs/2412.00776v1
- Date: Sun, 01 Dec 2024 11:43:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-04 15:43:35.160395
- Title: Learning Mamba as a Continual Learner
- Title(参考訳): 連続学習者としてのマンバの学習
- Authors: Chongyang Zhao, Dong Gong,
- Abstract要約: 本稿では,メタ学習のMambaCLを継続学習者として提案する。
選択正則化を取り入れることで、MambaCLを効果的に訓練することができる。
MCLにおけるMambaの性能と一般化能力について実験と分析を行った。
- 参考スコア(独自算出の注目度): 12.697915176594314
- License:
- Abstract: Continual learning (CL) aims to efficiently learn and accumulate knowledge from a data stream with different distributions. By formulating CL as a sequence prediction task, meta-continual learning (MCL) enables to meta-learn an efficient continual learner based on the recent advanced sequence models, e.g., Transformers. Although attention-free models (e.g., Linear Transformers) can ideally match CL's essential objective and efficiency requirements, they usually perform not well in MCL. Considering that the attention-free Mamba achieves excellent performances matching Transformers' on general sequence modeling tasks, in this paper, we aim to answer a question -- Can attention-free Mamba perform well on MCL? By formulating Mamba with a selective state space model (SSM) for MCL tasks, we propose to meta-learn Mamba as a continual learner, referred to as MambaCL. By incorporating a selectivity regularization, we can effectively train MambaCL. Through comprehensive experiments across various CL tasks, we also explore how Mamba and other models perform in different MCL scenarios. Our experiments and analyses highlight the promising performance and generalization capabilities of Mamba in MCL.
- Abstract(参考訳): 連続学習(CL)は、異なる分布を持つデータストリームから効率的に学習し、蓄積することを目的としている。
CLをシーケンス予測タスクとして定式化することにより、メタcontinual Learning(MCL)は、最近の先進的なシーケンスモデル、例えばTransformerに基づいて、効率的な連続学習者をメタ学習することができる。
注意のないモデル(例えば線形変換器)は、CLの本質的な目的と効率の要求に理想的に適合するが、通常はMCLではうまく機能しない。
注意のないマンバは、一般的なシーケンスモデリングタスクにおけるトランスフォーマーの整合性に優れた性能を発揮することを考慮し、本論文では、注意のないマンバがMCLでうまく機能できるかという疑問に答える。
MCLタスクのための選択状態空間モデル(SSM)を用いてMambaを定式化することにより、メタ学習型MambaをMambaCLと呼ばれる連続学習者として提案する。
選択正則化を取り入れることで、MambaCLを効果的に訓練することができる。
さまざまなCLタスクに対する総合的な実験を通じて、Mambaや他のモデルが異なるMCLシナリオでどのように機能するかについても検討する。
MCLにおけるMambaの性能と一般化能力について実験と分析を行った。
関連論文リスト
- Mamba-CL: Optimizing Selective State Space Model in Null Space for Continual Learning [54.19222454702032]
継続的学習は、AIモデルに時間とともに一連のタスクを学習する能力を持たせることを目的としている。
ステートスペースモデル(SSM)はコンピュータビジョンにおいて顕著な成功を収めた。
大規模マンバ基礎モデルのコアSSMを連続的に微調整するフレームワークであるMamba-CLを紹介する。
論文 参考訳(メタデータ) (2024-11-23T06:36:16Z) - ReMamba: Equip Mamba with Effective Long-Sequence Modeling [50.530839868893786]
本研究では,長い文脈の理解能力を高めるReMambaを提案する。
ReMambaは2段階のプロセスで選択的圧縮と適応のテクニックを取り入れている。
論文 参考訳(メタデータ) (2024-08-28T02:47:27Z) - MambaMIM: Pre-training Mamba with State Space Token-interpolation [14.343466340528687]
選択構造状態空間補間(S6T)に基づくMamba(MambaMIM)の自己教師型学習手法を提案する。
MambaMIMは、Mambaの長距離表現能力を向上するために、任意の単一またはハイブリッドのMambaアーキテクチャで使用することができる。
論文 参考訳(メタデータ) (2024-08-15T10:35:26Z) - MambaVision: A Hybrid Mamba-Transformer Vision Backbone [54.965143338206644]
本稿では,視覚応用に適した新しいハイブリッド型Mamba-TransformerバックボーンであるMambaVisionを提案する。
私たちのコアコントリビューションには、視覚的特徴の効率的なモデリング能力を高めるために、Mambaの定式化を再設計することが含まれています。
視覚変換器(ViT)とマンバの統合可能性に関する包括的アブレーション研究を行う。
論文 参考訳(メタデータ) (2024-07-10T23:02:45Z) - DeciMamba: Exploring the Length Extrapolation Potential of Mamba [89.07242846058023]
本研究では,マンバに特化して設計された文脈拡張手法であるDeciMambaを紹介する。
DeciMambaは、トレーニング中に見たものよりも25倍長く、余分な計算資源を使わずに、コンテキスト長を外挿できることを示す。
論文 参考訳(メタデータ) (2024-06-20T17:40:18Z) - Mamba State-Space Models Are Lyapunov-Stable Learners [1.6385815610837167]
Mamba State-space Model (SSM) は、最近様々なタスクでTransformer Large Language Model (LLM) より優れていることが示されている。
我々は,Mambaのリカレントダイナミクスが小さな入力変化に対して堅牢であることを示す。
また、命令チューニングにより、Mambaモデルはこのギャップを81%に、Mamba-2モデルはこのギャップを132%に制限できることを示す。
論文 参考訳(メタデータ) (2024-05-31T21:46:23Z) - Can Mamba Learn How to Learn? A Comparative Study on In-Context Learning Tasks [25.092302463435523]
状態空間モデル(SSM)は言語モデリングにおけるトランスフォーマーネットワークの代替として提案されている。
本研究では,各種タスクを対象としたトランスフォーマーモデルに対して,マンバに着目したSSMのICL性能を評価する。
論文 参考訳(メタデータ) (2024-02-06T18:56:35Z) - Is Mamba Capable of In-Context Learning? [63.682741783013306]
GPT-4のような技術基盤モデルの現状は、文脈内学習(ICL)において驚くほどよく機能する
この研究は、新たに提案された状態空間モデルであるMambaが同様のICL能力を持つという実証的な証拠を提供する。
論文 参考訳(メタデータ) (2024-02-05T16:39:12Z) - CLIPood: Generalizing CLIP to Out-of-Distributions [73.86353105017076]
対照的に、CLIP(Language-image Pre-training)モデルでは、印象的なゼロショット能力を示しているが、下流タスクにおけるCLIPのさらなる適応は、OODのパフォーマンスを好ましくない劣化させる。
ドメインシフトとオープンクラスの両方が見えないテストデータ上で発生する可能性があるOOD状況にCLIPモデルを適用するための微調整手法であるCLIPoodを提案する。
さまざまなOODシナリオによるさまざまなデータセットの実験は、CLIPoodが既存の一般化テクニックを一貫して上回っていることを示している。
論文 参考訳(メタデータ) (2023-02-02T04:27:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。