論文の概要: Learning Mamba as a Continual Learner
- arxiv url: http://arxiv.org/abs/2412.00776v1
- Date: Sun, 01 Dec 2024 11:43:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-04 21:11:22.178055
- Title: Learning Mamba as a Continual Learner
- Title(参考訳): 連続学習者としてのマンバの学習
- Authors: Chongyang Zhao, Dong Gong,
- Abstract要約: 本稿では,メタ学習のMambaCLを継続学習者として提案する。
選択正則化を取り入れることで、MambaCLを効果的に訓練することができる。
MCLにおけるMambaの性能と一般化能力について実験と分析を行った。
- 参考スコア(独自算出の注目度): 12.697915176594314
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Continual learning (CL) aims to efficiently learn and accumulate knowledge from a data stream with different distributions. By formulating CL as a sequence prediction task, meta-continual learning (MCL) enables to meta-learn an efficient continual learner based on the recent advanced sequence models, e.g., Transformers. Although attention-free models (e.g., Linear Transformers) can ideally match CL's essential objective and efficiency requirements, they usually perform not well in MCL. Considering that the attention-free Mamba achieves excellent performances matching Transformers' on general sequence modeling tasks, in this paper, we aim to answer a question -- Can attention-free Mamba perform well on MCL? By formulating Mamba with a selective state space model (SSM) for MCL tasks, we propose to meta-learn Mamba as a continual learner, referred to as MambaCL. By incorporating a selectivity regularization, we can effectively train MambaCL. Through comprehensive experiments across various CL tasks, we also explore how Mamba and other models perform in different MCL scenarios. Our experiments and analyses highlight the promising performance and generalization capabilities of Mamba in MCL.
- Abstract(参考訳): 連続学習(CL)は、異なる分布を持つデータストリームから効率的に学習し、蓄積することを目的としている。
CLをシーケンス予測タスクとして定式化することにより、メタcontinual Learning(MCL)は、最近の先進的なシーケンスモデル、例えばTransformerに基づいて、効率的な連続学習者をメタ学習することができる。
注意のないモデル(例えば線形変換器)は、CLの本質的な目的と効率の要求に理想的に適合するが、通常はMCLではうまく機能しない。
注意のないマンバは、一般的なシーケンスモデリングタスクにおけるトランスフォーマーの整合性に優れた性能を発揮することを考慮し、本論文では、注意のないマンバがMCLでうまく機能できるかという疑問に答える。
MCLタスクのための選択状態空間モデル(SSM)を用いてMambaを定式化することにより、メタ学習型MambaをMambaCLと呼ばれる連続学習者として提案する。
選択正則化を取り入れることで、MambaCLを効果的に訓練することができる。
さまざまなCLタスクに対する総合的な実験を通じて、Mambaや他のモデルが異なるMCLシナリオでどのように機能するかについても検討する。
MCLにおけるMambaの性能と一般化能力について実験と分析を行った。
関連論文リスト
- Repetitive Contrastive Learning Enhances Mamba's Selectivity in Time Series Prediction [1.6590638305972631]
本稿では,マンバの選択能力向上を目的としたトークンレベルのコントラスト事前学習フレームワークである反復コントラスト学習(RCL)を紹介する。
RCLは選択能力を高めるために単一のマンバブロックを事前訓練し、これらの事前訓練されたパラメータを様々なバックボーンモデルでマンバブロックを初期化するために転送する。
大規模な実験により、RCLはバックボーンモデルの性能を継続的に向上し、既存の手法を超越し、最先端の結果を達成することが示されている。
論文 参考訳(メタデータ) (2025-04-12T11:57:27Z) - Enhancing Online Continual Learning with Plug-and-Play State Space Model and Class-Conditional Mixture of Discretization [72.81319836138347]
オンライン連続学習(OCL)は、以前に学習したタスクの知識を保持しながら、一度だけ現れるデータストリームから新しいタスクを学習することを目指している。
既存の方法の多くはリプレイに依存しており、正規化や蒸留によるメモリ保持の強化に重点を置いている。
既存のほとんどのメソッドに組み込むことができ、適応性を直接改善できるプラグイン・アンド・プレイモジュールであるS6MODを導入する。
論文 参考訳(メタデータ) (2024-12-24T05:25:21Z) - Mamba-CL: Optimizing Selective State Space Model in Null Space for Continual Learning [54.19222454702032]
継続的学習は、AIモデルに時間とともに一連のタスクを学習する能力を持たせることを目的としている。
ステートスペースモデル(SSM)はコンピュータビジョンにおいて顕著な成功を収めた。
大規模マンバ基礎モデルのコアSSMを連続的に微調整するフレームワークであるMamba-CLを紹介する。
論文 参考訳(メタデータ) (2024-11-23T06:36:16Z) - ReMamba: Equip Mamba with Effective Long-Sequence Modeling [50.530839868893786]
本研究では,長い文脈の理解能力を高めるReMambaを提案する。
ReMambaは2段階のプロセスで選択的圧縮と適応のテクニックを取り入れている。
論文 参考訳(メタデータ) (2024-08-28T02:47:27Z) - Boosting Continual Learning of Vision-Language Models via Mixture-of-Experts Adapters [65.15700861265432]
本稿では,視覚言語モデルを用いた漸進的学習における長期的忘れを緩和するパラメータ効率の連続学習フレームワークを提案する。
提案手法では,Mixture-of-Experts (MoE)アダプタの統合により,事前学習したCLIPモデルの動的拡張を行う。
視覚言語モデルのゼロショット認識能力を維持するために,分布判別オートセレクタを提案する。
論文 参考訳(メタデータ) (2024-03-18T08:00:23Z) - Can Mamba Learn How to Learn? A Comparative Study on In-Context Learning Tasks [25.092302463435523]
状態空間モデル(SSM)は言語モデリングにおけるトランスフォーマーネットワークの代替として提案されている。
本研究では,各種タスクを対象としたトランスフォーマーモデルに対して,マンバに着目したSSMのICL性能を評価する。
論文 参考訳(メタデータ) (2024-02-06T18:56:35Z) - Is Mamba Capable of In-Context Learning? [63.682741783013306]
GPT-4のような技術基盤モデルの現状は、文脈内学習(ICL)において驚くほどよく機能する
この研究は、新たに提案された状態空間モデルであるMambaが同様のICL能力を持つという実証的な証拠を提供する。
論文 参考訳(メタデータ) (2024-02-05T16:39:12Z) - Recasting Continual Learning as Sequence Modeling [44.437160324905726]
本稿では,連続学習をシーケンスモデリング問題として定式化することを提案する。
メタ連続学習(MCL)フレームワークを採用することで、メタレベルでシーケンスモデルをトレーニングすることができる。
分類と回帰の両方を網羅した7つのベンチマーク実験により、シーケンスモデルが一般的なMCLにとって魅力的な解であることを示す。
論文 参考訳(メタデータ) (2023-10-18T13:26:52Z) - Pre-training Language Model as a Multi-perspective Course Learner [103.17674402415582]
本研究では,サンプル効率のよい事前学習のためのマルチパースペクティブ・コース・ラーニング(MCL)手法を提案する。
本研究では,3つの自己超越コースが,「綱引き」力学の固有の欠陥を軽減するように設計されている。
本手法は,GLUEおよびSQuAD 2.0ベンチマークにおいて,ELECTRAの平均性能をそれぞれ2.8%,絶対点を3.2%向上させる。
論文 参考訳(メタデータ) (2023-05-06T09:02:10Z) - CLIPood: Generalizing CLIP to Out-of-Distributions [73.86353105017076]
対照的に、CLIP(Language-image Pre-training)モデルでは、印象的なゼロショット能力を示しているが、下流タスクにおけるCLIPのさらなる適応は、OODのパフォーマンスを好ましくない劣化させる。
ドメインシフトとオープンクラスの両方が見えないテストデータ上で発生する可能性があるOOD状況にCLIPモデルを適用するための微調整手法であるCLIPoodを提案する。
さまざまなOODシナリオによるさまざまなデータセットの実験は、CLIPoodが既存の一般化テクニックを一貫して上回っていることを示している。
論文 参考訳(メタデータ) (2023-02-02T04:27:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。