論文の概要: Self-Expansion of Pre-trained Models with Mixture of Adapters for Continual Learning
- arxiv url: http://arxiv.org/abs/2403.18886v2
- Date: Sun, 9 Jun 2024 12:24:03 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-12 00:34:14.944128
- Title: Self-Expansion of Pre-trained Models with Mixture of Adapters for Continual Learning
- Title(参考訳): 連続学習用適応器を混合した事前学習モデルの自己拡張
- Authors: Huiyi Wang, Haodong Lu, Lina Yao, Dong Gong,
- Abstract要約: 継続学習(CL)は、学習した知識を壊滅的に忘れることなく、定常的でないデータストリームから継続的に知識を蓄積することを目的としている。
現在の PTM ベースの CL 法は,学習可能なアダプタの追加や,凍結した PTM へのプロンプトの追加によって,下流タスクへの効果的な継続的適応を行う。
PTM CL における安定性・塑性バランスの制御を強化する新しい手法である Modularized Adaptation (SEMA) を用いた事前学習モデルの自己拡張を提案する。
- 参考スコア(独自算出の注目度): 21.19820308728003
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Continual learning (CL) aims to continually accumulate knowledge from a non-stationary data stream without catastrophic forgetting of learned knowledge, requiring a balance between stability and adaptability. Relying on the generalizable representation in pre-trained models (PTMs), PTM-based CL methods perform effective continual adaptation on downstream tasks by adding learnable adapters or prompts upon the frozen PTMs. However, many existing PTM-based CL methods use restricted adaptation on a fixed set of these modules to avoid forgetting, suffering from limited CL ability. Periodically adding task-specific modules results in linear model growth rate and impaired knowledge reuse. We propose Self-Expansion of pre-trained models with Modularized Adaptation (SEMA), a novel approach to enhance the control of stability-plasticity balance in PTM-based CL. SEMA automatically decides to reuse or add adapter modules on demand in CL, depending on whether significant distribution shift that cannot be handled is detected at different representation levels. We design modular adapter consisting of a functional adapter and a representation descriptor. The representation descriptors are trained as a distribution shift indicator and used to trigger self-expansion signals. For better composing the adapters, an expandable weighting router is learned jointly for mixture of adapter outputs. SEMA enables better knowledge reuse and sub-linear expansion rate. Extensive experiments demonstrate the effectiveness of the proposed self-expansion method, achieving state-of-the-art performance compared to PTM-based CL methods without memory rehearsal.
- Abstract(参考訳): 継続学習(CL)は、学習知識を壊滅的に忘れることなく、非定常データストリームからの知識を継続的に蓄積することを目的としており、安定性と適応性のバランスを必要とする。
事前学習モデル(PTM)における一般化可能な表現に基づき、PTMベースのCL法は、学習可能なアダプタや凍結したPTMにプロンプトを追加することにより、下流タスクに効果的な連続的な適応を行う。
しかしながら、既存の PTM ベースの CL メソッドの多くは、CL 能力の制限により、これらのモジュールの固定セットへの制限適応を使用して、忘れることを避ける。
タスク固有のモジュールを定期的に追加すると、線形モデルの成長率と知識の再利用が損なわれる。
PTM CL における安定性・塑性バランスの制御を強化する新しい手法である Modularized Adaptation (SEMA) を用いた事前学習モデルの自己拡張を提案する。
SEMAは、処理できない大きな分散シフトが異なる表現レベルで検出されるかどうかに応じて、CLで必要に応じてアダプタモジュールを再利用または追加することを自動的に決定する。
機能的アダプタと表現記述子で構成されるモジュール型アダプタを設計する。
表現記述子は、分散シフトインジケータとして訓練され、自己拡張シグナルをトリガーするために使用される。
アダプタのより良い構成のために、アダプタ出力の混合のために拡張可能な重み付けルータを共同で学習する。
SEMAは、より良い知識再利用とサブ線形展開率を可能にする。
メモリリハーサルを伴わないPLMベースのCL法と比較して,提案手法の有効性を実証した。
関連論文リスト
- AdaPTS: Adapting Univariate Foundation Models to Probabilistic Multivariate Time Series Forecasting [10.899510048905926]
本稿では,機能間の複雑な依存関係を管理し,予測の不確実性を定量化するアダプタを提案する。
合成データセットと実世界のデータセットの両方で実施された実験により、アダプタの有効性が確認された。
私たちのフレームワークであるAdaPTSは、アダプタをモジュール的でスケーラブルで効果的なソリューションとして位置づけています。
論文 参考訳(メタデータ) (2025-02-14T15:46:19Z) - Continuous Knowledge-Preserving Decomposition for Few-Shot Continual Learning [89.11481059492608]
FSCIL(Few-shot class-incremental Learning)は、事前知識を維持しながら、限られたデータから新しいクラスを学習する。
モデルの重みを2つの部分に分解するフレームワークである FSCIL (CKPD-FSCIL) の連続的知識保存分解を提案する。
複数のベンチマークで実験したところ、CKPD-FSCILは最先端の手法よりも優れていた。
論文 参考訳(メタデータ) (2025-01-09T07:18:48Z) - Enhancing Online Continual Learning with Plug-and-Play State Space Model and Class-Conditional Mixture of Discretization [72.81319836138347]
オンライン連続学習(OCL)は、以前に学習したタスクの知識を保持しながら、一度だけ現れるデータストリームから新しいタスクを学習することを目指している。
既存の方法の多くはリプレイに依存しており、正規化や蒸留によるメモリ保持の強化に重点を置いている。
既存のほとんどのメソッドに組み込むことができ、適応性を直接改善できるプラグイン・アンド・プレイモジュールであるS6MODを導入する。
論文 参考訳(メタデータ) (2024-12-24T05:25:21Z) - FeTT: Continual Class Incremental Learning via Feature Transformation Tuning [19.765229703131876]
継続的学習(CL)は、静的で囲われた環境から動的で複雑なシナリオまで、ディープモデルを拡張することを目的としている。
最近のCLモデルは、パラメータ効率の良い微調整戦略を持つ事前学習モデルの利用に徐々に移行している。
本稿では,すべてのタスクにまたがる非パラメトリック微調整バックボーン機能に対するFeTTモデルを提案する。
論文 参考訳(メタデータ) (2024-05-20T06:33:50Z) - Boosting Continual Learning of Vision-Language Models via Mixture-of-Experts Adapters [65.15700861265432]
本稿では,視覚言語モデルを用いた漸進的学習における長期的忘れを緩和するパラメータ効率の連続学習フレームワークを提案する。
提案手法では,Mixture-of-Experts (MoE)アダプタの統合により,事前学習したCLIPモデルの動的拡張を行う。
視覚言語モデルのゼロショット認識能力を維持するために,分布判別オートセレクタを提案する。
論文 参考訳(メタデータ) (2024-03-18T08:00:23Z) - Revisiting Class-Incremental Learning with Pre-Trained Models: Generalizability and Adaptivity are All You Need [84.3507610522086]
クラスインクリメンタルラーニング(Class-incremental Learning, CIL)は、古いクラスを忘れずに新しいクラスに適応することを目的としている。
近年の事前訓練は大きな進歩を遂げており、CILには膨大な事前訓練モデル(PTM)が利用できるようになった。
CILの中核となる要素は、モデル更新の適応性と知識伝達の一般化性である。
論文 参考訳(メタデータ) (2023-03-13T17:59:02Z) - CLIPood: Generalizing CLIP to Out-of-Distributions [73.86353105017076]
対照的に、CLIP(Language-image Pre-training)モデルでは、印象的なゼロショット能力を示しているが、下流タスクにおけるCLIPのさらなる適応は、OODのパフォーマンスを好ましくない劣化させる。
ドメインシフトとオープンクラスの両方が見えないテストデータ上で発生する可能性があるOOD状況にCLIPモデルを適用するための微調整手法であるCLIPoodを提案する。
さまざまなOODシナリオによるさまざまなデータセットの実験は、CLIPoodが既存の一般化テクニックを一貫して上回っていることを示している。
論文 参考訳(メタデータ) (2023-02-02T04:27:54Z) - Momentum Pseudo-Labeling for Semi-Supervised Speech Recognition [55.362258027878966]
本稿では,半教師付き音声認識のための簡易かつ効果的な手法として,モーメント擬似ラベル(MPL)を提案する。
MPLは、平均的な教師メソッドにインスパイアされて、相互に相互作用し、学習するオンラインとオフラインの2つのモデルで構成されている。
実験の結果,MPLはベースモデルよりも効果的に改善され,様々な半教師付きシナリオに拡張可能であることが示された。
論文 参考訳(メタデータ) (2021-06-16T16:24:55Z) - Data-Driven Learning and Load Ensemble Control [1.647866856596524]
本研究の目的は、グリッドサポートサービスを提供するために、温度制御可能な負荷(TCL)など、分散された小規模のフレキシブルな負荷に取り組むことである。
このデータ駆動学習の効率性は, 住宅のテストベッド地区における暖房, 冷却, 換気ユニットのシミュレーションによって実証される。
論文 参考訳(メタデータ) (2020-04-20T23:32:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。