論文の概要: Self-Expansion of Pre-trained Models with Mixture of Adapters for Continual Learning
- arxiv url: http://arxiv.org/abs/2403.18886v2
- Date: Sun, 9 Jun 2024 12:24:03 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-12 00:34:14.944128
- Title: Self-Expansion of Pre-trained Models with Mixture of Adapters for Continual Learning
- Title(参考訳): 連続学習用適応器を混合した事前学習モデルの自己拡張
- Authors: Huiyi Wang, Haodong Lu, Lina Yao, Dong Gong,
- Abstract要約: 継続学習(CL)は、学習した知識を壊滅的に忘れることなく、定常的でないデータストリームから継続的に知識を蓄積することを目的としている。
現在の PTM ベースの CL 法は,学習可能なアダプタの追加や,凍結した PTM へのプロンプトの追加によって,下流タスクへの効果的な継続的適応を行う。
PTM CL における安定性・塑性バランスの制御を強化する新しい手法である Modularized Adaptation (SEMA) を用いた事前学習モデルの自己拡張を提案する。
- 参考スコア(独自算出の注目度): 21.19820308728003
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Continual learning (CL) aims to continually accumulate knowledge from a non-stationary data stream without catastrophic forgetting of learned knowledge, requiring a balance between stability and adaptability. Relying on the generalizable representation in pre-trained models (PTMs), PTM-based CL methods perform effective continual adaptation on downstream tasks by adding learnable adapters or prompts upon the frozen PTMs. However, many existing PTM-based CL methods use restricted adaptation on a fixed set of these modules to avoid forgetting, suffering from limited CL ability. Periodically adding task-specific modules results in linear model growth rate and impaired knowledge reuse. We propose Self-Expansion of pre-trained models with Modularized Adaptation (SEMA), a novel approach to enhance the control of stability-plasticity balance in PTM-based CL. SEMA automatically decides to reuse or add adapter modules on demand in CL, depending on whether significant distribution shift that cannot be handled is detected at different representation levels. We design modular adapter consisting of a functional adapter and a representation descriptor. The representation descriptors are trained as a distribution shift indicator and used to trigger self-expansion signals. For better composing the adapters, an expandable weighting router is learned jointly for mixture of adapter outputs. SEMA enables better knowledge reuse and sub-linear expansion rate. Extensive experiments demonstrate the effectiveness of the proposed self-expansion method, achieving state-of-the-art performance compared to PTM-based CL methods without memory rehearsal.
- Abstract(参考訳): 継続学習(CL)は、学習知識を壊滅的に忘れることなく、非定常データストリームからの知識を継続的に蓄積することを目的としており、安定性と適応性のバランスを必要とする。
事前学習モデル(PTM)における一般化可能な表現に基づき、PTMベースのCL法は、学習可能なアダプタや凍結したPTMにプロンプトを追加することにより、下流タスクに効果的な連続的な適応を行う。
しかしながら、既存の PTM ベースの CL メソッドの多くは、CL 能力の制限により、これらのモジュールの固定セットへの制限適応を使用して、忘れることを避ける。
タスク固有のモジュールを定期的に追加すると、線形モデルの成長率と知識の再利用が損なわれる。
PTM CL における安定性・塑性バランスの制御を強化する新しい手法である Modularized Adaptation (SEMA) を用いた事前学習モデルの自己拡張を提案する。
SEMAは、処理できない大きな分散シフトが異なる表現レベルで検出されるかどうかに応じて、CLで必要に応じてアダプタモジュールを再利用または追加することを自動的に決定する。
機能的アダプタと表現記述子で構成されるモジュール型アダプタを設計する。
表現記述子は、分散シフトインジケータとして訓練され、自己拡張シグナルをトリガーするために使用される。
アダプタのより良い構成のために、アダプタ出力の混合のために拡張可能な重み付けルータを共同で学習する。
SEMAは、より良い知識再利用とサブ線形展開率を可能にする。
メモリリハーサルを伴わないPLMベースのCL法と比較して,提案手法の有効性を実証した。
関連論文リスト
- Dual-CBA: Improving Online Continual Learning via Dual Continual Bias Adaptors from a Bi-level Optimization Perspective [39.74441755776661]
オンライン連続学習(CL)では、分散の変化に訓練されたモデルは、新しく受け取ったタスクに対する学習した知識とバイアスを忘れやすい。
トレーニング中の破滅的な分布変化に対応するために,分類ネットワークを増強する2レベルフレームワークであるContinuous Bias Adaptor(CBA)を提示する。
本稿では,新しいタスクと古いタスクからクラスの後部確率を別々に集約し,結果として生じる後部確率に安定した調整を施した,クラスに依存しない新しいCBAモジュールを提案する。
論文 参考訳(メタデータ) (2024-08-26T03:19:52Z) - FeTT: Continual Class Incremental Learning via Feature Transformation Tuning [19.765229703131876]
継続的学習(CL)は、静的で囲われた環境から動的で複雑なシナリオまで、ディープモデルを拡張することを目的としている。
最近のCLモデルは、パラメータ効率の良い微調整戦略を持つ事前学習モデルの利用に徐々に移行している。
本稿では,すべてのタスクにまたがる非パラメトリック微調整バックボーン機能に対するFeTTモデルを提案する。
論文 参考訳(メタデータ) (2024-05-20T06:33:50Z) - Boosting Continual Learning of Vision-Language Models via Mixture-of-Experts Adapters [65.15700861265432]
本稿では,視覚言語モデルを用いた漸進的学習における長期的忘れを緩和するパラメータ効率の連続学習フレームワークを提案する。
提案手法では,Mixture-of-Experts (MoE)アダプタの統合により,事前学習したCLIPモデルの動的拡張を行う。
視覚言語モデルのゼロショット認識能力を維持するために,分布判別オートセレクタを提案する。
論文 参考訳(メタデータ) (2024-03-18T08:00:23Z) - Kalman Filter for Online Classification of Non-Stationary Data [101.26838049872651]
オンライン連続学習(OCL)では、学習システムはデータのストリームを受け取り、予測とトレーニングの手順を順次実行する。
本稿では,線形予測量に対するニューラル表現と状態空間モデルを用いた確率ベイズオンライン学習モデルを提案する。
多クラス分類の実験では、モデルの予測能力と非定常性を捉える柔軟性を示す。
論文 参考訳(メタデータ) (2023-06-14T11:41:42Z) - Revisiting Class-Incremental Learning with Pre-Trained Models: Generalizability and Adaptivity are All You Need [84.3507610522086]
クラスインクリメンタルラーニング(Class-incremental Learning, CIL)は、古いクラスを忘れずに新しいクラスに適応することを目的としている。
近年の事前訓練は大きな進歩を遂げており、CILには膨大な事前訓練モデル(PTM)が利用できるようになった。
CILの中核となる要素は、モデル更新の適応性と知識伝達の一般化性である。
論文 参考訳(メタデータ) (2023-03-13T17:59:02Z) - CLIPood: Generalizing CLIP to Out-of-Distributions [73.86353105017076]
対照的に、CLIP(Language-image Pre-training)モデルでは、印象的なゼロショット能力を示しているが、下流タスクにおけるCLIPのさらなる適応は、OODのパフォーマンスを好ましくない劣化させる。
ドメインシフトとオープンクラスの両方が見えないテストデータ上で発生する可能性があるOOD状況にCLIPモデルを適用するための微調整手法であるCLIPoodを提案する。
さまざまなOODシナリオによるさまざまなデータセットの実験は、CLIPoodが既存の一般化テクニックを一貫して上回っていることを示している。
論文 参考訳(メタデータ) (2023-02-02T04:27:54Z) - Meta-Causal Feature Learning for Out-of-Distribution Generalization [71.38239243414091]
本稿では,協調タスク生成モジュール (BTG) とメタ因果特徴学習モジュール (MCFL) を含む,バランス付きメタ因果学習器 (BMCL) を提案する。
BMCLは、分類のためのクラス不変の視覚領域を効果的に識別し、最先端の手法の性能を向上させるための一般的なフレームワークとして機能する。
論文 参考訳(メタデータ) (2022-08-22T09:07:02Z) - Momentum Pseudo-Labeling for Semi-Supervised Speech Recognition [55.362258027878966]
本稿では,半教師付き音声認識のための簡易かつ効果的な手法として,モーメント擬似ラベル(MPL)を提案する。
MPLは、平均的な教師メソッドにインスパイアされて、相互に相互作用し、学習するオンラインとオフラインの2つのモデルで構成されている。
実験の結果,MPLはベースモデルよりも効果的に改善され,様々な半教師付きシナリオに拡張可能であることが示された。
論文 参考訳(メタデータ) (2021-06-16T16:24:55Z) - Data-Driven Learning and Load Ensemble Control [1.647866856596524]
本研究の目的は、グリッドサポートサービスを提供するために、温度制御可能な負荷(TCL)など、分散された小規模のフレキシブルな負荷に取り組むことである。
このデータ駆動学習の効率性は, 住宅のテストベッド地区における暖房, 冷却, 換気ユニットのシミュレーションによって実証される。
論文 参考訳(メタデータ) (2020-04-20T23:32:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。