論文の概要: Self-Expansion of Pre-trained Models with Mixture of Adapters for Continual Learning
- arxiv url: http://arxiv.org/abs/2403.18886v1
- Date: Wed, 27 Mar 2024 17:59:21 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-29 20:13:44.262472
- Title: Self-Expansion of Pre-trained Models with Mixture of Adapters for Continual Learning
- Title(参考訳): 連続学習用適応器を混合した事前学習モデルの自己拡張
- Authors: Huiyi Wang, Haodong Lu, Lina Yao, Dong Gong,
- Abstract要約: 連続学習は、学習済みの知識を最小限に抑えて、継続的に到着するデータのストリームから学習することを目的としている。
モジュール化適応(SEMA)を用いた事前学習モデルの自己拡張を提案する。
SEMAは継続的学習において、必要に応じてアダプタモジュールを再利用または追加することを決定する。
- 参考スコア(独自算出の注目度): 21.19820308728003
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Continual learning aims to learn from a stream of continuously arriving data with minimum forgetting of previously learned knowledge. While previous works have explored the effectiveness of leveraging the generalizable knowledge from pre-trained models in continual learning, existing parameter-efficient fine-tuning approaches focus on the use of a predetermined or task-wise set of adapters or prompts. However, these approaches still suffer from forgetting due to task interference on jointly used parameters or restricted flexibility. The reliance on a static model architecture may lead to the allocation of excessive parameters that are not essential or, conversely, inadequate adaptation for downstream tasks, given that the scale and distribution of incoming data are unpredictable in continual learning. We propose Self-Expansion of pre-trained models with Modularized Adaptation (SEMA), a novel fine-tuning approach which automatically decides to reuse or add adapter modules on demand in continual learning, depending on whether drastic distribution shift that could not be handled by existing modules is detected at different representation levels. We design each adapter module to consist of an adapter and a representation descriptor, specifically, implemented as an autoencoder. The representation descriptor functions as a distributional shift indicator during training and triggers adapter expansion. For better usage of the adapters, an expandable weighting router is learned jointly for mixture of adapter outputs. By comparing with vision-transformer-based continual learning adaptation methods, we demonstrate that the proposed framework outperforms the state-of-the-art without memory rehearsal.
- Abstract(参考訳): 連続学習は、学習済みの知識を最小限に抑えて、継続的に到着するデータのストリームから学習することを目的としている。
従来の研究は、継続学習において事前学習されたモデルから一般化可能な知識を活用する効果を探求してきたが、既存のパラメータ効率の高い微調整アプローチは、所定のあるいはタスクワイドなアダプタやプロンプトの使用に焦点を当てている。
しかしながら、これらのアプローチは、共同で使用されるパラメータや制限された柔軟性に対するタスクの干渉によって、依然として忘れられがちである。
静的モデルアーキテクチャへの依存は、連続的な学習において入力データのスケールと分布が予測できないことを考えると、必須でない、あるいは逆に下流タスクへの適応が不十分な過剰なパラメータの割り当てにつながる可能性がある。
本稿では,既存のモジュールで処理できない急激な分散シフトが,表現レベルによって検出されるかどうかに応じて,継続的な学習において,アダプタモジュールの再利用や追加を自動的に決定する,新しい微調整手法であるSEMA(Modularized Adaptation)による事前学習モデルの自己拡張を提案する。
我々は,アダプタと表現記述子,具体的にはオートエンコーダとして実装された各アダプタモジュールを設計する。
表現記述子は、トレーニング中に分散シフトインジケータとして機能し、アダプタ拡張をトリガーする。
アダプタをよりよく使用するために、拡張可能な重み付けルータをアダプタ出力の混合のために共同で学習する。
視覚変換器をベースとした連続学習適応手法と比較することにより,提案手法がメモリリハーサルを伴わない最先端技術よりも優れていることを示す。
関連論文リスト
- AdaPTS: Adapting Univariate Foundation Models to Probabilistic Multivariate Time Series Forecasting [10.899510048905926]
本稿では,機能間の複雑な依存関係を管理し,予測の不確実性を定量化するアダプタを提案する。
合成データセットと実世界のデータセットの両方で実施された実験により、アダプタの有効性が確認された。
私たちのフレームワークであるAdaPTSは、アダプタをモジュール的でスケーラブルで効果的なソリューションとして位置づけています。
論文 参考訳(メタデータ) (2025-02-14T15:46:19Z) - Continuous Knowledge-Preserving Decomposition for Few-Shot Continual Learning [89.11481059492608]
FSCIL(Few-shot class-incremental Learning)は、事前知識を維持しながら、限られたデータから新しいクラスを学習する。
モデルの重みを2つの部分に分解するフレームワークである FSCIL (CKPD-FSCIL) の連続的知識保存分解を提案する。
複数のベンチマークで実験したところ、CKPD-FSCILは最先端の手法よりも優れていた。
論文 参考訳(メタデータ) (2025-01-09T07:18:48Z) - Enhancing Online Continual Learning with Plug-and-Play State Space Model and Class-Conditional Mixture of Discretization [72.81319836138347]
オンライン連続学習(OCL)は、以前に学習したタスクの知識を保持しながら、一度だけ現れるデータストリームから新しいタスクを学習することを目指している。
既存の方法の多くはリプレイに依存しており、正規化や蒸留によるメモリ保持の強化に重点を置いている。
既存のほとんどのメソッドに組み込むことができ、適応性を直接改善できるプラグイン・アンド・プレイモジュールであるS6MODを導入する。
論文 参考訳(メタデータ) (2024-12-24T05:25:21Z) - FeTT: Continual Class Incremental Learning via Feature Transformation Tuning [19.765229703131876]
継続的学習(CL)は、静的で囲われた環境から動的で複雑なシナリオまで、ディープモデルを拡張することを目的としている。
最近のCLモデルは、パラメータ効率の良い微調整戦略を持つ事前学習モデルの利用に徐々に移行している。
本稿では,すべてのタスクにまたがる非パラメトリック微調整バックボーン機能に対するFeTTモデルを提案する。
論文 参考訳(メタデータ) (2024-05-20T06:33:50Z) - Boosting Continual Learning of Vision-Language Models via Mixture-of-Experts Adapters [65.15700861265432]
本稿では,視覚言語モデルを用いた漸進的学習における長期的忘れを緩和するパラメータ効率の連続学習フレームワークを提案する。
提案手法では,Mixture-of-Experts (MoE)アダプタの統合により,事前学習したCLIPモデルの動的拡張を行う。
視覚言語モデルのゼロショット認識能力を維持するために,分布判別オートセレクタを提案する。
論文 参考訳(メタデータ) (2024-03-18T08:00:23Z) - Revisiting Class-Incremental Learning with Pre-Trained Models: Generalizability and Adaptivity are All You Need [84.3507610522086]
クラスインクリメンタルラーニング(Class-incremental Learning, CIL)は、古いクラスを忘れずに新しいクラスに適応することを目的としている。
近年の事前訓練は大きな進歩を遂げており、CILには膨大な事前訓練モデル(PTM)が利用できるようになった。
CILの中核となる要素は、モデル更新の適応性と知識伝達の一般化性である。
論文 参考訳(メタデータ) (2023-03-13T17:59:02Z) - CLIPood: Generalizing CLIP to Out-of-Distributions [73.86353105017076]
対照的に、CLIP(Language-image Pre-training)モデルでは、印象的なゼロショット能力を示しているが、下流タスクにおけるCLIPのさらなる適応は、OODのパフォーマンスを好ましくない劣化させる。
ドメインシフトとオープンクラスの両方が見えないテストデータ上で発生する可能性があるOOD状況にCLIPモデルを適用するための微調整手法であるCLIPoodを提案する。
さまざまなOODシナリオによるさまざまなデータセットの実験は、CLIPoodが既存の一般化テクニックを一貫して上回っていることを示している。
論文 参考訳(メタデータ) (2023-02-02T04:27:54Z) - Momentum Pseudo-Labeling for Semi-Supervised Speech Recognition [55.362258027878966]
本稿では,半教師付き音声認識のための簡易かつ効果的な手法として,モーメント擬似ラベル(MPL)を提案する。
MPLは、平均的な教師メソッドにインスパイアされて、相互に相互作用し、学習するオンラインとオフラインの2つのモデルで構成されている。
実験の結果,MPLはベースモデルよりも効果的に改善され,様々な半教師付きシナリオに拡張可能であることが示された。
論文 参考訳(メタデータ) (2021-06-16T16:24:55Z) - Data-Driven Learning and Load Ensemble Control [1.647866856596524]
本研究の目的は、グリッドサポートサービスを提供するために、温度制御可能な負荷(TCL)など、分散された小規模のフレキシブルな負荷に取り組むことである。
このデータ駆動学習の効率性は, 住宅のテストベッド地区における暖房, 冷却, 換気ユニットのシミュレーションによって実証される。
論文 参考訳(メタデータ) (2020-04-20T23:32:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。