論文の概要: Self-Expansion of Pre-trained Models with Mixture of Adapters for Continual Learning
- arxiv url: http://arxiv.org/abs/2403.18886v1
- Date: Wed, 27 Mar 2024 17:59:21 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-29 20:13:44.262472
- Title: Self-Expansion of Pre-trained Models with Mixture of Adapters for Continual Learning
- Title(参考訳): 連続学習用適応器を混合した事前学習モデルの自己拡張
- Authors: Huiyi Wang, Haodong Lu, Lina Yao, Dong Gong,
- Abstract要約: 連続学習は、学習済みの知識を最小限に抑えて、継続的に到着するデータのストリームから学習することを目的としている。
モジュール化適応(SEMA)を用いた事前学習モデルの自己拡張を提案する。
SEMAは継続的学習において、必要に応じてアダプタモジュールを再利用または追加することを決定する。
- 参考スコア(独自算出の注目度): 21.19820308728003
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Continual learning aims to learn from a stream of continuously arriving data with minimum forgetting of previously learned knowledge. While previous works have explored the effectiveness of leveraging the generalizable knowledge from pre-trained models in continual learning, existing parameter-efficient fine-tuning approaches focus on the use of a predetermined or task-wise set of adapters or prompts. However, these approaches still suffer from forgetting due to task interference on jointly used parameters or restricted flexibility. The reliance on a static model architecture may lead to the allocation of excessive parameters that are not essential or, conversely, inadequate adaptation for downstream tasks, given that the scale and distribution of incoming data are unpredictable in continual learning. We propose Self-Expansion of pre-trained models with Modularized Adaptation (SEMA), a novel fine-tuning approach which automatically decides to reuse or add adapter modules on demand in continual learning, depending on whether drastic distribution shift that could not be handled by existing modules is detected at different representation levels. We design each adapter module to consist of an adapter and a representation descriptor, specifically, implemented as an autoencoder. The representation descriptor functions as a distributional shift indicator during training and triggers adapter expansion. For better usage of the adapters, an expandable weighting router is learned jointly for mixture of adapter outputs. By comparing with vision-transformer-based continual learning adaptation methods, we demonstrate that the proposed framework outperforms the state-of-the-art without memory rehearsal.
- Abstract(参考訳): 連続学習は、学習済みの知識を最小限に抑えて、継続的に到着するデータのストリームから学習することを目的としている。
従来の研究は、継続学習において事前学習されたモデルから一般化可能な知識を活用する効果を探求してきたが、既存のパラメータ効率の高い微調整アプローチは、所定のあるいはタスクワイドなアダプタやプロンプトの使用に焦点を当てている。
しかしながら、これらのアプローチは、共同で使用されるパラメータや制限された柔軟性に対するタスクの干渉によって、依然として忘れられがちである。
静的モデルアーキテクチャへの依存は、連続的な学習において入力データのスケールと分布が予測できないことを考えると、必須でない、あるいは逆に下流タスクへの適応が不十分な過剰なパラメータの割り当てにつながる可能性がある。
本稿では,既存のモジュールで処理できない急激な分散シフトが,表現レベルによって検出されるかどうかに応じて,継続的な学習において,アダプタモジュールの再利用や追加を自動的に決定する,新しい微調整手法であるSEMA(Modularized Adaptation)による事前学習モデルの自己拡張を提案する。
我々は,アダプタと表現記述子,具体的にはオートエンコーダとして実装された各アダプタモジュールを設計する。
表現記述子は、トレーニング中に分散シフトインジケータとして機能し、アダプタ拡張をトリガーする。
アダプタをよりよく使用するために、拡張可能な重み付けルータをアダプタ出力の混合のために共同で学習する。
視覚変換器をベースとした連続学習適応手法と比較することにより,提案手法がメモリリハーサルを伴わない最先端技術よりも優れていることを示す。
関連論文リスト
- MergeNet: Knowledge Migration across Heterogeneous Models, Tasks, and Modalities [75.81899968485203]
異種モデルのパラメータ空間のギャップを埋めることを学ぶMergeNetを提案する。
MergeNetの中核となるメカニズムはパラメータアダプタにあり、ソースモデルの低ランクパラメータをクエリすることで動作する。
MergeNetは両方のモデルと共に学習され、我々のフレームワークは、現在のステージに関する知識を動的に転送し、適応することができます。
論文 参考訳(メタデータ) (2024-04-20T08:34:39Z) - Boosting Continual Learning of Vision-Language Models via Mixture-of-Experts Adapters [57.03374531297098]
本稿では,視覚言語モデルを用いた漸進的学習における長期的忘れを緩和するパラメータ効率の連続学習フレームワークを提案する。
提案手法では,Mixture-of-Experts (MoE)アダプタの統合により,事前学習したCLIPモデルの動的拡張を行う。
視覚言語モデルのゼロショット認識能力を維持するために,分布判別オートセレクタを提案する。
論文 参考訳(メタデータ) (2024-03-18T08:00:23Z) - Class Incremental Learning with Pre-trained Vision-Language Models [59.15538370859431]
本稿では、事前学習された視覚言語モデル(例えば、CLIP)を利用して、さらなる適応を可能にするアプローチを提案する。
いくつかの従来のベンチマークの実験は、常に現在の最先端よりも顕著な改善のマージンを示している。
論文 参考訳(メタデータ) (2023-10-31T10:45:03Z) - Adapter-based Selective Knowledge Distillation for Federated
Multi-domain Meeting Summarization [36.916155654985936]
会議要約は、利用者に凝縮した要約を提供するための有望な手法として登場した。
本稿では,適応型選択的知識蒸留法(AdaFedSelecKD)を提案する。
論文 参考訳(メタデータ) (2023-08-07T03:34:01Z) - Complementary Learning Subnetworks for Parameter-Efficient
Class-Incremental Learning [40.13416912075668]
本稿では,2つの補完学習サブネットワークス間のシナジーを通じて連続的に学習するリハーサルフリーなCILアプローチを提案する。
提案手法は, 精度向上, メモリコスト, トレーニング効率, タスク順序など, 最先端手法と競合する結果が得られる。
論文 参考訳(メタデータ) (2023-06-21T01:43:25Z) - Adaptive Parameterization of Deep Learning Models for Federated Learning [85.82002651944254]
Federated Learningは、分散形式でディープニューラルネットワークをトレーニングする方法を提供する。
トレーニング中にモデルパラメータや勾配を定期的に交換する必要があるため、通信オーバーヘッドが発生する。
本稿では,フェデレートラーニングのための並列適応器を提案する。
論文 参考訳(メタデータ) (2023-02-06T17:30:33Z) - Effective Adaptation in Multi-Task Co-Training for Unified Autonomous
Driving [103.745551954983]
本稿では,3つの下流タスクにおけるMoCoやSimCLRなど,多種多様な自己監督手法の転送性能について検討する。
彼らのパフォーマンスは、サブ最適か、あるいはシングルタスクベースラインよりもはるかに遅れていることに気付きました。
汎用マルチタスクトレーニングのための,単純かつ効果的な事前訓練-適応-ファインチューンパラダイムを提案する。
論文 参考訳(メタデータ) (2022-09-19T12:15:31Z) - Learning Instance-Specific Augmentations by Capturing Local Invariances [62.70897571389785]
InstaAugは、データから入力固有の拡張を自動的に学習する方法である。
InstaAugは、幅広い変換クラスに対して意味のある入力依存の強化を学ぶことを実証的に示す。
論文 参考訳(メタデータ) (2022-05-31T18:38:06Z) - Meta Feature Modulator for Long-tailed Recognition [37.90990378643794]
本稿では,長期訓練データとバランスの取れたメタデータの違いを表現学習の観点からモデル化するメタラーニングフレームワークを提案する。
さらに、変調パラメータの生成を誘導するモジュレータネットワークを設計し、そのようなメタラーナは、他の長い尾を持つデータセットの分類ネットワークのトレーニングに容易に適応することができる。
論文 参考訳(メタデータ) (2020-08-08T03:19:03Z) - From Learning to Meta-Learning: Reduced Training Overhead and Complexity
for Communication Systems [40.427909614453526]
機械学習手法は、データやアクティブな観察に基づいて、一定の学習手順を用いて、与えられたモデルクラスに置かれるように制約されたモデルのパラメータを適応する。
メタトレーニングによる帰納バイアスでは、トレーニングデータと/または時間の複雑さを減らして、マシンラーニングモデルのトレーニングを実行することができる。
本稿では,メタラーニングの高度導入と通信システムへの応用について述べる。
論文 参考訳(メタデータ) (2020-01-05T12:54:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。