Fugu-MT 論文翻訳(概要): Self-Expansion of Pre-trained Models with Mixture of Adapters for Continual Learning

論文の概要: Self-Expansion of Pre-trained Models with Mixture of Adapters for Continual Learning

arxiv url: http://arxiv.org/abs/2403.18886v1
Date: Wed, 27 Mar 2024 17:59:21 GMT
ステータス: 翻訳完了
システム内更新日: 2024-03-29 20:13:44.262472
Title: Self-Expansion of Pre-trained Models with Mixture of Adapters for Continual Learning
Title（参考訳）: 連続学習用適応器を混合した事前学習モデルの自己拡張
Authors: Huiyi Wang, Haodong Lu, Lina Yao, Dong Gong,
Abstract要約: 連続学習は、学習済みの知識を最小限に抑えて、継続的に到着するデータのストリームから学習することを目的としている。モジュール化適応(SEMA)を用いた事前学習モデルの自己拡張を提案する。 SEMAは継続的学習において、必要に応じてアダプタモジュールを再利用または追加することを決定する。
参考スコア（独自算出の注目度）: 21.19820308728003
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Continual learning aims to learn from a stream of continuously arriving data with minimum forgetting of previously learned knowledge. While previous works have explored the effectiveness of leveraging the generalizable knowledge from pre-trained models in continual learning, existing parameter-efficient fine-tuning approaches focus on the use of a predetermined or task-wise set of adapters or prompts. However, these approaches still suffer from forgetting due to task interference on jointly used parameters or restricted flexibility. The reliance on a static model architecture may lead to the allocation of excessive parameters that are not essential or, conversely, inadequate adaptation for downstream tasks, given that the scale and distribution of incoming data are unpredictable in continual learning. We propose Self-Expansion of pre-trained models with Modularized Adaptation (SEMA), a novel fine-tuning approach which automatically decides to reuse or add adapter modules on demand in continual learning, depending on whether drastic distribution shift that could not be handled by existing modules is detected at different representation levels. We design each adapter module to consist of an adapter and a representation descriptor, specifically, implemented as an autoencoder. The representation descriptor functions as a distributional shift indicator during training and triggers adapter expansion. For better usage of the adapters, an expandable weighting router is learned jointly for mixture of adapter outputs. By comparing with vision-transformer-based continual learning adaptation methods, we demonstrate that the proposed framework outperforms the state-of-the-art without memory rehearsal.
Abstract（参考訳）: 連続学習は、学習済みの知識を最小限に抑えて、継続的に到着するデータのストリームから学習することを目的としている。従来の研究は、継続学習において事前学習されたモデルから一般化可能な知識を活用する効果を探求してきたが、既存のパラメータ効率の高い微調整アプローチは、所定のあるいはタスクワイドなアダプタやプロンプトの使用に焦点を当てている。しかしながら、これらのアプローチは、共同で使用されるパラメータや制限された柔軟性に対するタスクの干渉によって、依然として忘れられがちである。静的モデルアーキテクチャへの依存は、連続的な学習において入力データのスケールと分布が予測できないことを考えると、必須でない、あるいは逆に下流タスクへの適応が不十分な過剰なパラメータの割り当てにつながる可能性がある。本稿では,既存のモジュールで処理できない急激な分散シフトが,表現レベルによって検出されるかどうかに応じて,継続的な学習において,アダプタモジュールの再利用や追加を自動的に決定する,新しい微調整手法であるSEMA(Modularized Adaptation)による事前学習モデルの自己拡張を提案する。我々は,アダプタと表現記述子,具体的にはオートエンコーダとして実装された各アダプタモジュールを設計する。表現記述子は、トレーニング中に分散シフトインジケータとして機能し、アダプタ拡張をトリガーする。アダプタをよりよく使用するために、拡張可能な重み付けルータをアダプタ出力の混合のために共同で学習する。視覚変換器をベースとした連続学習適応手法と比較することにより,提案手法がメモリリハーサルを伴わない最先端技術よりも優れていることを示す。

関連論文リスト

EKPC: Elastic Knowledge Preservation and Compensation for Class-Incremental Learning [53.88000987041739]
クラスインクリメンタルラーニング(Class-Incremental Learning, CIL)は、AIモデルを、時間とともに異なるクラスのシーケンシャルに到着したデータから継続的に学習可能にすることを目的としている。本稿では, 重要度を考慮した重要度正規化 (IPR) と CIL のためのトレーニング可能なセマンティックドリフト補償 (TSDC) を統合したElastic Knowledge Preservation and Compensation (EKPC) 法を提案する。
論文参考訳（メタデータ） (2025-06-14T05:19:58Z)
Adapt before Continual Learning [9.477667054965782]
コアCLプロセス(ACL)の前にPTMを適応させることは、新しいタスクを学習する前にプラグアンドプレイ適応フェーズを導入する新しいフレームワークである。 ACLはベンチマークと統合メソッド間でCL性能を大幅に改善する。
論文参考訳（メタデータ） (2025-06-04T13:46:33Z)
CL-LoRA: Continual Low-Rank Adaptation for Rehearsal-Free Class-Incremental Learning [8.81873424028249]
CIL (Class-Incremental Learning) は、学習した授業の知識を維持しつつ、新しいクラスを逐次学習することを目的としている。我々は,textbftask-sharedアダプタを併用して,クロスタスク知識とtextbftask-specific Adapter を学習し,各タスクのユニークな特徴を捉えた新しいデュアルアダプタアーキテクチャを提案する。 CL-LoRAは、トレーニングと推論の計算を減らし、複数のベンチマークで常に有望な性能を達成することを実証する。
論文参考訳（メタデータ） (2025-05-30T17:19:52Z)
Continuous Knowledge-Preserving Decomposition for Few-Shot Continual Learning [80.31842748505895]
FSCIL(Few-shot class-incremental Learning)は、事前知識を維持しながら、限られたデータから新しいクラスを学習する。モデルの重みを2つの部分に分解するフレームワークである FSCIL (CKPD-FSCIL) の連続的知識保存分解を提案する。複数のベンチマークで実験したところ、CKPD-FSCILは最先端の手法よりも優れていた。
論文参考訳（メタデータ） (2025-01-09T07:18:48Z)
Enhancing Online Continual Learning with Plug-and-Play State Space Model and Class-Conditional Mixture of Discretization [72.81319836138347]
オンライン連続学習(OCL)は、以前に学習したタスクの知識を保持しながら、一度だけ現れるデータストリームから新しいタスクを学習することを目指している。既存の方法の多くはリプレイに依存しており、正規化や蒸留によるメモリ保持の強化に重点を置いている。既存のほとんどのメソッドに組み込むことができ、適応性を直接改善できるプラグイン・アンド・プレイモジュールであるS6MODを導入する。
論文参考訳（メタデータ） (2024-12-24T05:25:21Z)
Adaptive Rank, Reduced Forgetting: Knowledge Retention in Continual Learning Vision-Language Models with Dynamic Rank-Selective LoRA [19.982853959240497]
継続学習(CL)において、視覚言語モデル(VLM)の事前学習知識が維持可能か、あるいは強化可能かを検討する。動的ランク選択ロラ(CoDyRA)に基づくVLMの普遍的かつ効率的な連続学習手法を提案する。
論文参考訳（メタデータ） (2024-12-01T23:41:42Z)
Learning Mamba as a Continual Learner: Meta-learning Selective State Space Models for Efficient Continual Learning [12.697915176594314]
継続学習(CL)は、すべてのサンプルを保存または再計算することなく、非定常データストリームから効率的に学習することを目的としている。過去の表現を全て残さずに、メタラーニングシーケンスに基づく連続学習者に焦点を当てた。 Mambaの強いシーケンスモデリング性能と注意のない性質を考慮し、重要な疑問を探る: Mambaのような注意のないモデルは、メタ大陸学習でうまく機能するのか?
論文参考訳（メタデータ） (2024-12-01T11:43:46Z)
Dual-CBA: Improving Online Continual Learning via Dual Continual Bias Adaptors from a Bi-level Optimization Perspective [39.74441755776661]
オンライン連続学習(CL)では、分散の変化に訓練されたモデルは、新しく受け取ったタスクに対する学習した知識とバイアスを忘れやすい。トレーニング中の破滅的な分布変化に対応するために,分類ネットワークを増強する2レベルフレームワークであるContinuous Bias Adaptor(CBA)を提示する。本稿では,新しいタスクと古いタスクからクラスの後部確率を別々に集約し,結果として生じる後部確率に安定した調整を施した,クラスに依存しない新しいCBAモジュールを提案する。
論文参考訳（メタデータ） (2024-08-26T03:19:52Z)
FeTT: Continual Class Incremental Learning via Feature Transformation Tuning [19.765229703131876]
継続的学習(CL)は、静的で囲われた環境から動的で複雑なシナリオまで、ディープモデルを拡張することを目的としている。最近のCLモデルは、パラメータ効率の良い微調整戦略を持つ事前学習モデルの利用に徐々に移行している。本稿では,すべてのタスクにまたがる非パラメトリック微調整バックボーン機能に対するFeTTモデルを提案する。
論文参考訳（メタデータ） (2024-05-20T06:33:50Z)
Boosting Continual Learning of Vision-Language Models via Mixture-of-Experts Adapters [65.15700861265432]
本稿では,視覚言語モデルを用いた漸進的学習における長期的忘れを緩和するパラメータ効率の連続学習フレームワークを提案する。提案手法では,Mixture-of-Experts (MoE)アダプタの統合により,事前学習したCLIPモデルの動的拡張を行う。視覚言語モデルのゼロショット認識能力を維持するために,分布判別オートセレクタを提案する。
論文参考訳（メタデータ） (2024-03-18T08:00:23Z)
Kalman Filter for Online Classification of Non-Stationary Data [101.26838049872651]
オンライン連続学習(OCL)では、学習システムはデータのストリームを受け取り、予測とトレーニングの手順を順次実行する。本稿では,線形予測量に対するニューラル表現と状態空間モデルを用いた確率ベイズオンライン学習モデルを提案する。多クラス分類の実験では、モデルの予測能力と非定常性を捉える柔軟性を示す。
論文参考訳（メタデータ） (2023-06-14T11:41:42Z)
Revisiting Class-Incremental Learning with Pre-Trained Models: Generalizability and Adaptivity are All You Need [84.3507610522086]
クラスインクリメンタルラーニング(Class-incremental Learning, CIL)は、古いクラスを忘れずに新しいクラスに適応することを目的としている。近年の事前訓練は大きな進歩を遂げており、CILには膨大な事前訓練モデル(PTM)が利用できるようになった。 CILの中核となる要素は、モデル更新の適応性と知識伝達の一般化性である。
論文参考訳（メタデータ） (2023-03-13T17:59:02Z)
CLIPood: Generalizing CLIP to Out-of-Distributions [73.86353105017076]
対照的に、CLIP(Language-image Pre-training)モデルでは、印象的なゼロショット能力を示しているが、下流タスクにおけるCLIPのさらなる適応は、OODのパフォーマンスを好ましくない劣化させる。ドメインシフトとオープンクラスの両方が見えないテストデータ上で発生する可能性があるOOD状況にCLIPモデルを適用するための微調整手法であるCLIPoodを提案する。さまざまなOODシナリオによるさまざまなデータセットの実験は、CLIPoodが既存の一般化テクニックを一貫して上回っていることを示している。
論文参考訳（メタデータ） (2023-02-02T04:27:54Z)
Meta-Causal Feature Learning for Out-of-Distribution Generalization [71.38239243414091]
本稿では,協調タスク生成モジュール (BTG) とメタ因果特徴学習モジュール (MCFL) を含む,バランス付きメタ因果学習器 (BMCL) を提案する。 BMCLは、分類のためのクラス不変の視覚領域を効果的に識別し、最先端の手法の性能を向上させるための一般的なフレームワークとして機能する。
論文参考訳（メタデータ） (2022-08-22T09:07:02Z)
Momentum Pseudo-Labeling for Semi-Supervised Speech Recognition [55.362258027878966]
本稿では,半教師付き音声認識のための簡易かつ効果的な手法として,モーメント擬似ラベル(MPL)を提案する。 MPLは、平均的な教師メソッドにインスパイアされて、相互に相互作用し、学習するオンラインとオフラインの2つのモデルで構成されている。実験の結果,MPLはベースモデルよりも効果的に改善され,様々な半教師付きシナリオに拡張可能であることが示された。
論文参考訳（メタデータ） (2021-06-16T16:24:55Z)
Data-Driven Learning and Load Ensemble Control [1.647866856596524]
本研究の目的は、グリッドサポートサービスを提供するために、温度制御可能な負荷(TCL)など、分散された小規模のフレキシブルな負荷に取り組むことである。このデータ駆動学習の効率性は, 住宅のテストベッド地区における暖房, 冷却, 換気ユニットのシミュレーションによって実証される。
論文参考訳（メタデータ） (2020-04-20T23:32:10Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。