Fugu-MT 論文翻訳(概要): Self-Expansion of Pre-trained Models with Mixture of Adapters for Continual Learning

論文の概要: Self-Expansion of Pre-trained Models with Mixture of Adapters for Continual Learning

arxiv url: http://arxiv.org/abs/2403.18886v2
Date: Sun, 9 Jun 2024 12:24:03 GMT
ステータス: 翻訳完了
システム内更新日: 2024-06-12 00:34:14.944128
Title: Self-Expansion of Pre-trained Models with Mixture of Adapters for Continual Learning
Title（参考訳）: 連続学習用適応器を混合した事前学習モデルの自己拡張
Authors: Huiyi Wang, Haodong Lu, Lina Yao, Dong Gong,
Abstract要約: 継続学習(CL)は、学習した知識を壊滅的に忘れることなく、定常的でないデータストリームから継続的に知識を蓄積することを目的としている。現在の PTM ベースの CL 法は,学習可能なアダプタの追加や,凍結した PTM へのプロンプトの追加によって,下流タスクへの効果的な継続的適応を行う。 PTM CL における安定性・塑性バランスの制御を強化する新しい手法である Modularized Adaptation (SEMA) を用いた事前学習モデルの自己拡張を提案する。
参考スコア（独自算出の注目度）: 21.19820308728003
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Continual learning (CL) aims to continually accumulate knowledge from a non-stationary data stream without catastrophic forgetting of learned knowledge, requiring a balance between stability and adaptability. Relying on the generalizable representation in pre-trained models (PTMs), PTM-based CL methods perform effective continual adaptation on downstream tasks by adding learnable adapters or prompts upon the frozen PTMs. However, many existing PTM-based CL methods use restricted adaptation on a fixed set of these modules to avoid forgetting, suffering from limited CL ability. Periodically adding task-specific modules results in linear model growth rate and impaired knowledge reuse. We propose Self-Expansion of pre-trained models with Modularized Adaptation (SEMA), a novel approach to enhance the control of stability-plasticity balance in PTM-based CL. SEMA automatically decides to reuse or add adapter modules on demand in CL, depending on whether significant distribution shift that cannot be handled is detected at different representation levels. We design modular adapter consisting of a functional adapter and a representation descriptor. The representation descriptors are trained as a distribution shift indicator and used to trigger self-expansion signals. For better composing the adapters, an expandable weighting router is learned jointly for mixture of adapter outputs. SEMA enables better knowledge reuse and sub-linear expansion rate. Extensive experiments demonstrate the effectiveness of the proposed self-expansion method, achieving state-of-the-art performance compared to PTM-based CL methods without memory rehearsal.
Abstract（参考訳）: 継続学習(CL)は、学習知識を壊滅的に忘れることなく、非定常データストリームからの知識を継続的に蓄積することを目的としており、安定性と適応性のバランスを必要とする。事前学習モデル(PTM)における一般化可能な表現に基づき、PTMベースのCL法は、学習可能なアダプタや凍結したPTMにプロンプトを追加することにより、下流タスクに効果的な連続的な適応を行う。しかしながら、既存の PTM ベースの CL メソッドの多くは、CL 能力の制限により、これらのモジュールの固定セットへの制限適応を使用して、忘れることを避ける。タスク固有のモジュールを定期的に追加すると、線形モデルの成長率と知識の再利用が損なわれる。 PTM CL における安定性・塑性バランスの制御を強化する新しい手法である Modularized Adaptation (SEMA) を用いた事前学習モデルの自己拡張を提案する。 SEMAは、処理できない大きな分散シフトが異なる表現レベルで検出されるかどうかに応じて、CLで必要に応じてアダプタモジュールを再利用または追加することを自動的に決定する。機能的アダプタと表現記述子で構成されるモジュール型アダプタを設計する。表現記述子は、分散シフトインジケータとして訓練され、自己拡張シグナルをトリガーするために使用される。アダプタのより良い構成のために、アダプタ出力の混合のために拡張可能な重み付けルータを共同で学習する。 SEMAは、より良い知識再利用とサブ線形展開率を可能にする。メモリリハーサルを伴わないPLMベースのCL法と比較して,提案手法の有効性を実証した。

関連論文リスト

EKPC: Elastic Knowledge Preservation and Compensation for Class-Incremental Learning [53.88000987041739]
クラスインクリメンタルラーニング(Class-Incremental Learning, CIL)は、AIモデルを、時間とともに異なるクラスのシーケンシャルに到着したデータから継続的に学習可能にすることを目的としている。本稿では, 重要度を考慮した重要度正規化 (IPR) と CIL のためのトレーニング可能なセマンティックドリフト補償 (TSDC) を統合したElastic Knowledge Preservation and Compensation (EKPC) 法を提案する。
論文参考訳（メタデータ） (2025-06-14T05:19:58Z)
Adapt before Continual Learning [9.477667054965782]
コアCLプロセス(ACL)の前にPTMを適応させることは、新しいタスクを学習する前にプラグアンドプレイ適応フェーズを導入する新しいフレームワークである。 ACLはベンチマークと統合メソッド間でCL性能を大幅に改善する。
論文参考訳（メタデータ） (2025-06-04T13:46:33Z)
CL-LoRA: Continual Low-Rank Adaptation for Rehearsal-Free Class-Incremental Learning [8.81873424028249]
CIL (Class-Incremental Learning) は、学習した授業の知識を維持しつつ、新しいクラスを逐次学習することを目的としている。我々は,textbftask-sharedアダプタを併用して,クロスタスク知識とtextbftask-specific Adapter を学習し,各タスクのユニークな特徴を捉えた新しいデュアルアダプタアーキテクチャを提案する。 CL-LoRAは、トレーニングと推論の計算を減らし、複数のベンチマークで常に有望な性能を達成することを実証する。
論文参考訳（メタデータ） (2025-05-30T17:19:52Z)
Continuous Knowledge-Preserving Decomposition for Few-Shot Continual Learning [80.31842748505895]
FSCIL(Few-shot class-incremental Learning)は、事前知識を維持しながら、限られたデータから新しいクラスを学習する。モデルの重みを2つの部分に分解するフレームワークである FSCIL (CKPD-FSCIL) の連続的知識保存分解を提案する。複数のベンチマークで実験したところ、CKPD-FSCILは最先端の手法よりも優れていた。
論文参考訳（メタデータ） (2025-01-09T07:18:48Z)
Enhancing Online Continual Learning with Plug-and-Play State Space Model and Class-Conditional Mixture of Discretization [72.81319836138347]
オンライン連続学習(OCL)は、以前に学習したタスクの知識を保持しながら、一度だけ現れるデータストリームから新しいタスクを学習することを目指している。既存の方法の多くはリプレイに依存しており、正規化や蒸留によるメモリ保持の強化に重点を置いている。既存のほとんどのメソッドに組み込むことができ、適応性を直接改善できるプラグイン・アンド・プレイモジュールであるS6MODを導入する。
論文参考訳（メタデータ） (2024-12-24T05:25:21Z)
Adaptive Rank, Reduced Forgetting: Knowledge Retention in Continual Learning Vision-Language Models with Dynamic Rank-Selective LoRA [19.982853959240497]
継続学習(CL)において、視覚言語モデル(VLM)の事前学習知識が維持可能か、あるいは強化可能かを検討する。動的ランク選択ロラ(CoDyRA)に基づくVLMの普遍的かつ効率的な連続学習手法を提案する。
論文参考訳（メタデータ） (2024-12-01T23:41:42Z)
Learning Mamba as a Continual Learner: Meta-learning Selective State Space Models for Efficient Continual Learning [12.697915176594314]
継続学習(CL)は、すべてのサンプルを保存または再計算することなく、非定常データストリームから効率的に学習することを目的としている。過去の表現を全て残さずに、メタラーニングシーケンスに基づく連続学習者に焦点を当てた。 Mambaの強いシーケンスモデリング性能と注意のない性質を考慮し、重要な疑問を探る: Mambaのような注意のないモデルは、メタ大陸学習でうまく機能するのか?
論文参考訳（メタデータ） (2024-12-01T11:43:46Z)
Dual-CBA: Improving Online Continual Learning via Dual Continual Bias Adaptors from a Bi-level Optimization Perspective [39.74441755776661]
オンライン連続学習(CL)では、分散の変化に訓練されたモデルは、新しく受け取ったタスクに対する学習した知識とバイアスを忘れやすい。トレーニング中の破滅的な分布変化に対応するために,分類ネットワークを増強する2レベルフレームワークであるContinuous Bias Adaptor(CBA)を提示する。本稿では,新しいタスクと古いタスクからクラスの後部確率を別々に集約し,結果として生じる後部確率に安定した調整を施した,クラスに依存しない新しいCBAモジュールを提案する。
論文参考訳（メタデータ） (2024-08-26T03:19:52Z)
FeTT: Continual Class Incremental Learning via Feature Transformation Tuning [19.765229703131876]
継続的学習(CL)は、静的で囲われた環境から動的で複雑なシナリオまで、ディープモデルを拡張することを目的としている。最近のCLモデルは、パラメータ効率の良い微調整戦略を持つ事前学習モデルの利用に徐々に移行している。本稿では,すべてのタスクにまたがる非パラメトリック微調整バックボーン機能に対するFeTTモデルを提案する。
論文参考訳（メタデータ） (2024-05-20T06:33:50Z)
Boosting Continual Learning of Vision-Language Models via Mixture-of-Experts Adapters [65.15700861265432]
本稿では,視覚言語モデルを用いた漸進的学習における長期的忘れを緩和するパラメータ効率の連続学習フレームワークを提案する。提案手法では,Mixture-of-Experts (MoE)アダプタの統合により,事前学習したCLIPモデルの動的拡張を行う。視覚言語モデルのゼロショット認識能力を維持するために,分布判別オートセレクタを提案する。
論文参考訳（メタデータ） (2024-03-18T08:00:23Z)
Kalman Filter for Online Classification of Non-Stationary Data [101.26838049872651]
オンライン連続学習(OCL)では、学習システムはデータのストリームを受け取り、予測とトレーニングの手順を順次実行する。本稿では,線形予測量に対するニューラル表現と状態空間モデルを用いた確率ベイズオンライン学習モデルを提案する。多クラス分類の実験では、モデルの予測能力と非定常性を捉える柔軟性を示す。
論文参考訳（メタデータ） (2023-06-14T11:41:42Z)
Revisiting Class-Incremental Learning with Pre-Trained Models: Generalizability and Adaptivity are All You Need [84.3507610522086]
クラスインクリメンタルラーニング(Class-incremental Learning, CIL)は、古いクラスを忘れずに新しいクラスに適応することを目的としている。近年の事前訓練は大きな進歩を遂げており、CILには膨大な事前訓練モデル(PTM)が利用できるようになった。 CILの中核となる要素は、モデル更新の適応性と知識伝達の一般化性である。
論文参考訳（メタデータ） (2023-03-13T17:59:02Z)
CLIPood: Generalizing CLIP to Out-of-Distributions [73.86353105017076]
対照的に、CLIP(Language-image Pre-training)モデルでは、印象的なゼロショット能力を示しているが、下流タスクにおけるCLIPのさらなる適応は、OODのパフォーマンスを好ましくない劣化させる。ドメインシフトとオープンクラスの両方が見えないテストデータ上で発生する可能性があるOOD状況にCLIPモデルを適用するための微調整手法であるCLIPoodを提案する。さまざまなOODシナリオによるさまざまなデータセットの実験は、CLIPoodが既存の一般化テクニックを一貫して上回っていることを示している。
論文参考訳（メタデータ） (2023-02-02T04:27:54Z)
Meta-Causal Feature Learning for Out-of-Distribution Generalization [71.38239243414091]
本稿では,協調タスク生成モジュール (BTG) とメタ因果特徴学習モジュール (MCFL) を含む,バランス付きメタ因果学習器 (BMCL) を提案する。 BMCLは、分類のためのクラス不変の視覚領域を効果的に識別し、最先端の手法の性能を向上させるための一般的なフレームワークとして機能する。
論文参考訳（メタデータ） (2022-08-22T09:07:02Z)
Momentum Pseudo-Labeling for Semi-Supervised Speech Recognition [55.362258027878966]
本稿では,半教師付き音声認識のための簡易かつ効果的な手法として,モーメント擬似ラベル(MPL)を提案する。 MPLは、平均的な教師メソッドにインスパイアされて、相互に相互作用し、学習するオンラインとオフラインの2つのモデルで構成されている。実験の結果,MPLはベースモデルよりも効果的に改善され,様々な半教師付きシナリオに拡張可能であることが示された。
論文参考訳（メタデータ） (2021-06-16T16:24:55Z)
Data-Driven Learning and Load Ensemble Control [1.647866856596524]
本研究の目的は、グリッドサポートサービスを提供するために、温度制御可能な負荷(TCL)など、分散された小規模のフレキシブルな負荷に取り組むことである。このデータ駆動学習の効率性は, 住宅のテストベッド地区における暖房, 冷却, 換気ユニットのシミュレーションによって実証される。
論文参考訳（メタデータ） (2020-04-20T23:32:10Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。