論文の概要: Modular Embedding Recomposition for Incremental Learning
- arxiv url: http://arxiv.org/abs/2508.16463v1
- Date: Fri, 22 Aug 2025 15:25:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-25 16:42:36.427696
- Title: Modular Embedding Recomposition for Incremental Learning
- Title(参考訳): インクリメンタルラーニングのためのモジュール埋め込み再構成
- Authors: Aniello Panariello, Emanuele Frascaroli, Pietro Buzzega, Lorenzo Bonicelli, Angelo Porrello, Simone Calderara,
- Abstract要約: 視覚言語モデル(VLM)のゼロショット能力の強化に保存を変換する手法を提案する。
私たちのアプローチはMoDular Embedding Recomposition (MoDER)と呼ばれ、複数のテキスト専門家を訓練するモジュラーフレームワークを導入しています。
推論時に、各未確認クラスに対してハブを問合せし、抽出した専門家を構成して、分類を改善するための洗練されたプロトタイプを合成する。
- 参考スコア(独自算出の注目度): 23.789486655098585
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The advent of pre-trained Vision-Language Models (VLMs) has significantly transformed Continual Learning (CL), mainly due to their zero-shot classification abilities. Such proficiency makes VLMs well-suited for real-world applications, enabling robust performance on novel unseen classes without requiring adaptation. However, fine-tuning remains essential when downstream tasks deviate significantly from the pre-training domain. Prior CL approaches primarily focus on preserving the zero-shot capabilities of VLMs during incremental fine-tuning on a downstream task. We take a step further by devising an approach that transforms preservation into enhancement of the zero-shot capabilities of VLMs. Our approach, named MoDular Embedding Recomposition (MoDER), introduces a modular framework that trains multiple textual experts, each specialized in a single seen class, and stores them in a foundational hub. At inference time, for each unseen class, we query the hub and compose the retrieved experts to synthesize a refined prototype that improves classification. We show the effectiveness of our method across two popular zero-shot incremental protocols, Class-IL and MTIL, comprising a total of 14 datasets. The codebase is available at https://github.com/aimagelab/mammoth.
- Abstract(参考訳): VLM(Pre-trained Vision-Language Models)の出現は、主にゼロショットの分類能力のために、継続学習(CL)を大きく変化させた。
このような習熟度により、VLMは現実世界のアプリケーションに適しており、適応を必要とせず、新しい未確認クラスの堅牢なパフォーマンスを実現する。
しかし、ダウンストリームタスクがトレーニング済みのドメインから著しく逸脱する場合、微調整は依然として不可欠である。
以前のCLアプローチは、主に下流タスクでのインクリメンタルな微調整中にVLMのゼロショット機能を保存することに重点を置いていた。
我々は、保存をVLMのゼロショット能力の強化に変換するアプローチを考案し、さらに一歩進める。
私たちのアプローチはMoDular Embedding Recomposition (MoDER)と呼ばれ、複数のテキスト専門家を訓練するモジュラーフレームワークを導入しています。
推測時,各未確認クラスに対してハブを問合せし,抽出した専門家を構成して,分類を改善する改良されたプロトタイプを合成する。
本手法は,全14データセットからなるクラスILとMTILの2つの一般的なゼロショットインクリメンタルプロトコルに対して有効であることを示す。
コードベースはhttps://github.com/aimagelab/mammoth.comで公開されている。
関連論文リスト
- Continual Learning for VLMs: A Survey and Taxonomy Beyond Forgetting [70.83781268763215]
視覚言語モデル(VLM)は、大規模事前学習を活用することで、多様なマルチモーダルタスクにおいて優れたパフォーマンスを実現している。
VLMは、クロスモーダル機能ドリフト、共有アーキテクチャによるパラメータ干渉、ゼロショット機能侵食など、ユニークな課題に直面している。
本調査は、生涯の視覚言語システムを開発する研究者にとって、包括的かつ診断的な基準となることを目的としている。
論文 参考訳(メタデータ) (2025-08-06T09:03:10Z) - CLIP with Generative Latent Replay: a Strong Baseline for Incremental Learning [17.614980614656407]
インクリメンタル・プロンプト学習のための連続的生成学習を提案する。
変分オートエンコーダを用いてクラス条件分布を学習する。
このような生成的リプレイアプローチは、ゼロショット機能を改善しつつ、新しいタスクに適応できることを示す。
論文 参考訳(メタデータ) (2024-07-22T16:51:28Z) - Enhancing Visual Continual Learning with Language-Guided Supervision [76.38481740848434]
継続的な学習は、モデルが以前獲得した知識を忘れずに新しいタスクを学習できるようにすることを目的としている。
ワンホットラベルが伝達する少ない意味情報は,タスク間の効果的な知識伝達を妨げている,と我々は主張する。
具体的には, PLM を用いて各クラスのセマンティックターゲットを生成し, 凍結し, 監視信号として機能する。
論文 参考訳(メタデータ) (2024-03-24T12:41:58Z) - Read Between the Layers: Leveraging Multi-Layer Representations for Rehearsal-Free Continual Learning with Pre-Trained Models [15.847302755988506]
本研究では,非定常分布から連続的なタスク列を学習しなければならない連続学習問題に対処する。
プレトレーニングネットワークの複数の中間層からの2次特徴統計量を利用する,CL に対する新しいプロトタイプベースのアプローチである LayUP を提案する。
その結果、CLにおける事前学習モデルの表現能力を完全に消耗させることは、最終的な埋め込みをはるかに超えることを示した。
論文 参考訳(メタデータ) (2023-12-13T13:11:44Z) - Beyond Sole Strength: Customized Ensembles for Generalized Vision-Language Models [55.5610165938949]
ファインチューニング型視覚言語モデル (VLM) はその実用的価値から人気が高まっている。
本稿では、より弱いVLMを活用してロバストな単一モデルの一般化を促進するための協調可能性について検討する。
それぞれが特定のシナリオに合わせてカスタマイズされた3つのアンサンブル戦略を導入する。
提案したアンサンブル戦略はゼロショット,ベース・ツー・ニュー,クロスデータセットの一般化に基づいて評価され,新たな最先端性能を実現する。
論文 参考訳(メタデータ) (2023-11-28T05:17:25Z) - RanPAC: Random Projections and Pre-trained Models for Continual Learning [59.07316955610658]
継続学習(CL)は、古いタスクを忘れずに、非定常データストリームで異なるタスク(分類など)を学習することを目的としている。
本稿では,事前学習モデルを用いたCLの簡潔かつ効果的なアプローチを提案する。
論文 参考訳(メタデータ) (2023-07-05T12:49:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。