論文の概要: Beyond CLIP Generalization: Against Forward&Backward Forgetting Adapter for Continual Learning of Vision-Language Models
- arxiv url: http://arxiv.org/abs/2505.07690v1
- Date: Mon, 12 May 2025 15:56:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-13 20:21:49.470013
- Title: Beyond CLIP Generalization: Against Forward&Backward Forgetting Adapter for Continual Learning of Vision-Language Models
- Title(参考訳): CLIPの一般化を超えて:視覚言語モデルの継続的な学習のためのフォワード/バックワードフォーゲッティングアダプタに反対
- Authors: Songlin Dong, Chenhao Ding, Jiangyang Li, Jizhou Han, Qiang Wang, Yuhang He, Yihong Gong,
- Abstract要約: AFA法は、既存の最先端アプローチを著しく上回る。
転送可能性という点では、CLIPの本質的にゼロショットのパフォーマンスを上回っている。
- 参考スコア(独自算出の注目度): 19.71113926850385
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This study aims to address the problem of multi-domain task incremental learning~(MTIL), which requires that vision-language models~(VLMs) continuously acquire new knowledge while maintaining their inherent zero-shot recognition capability. Existing paradigms delegate the testing of unseen-domain samples to the original CLIP, which only prevents the degradation of the model's zero-shot capability but fails to enhance the generalization of the VLM further. To this end, we propose a novel MTIL framework, named AFA, which comprises two core modules: (1) an against forward-forgetting adapter that learns task-invariant information for each dataset in the incremental tasks to enhance the zero-shot recognition ability of VLMs; (2) an against backward-forgetting adapter that strengthens the few-shot learning capability of VLMs while supporting incremental learning. Extensive experiments demonstrate that the AFA method significantly outperforms existing state-of-the-art approaches, especially in few-shot MTIL tasks, and surpasses the inherent zero-shot performance of CLIP in terms of transferability. The code is provided in the Supplementary Material.
- Abstract(参考訳): 本研究の目的は,マルチドメインタスクインクリメンタル学習(MTIL)の問題に対処することであり,視覚言語モデル~(VLM)は,その固有のゼロショット認識能力を維持しつつ,新たな知識を継続的に獲得する必要がある。
既存のパラダイムでは、未確認領域のサンプルのテストをオリジナルのCLIPに委譲しているため、モデルのゼロショット能力の低下を防ぎながら、VLMのさらなる一般化を達成できなかった。
そこで本研究では,(1)VLMのゼロショット認識能力を高めるために,各データセットのタスク不変情報をインクリメンタルタスクで学習するアンチフォジットアダプタ,(2)VLMの少数ショット学習能力を強化し,インクリメンタル学習をサポートするアンチフォジットアダプタの2つのコアモジュールからなる,新しいMTILフレームワークであるAFAを提案する。
大規模な実験により、AFA法は、特にMTILタスクにおいて、既存の最先端手法を著しく上回り、転送性においてCLIP固有のゼロショット性能を上回っていることが示された。
コードは補足資料に記載されている。
関連論文リスト
- Enhanced Continual Learning of Vision-Language Models with Model Fusion [16.764069327701186]
VLM(Vision-Language Models)は、人工知能のブレークスルーである。
VLMは、複数の下流タスクで連続的に微調整されたときに、破滅的な忘れをしがちである。
本稿では,連続的な学習にモデル融合を導入することで,新しいアプローチであるConDUを提案する。
論文 参考訳(メタデータ) (2025-03-12T15:48:13Z) - Retaining and Enhancing Pre-trained Knowledge in Vision-Language Models with Prompt Ensembling [5.6987175375687995]
グループワイド・プロンプト・アンサンブル(GPE)と呼ばれる新しいプロンプト・アンサンブル学習手法を提案する。
提案手法は,データ分散シフトに対するロバスト性を改善しつつ,新たなドメイン知識を取り入れたCLIPのゼロショット機能の向上を目的としている。
当社のアプローチは,ゼロショット能力を保護しながら,CLIPの適応性を最適化するため,マスク付き注意によるグループ化の促進,モデルの表現を損なうことなく,新たなドメインインサイトをシームレスに統合するための補助的なプロンプトの導入,オリジナルと新しい知識を効果的にマージするアンサンブル学習戦略の3つの戦略に基づいている。
論文 参考訳(メタデータ) (2024-12-10T00:40:31Z) - Separable Mixture of Low-Rank Adaptation for Continual Visual Instruction Tuning [16.873306091966693]
視覚的インストラクションチューニングにより、大規模な言語モデル(MLLM)は、言語ベースのインストラクションとしてフレーミングすることで、幅広い視覚タスクを処理できる。
CVITでは,MLLMが学習した視覚的理解を忘れると同時に,学習能力の低下を経験する。
本稿では2つの異なるモジュール間の分離可能なルーティングを利用するSMOLoRAフレームワークについて紹介する。
このデュアルルーチン設計により、両方のドメインに特別な適応が可能となり、性能を改善しながら、忘れることを防ぐことができる。
論文 参考訳(メタデータ) (2024-11-21T09:00:15Z) - Efficient Transfer Learning for Video-language Foundation Models [13.166348605993292]
テキスト表現と視覚表現のアライメントを高めるために,パラメータ効率のよいマルチモーダルパティッシャ・テンポラル・アダプタ (MSTA) を提案する。
我々は,ゼロショット転送,少数ショット学習,ベース・ツー・ノーベル一般化,完全テンポラル学習という4つの課題にまたがるアプローチの有効性を評価する。
論文 参考訳(メタデータ) (2024-11-18T01:25:58Z) - Multi-Stage Knowledge Integration of Vision-Language Models for Continual Learning [79.46570165281084]
蒸留法における人間の学習過程をエミュレートするマルチステージ知識統合ネットワーク(MulKI)を提案する。
Mulkiは、イデオロギーの排除、新しいイデオロギーの追加、イデオロギーの排除、コネクティクスの作りという4つの段階を通じてこれを達成している。
提案手法は,下流タスク間の連続学習をサポートしながら,ゼロショット能力の維持における大幅な改善を示す。
論文 参考訳(メタデータ) (2024-11-11T07:36:19Z) - Boosting Continual Learning of Vision-Language Models via Mixture-of-Experts Adapters [65.15700861265432]
本稿では,視覚言語モデルを用いた漸進的学習における長期的忘れを緩和するパラメータ効率の連続学習フレームワークを提案する。
提案手法では,Mixture-of-Experts (MoE)アダプタの統合により,事前学習したCLIPモデルの動的拡張を行う。
視覚言語モデルのゼロショット認識能力を維持するために,分布判別オートセレクタを提案する。
論文 参考訳(メタデータ) (2024-03-18T08:00:23Z) - Multi-View Class Incremental Learning [57.14644913531313]
マルチビュー学習(MVL)は、下流タスクのパフォーマンスを改善するためにデータセットの複数の視点から情報を統合することで大きな成功を収めている。
本稿では,複数視点クラスインクリメンタルラーニング(MVCIL)と呼ばれる新しいパラダイムについて考察する。
論文 参考訳(メタデータ) (2023-06-16T08:13:41Z) - Learning without Forgetting for Vision-Language Models [86.53237963364754]
CIL(Class-Incremental Learning)あるいは継続的学習(Continuous Learning)は、現実世界において望ましい能力である。
VLM(Vision-Language Models)の最近の進歩は、一般化可能な表現を学習する上で有望な能力を示している。
本稿では,VLM を忘れずに学習できる ProjectiOn Fusion (PROOF) を提案する。
論文 参考訳(メタデータ) (2023-05-30T17:59:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。