論文の概要: Mind the Gap: Preserving and Compensating for the Modality Gap in CLIP-Based Continual Learning
- arxiv url: http://arxiv.org/abs/2507.09118v1
- Date: Sat, 12 Jul 2025 02:28:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-15 18:48:22.460251
- Title: Mind the Gap: Preserving and Compensating for the Modality Gap in CLIP-Based Continual Learning
- Title(参考訳): ギャップのマインド:CLIPに基づく継続的学習におけるモダリティギャップの保存と補償
- Authors: Linlan Huang, Xusheng Cao, Haori Lu, Yifan Meng, Fei Yang, Xialei Liu,
- Abstract要約: コントラスト言語-画像事前訓練モデル(CLIP)は、様々な下流タスクに強い能力を示す。
視覚言語事前学習モデルの微調整におけるモダリティギャップの変化を分析する。
クラス増分学習におけるCLIPの性能を向上する単純なMG-CLIPを提案する。
- 参考スコア(独自算出の注目度): 11.50324946279326
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Continual learning aims to enable models to learn sequentially from continuously incoming data while retaining performance on previously learned tasks. With the Contrastive Language-Image Pre-trained model (CLIP) exhibiting strong capabilities across various downstream tasks, there has been growing interest in leveraging CLIP for continual learning in such scenarios. Most existing works overlook the inherent modality gap in CLIP, a key factor in its generalization and adaptability. In this paper, we analyze the variations in the modality gap during the fine-tuning of vision-language pre-trained models. Our observations reveal that the modality gap effectively reflects the extent to which pre-trained knowledge is preserved. Based on these insights, we propose a simple yet effective method, MG-CLIP, that improves CLIP's performance in class-incremental learning. Our approach leverages modality gap preservation to mitigate forgetting and modality gap compensation to enhance the capacity for new data, introducing a novel modality-gap-based perspective for continual learning. Extensive experiments on multiple benchmarks demonstrate that our method outperforms existing approaches without requiring additional replay data. Our code is available at https://github.com/linlany/MindtheGap.
- Abstract(参考訳): 連続学習は、学習済みのタスクのパフォーマンスを維持しながら、連続的なデータからの連続的な学習を可能にすることを目的としている。
Contrastive Language-Image Pre-trained Model (CLIP)は、さまざまな下流タスクで強力な能力を発揮しているため、このようなシナリオでの継続的な学習にCLIPを活用することへの関心が高まっている。
既存の作業の多くは、CLIPの固有のモダリティギャップを見落としている。
本稿では,視覚言語事前学習モデルの微調整におけるモダリティギャップの変化を解析する。
観察の結果, モダリティギャップは, 事前学習した知識の保存範囲を効果的に反映していることが判明した。
これらの知見に基づいて,CLIPの性能を向上するシンプルなMG-CLIPを提案する。
提案手法は,モダリティギャップの保存を利用して,忘れとモダリティギャップの補償を緩和し,新たなデータのキャパシティを向上し,連続学習のための新しいモダリティギャップに基づく視点を導入する。
複数のベンチマークでの大規模な実験により、我々の手法は追加の再生データを必要とせずに既存の手法よりも優れていることが示された。
私たちのコードはhttps://github.com/linlany/MindtheGap.orgから入手可能です。
関連論文リスト
- Language Guided Concept Bottleneck Models for Interpretable Continual Learning [62.09201360376577]
継続的な学習は、学習した情報を忘れることなく、学習システムが新しい知識を常に獲得することを目的としている。
既存のCLメソッドのほとんどは、モデルパフォーマンスを改善するための学習知識の保存に重点を置いている。
両課題に対処するために,言語指導型概念ボトルネックモデルを統合する新しいフレームワークを導入する。
論文 参考訳(メタデータ) (2025-03-30T02:41:55Z) - Adaptive Rank, Reduced Forgetting: Knowledge Retention in Continual Learning Vision-Language Models with Dynamic Rank-Selective LoRA [19.982853959240497]
CLIPのような事前学習型視覚言語埋め込みモデルは、継続学習(CL)において広く採用され、検証されている。
既存のCL法は主に、事前学習モデル(PTM)から分離されたコンポーネントを用いた連続的な下流適応に焦点を当てている。
動的ランク選択ロラ(CoDyRA)に基づくCLIPの汎用的で効率的なCLアプローチを提案する。
論文 参考訳(メタデータ) (2024-12-01T23:41:42Z) - Temporal-Difference Variational Continual Learning [89.32940051152782]
複数の先行推定の正則化効果を統合する新たな学習目標を提案する。
提案手法は, 変分CL法より優れたカタストロフィックフォーミングを効果的に緩和する。
論文 参考訳(メタデータ) (2024-10-10T10:58:41Z) - Train-Attention: Meta-Learning Where to Focus in Continual Knowledge Learning [15.475427498268393]
TAALM(Train-Attention-Augmented Language Model)は,トークンに対する重み付けを動的に予測・適用することにより,学習効率を向上させる。
我々は,TAALMがベースライン上での最先端性能を証明し,従来のCKLアプローチと統合した場合に相乗的互換性を示すことを示す。
論文 参考訳(メタデータ) (2024-07-24T01:04:34Z) - CLIP with Generative Latent Replay: a Strong Baseline for Incremental Learning [17.614980614656407]
インクリメンタル・プロンプト学習のための連続的生成学習を提案する。
変分オートエンコーダを用いてクラス条件分布を学習する。
このような生成的リプレイアプローチは、ゼロショット機能を改善しつつ、新しいタスクに適応できることを示す。
論文 参考訳(メタデータ) (2024-07-22T16:51:28Z) - Enhancing Robustness of Vision-Language Models through Orthogonality Learning and Self-Regularization [77.62516752323207]
そこで本研究では,事前訓練した重みを効率よく微調整する直交微調整法を導入し,頑健さと一般化の強化を実現した。
自己正規化戦略は、OrthSRと呼ばれるVLMのゼロショット一般化の観点から安定性を維持するためにさらに活用される。
筆者らはCLIPとCoOpを再検討し,少数の画像のクラスフィシエーションシナリオにおけるモデルの改善を効果的に行う。
論文 参考訳(メタデータ) (2024-07-11T10:35:53Z) - Boosting Continual Learning of Vision-Language Models via Mixture-of-Experts Adapters [65.15700861265432]
本稿では,視覚言語モデルを用いた漸進的学習における長期的忘れを緩和するパラメータ効率の連続学習フレームワークを提案する。
提案手法では,Mixture-of-Experts (MoE)アダプタの統合により,事前学習したCLIPモデルの動的拡張を行う。
視覚言語モデルのゼロショット認識能力を維持するために,分布判別オートセレクタを提案する。
論文 参考訳(メタデータ) (2024-03-18T08:00:23Z) - Understanding Transferable Representation Learning and Zero-shot Transfer in CLIP [84.90129481336659]
CLIPの基盤となるトランスファーブル表現学習について検討し、異なるモダリティの特徴の整合性を実証する。
そこで本研究では,ベンチマークデータセット上でのCLIPや他の最先端手法よりも優れた性能を実現するCLIP型アプローチを提案する。
論文 参考訳(メタデータ) (2023-10-02T06:41:30Z) - Variance-Covariance Regularization Improves Representation Learning [28.341622247252705]
我々は,分散共分散正規化(VCReg)を導入して,自己教師型学習規則化手法を教師型学習コンテキストに適用する。
我々は、VCRegが画像やビデオの転送学習を大幅に強化し、多数のタスクやデータセットで最先端のパフォーマンスを達成することを実証した。
要約すると、VCRegは、転送学習を大幅に進歩させ、勾配飢餓、神経崩壊、特徴伝達可能性の間の接続を強調する、普遍的に適用可能な正規化フレームワークを提供する。
論文 参考訳(メタデータ) (2023-06-23T05:01:02Z) - SLCA: Slow Learner with Classifier Alignment for Continual Learning on a
Pre-trained Model [73.80068155830708]
予備学習モデル(CLPM)を用いた連続学習のための広範囲な解析法を提案する。
Slow Learner with Alignment (SLCA) というシンプルなアプローチを提案する。
さまざまなシナリオにおいて、私たちの提案はCLPMの大幅な改善を提供します。
論文 参考訳(メタデータ) (2023-03-09T08:57:01Z) - Multimodal Parameter-Efficient Few-Shot Class Incremental Learning [1.9220716793379256]
FSCIL(Few-Shot Class Incremental Learning)は、いくつかの学習セッションで限られたトレーニング例が利用できる、挑戦的な継続的学習タスクである。
このタスクを成功させるためには、数発のトレーニングセットにおけるバイアス分布に起因する新しいクラスを過度に適合させるのを避ける必要がある。
CPE-CLIPは、最先端の提案と比較してFSCILの性能を著しく改善すると同時に、学習可能なパラメータの数やトレーニングコストを大幅に削減する。
論文 参考訳(メタデータ) (2023-03-08T17:34:15Z) - Mitigating Forgetting in Online Continual Learning via Contrasting
Semantically Distinct Augmentations [22.289830907729705]
オンライン連続学習(OCL)は、非定常データストリームからモデル学習を可能とし、新たな知識を継続的に獲得し、学習した知識を維持することを目的としている。
主な課題は、"破滅的な忘れる"問題、すなわち、新しい知識を学習しながら学習した知識を十分に記憶できないことにある。
論文 参考訳(メタデータ) (2022-11-10T05:29:43Z) - Continually Learning Self-Supervised Representations with Projected
Functional Regularization [39.92600544186844]
近年の自己教師あり学習手法は高品質な画像表現を学習でき、教師ありの手法でギャップを埋めている。
これらの手法は、新たな知識を段階的に取得することができない -- 実際、主にIDデータによる事前学習フェーズとしてのみ使用される。
従来の知識を忘れないように,機能正規化の利用を提案する。
論文 参考訳(メタデータ) (2021-12-30T11:59:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。