論文の概要: Preserving Cross-Modal Consistency for CLIP-based Class-Incremental Learning
- arxiv url: http://arxiv.org/abs/2511.10974v1
- Date: Fri, 14 Nov 2025 05:36:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-17 22:42:18.440977
- Title: Preserving Cross-Modal Consistency for CLIP-based Class-Incremental Learning
- Title(参考訳): CLIPに基づくクラスインクリメンタルラーニングのためのクロスモーダル一貫性の保存
- Authors: Haoran Chen, Houze Xu, Micah Goldblum, Daoguo Dong, Zuxuan Wu,
- Abstract要約: クラスインクリメンタルラーニング(CIL)は、モデルが獲得した知識を忘れることなく、シーケンシャルなタスクから新しいカテゴリを継続的に学習することを可能にする。
視覚エンコーダの適応とテキストソフトプロンプトの最適化を分離するCLIPベースのCILのための2段階フレームワークであるDMCを提案する。
CIFAR-100, Imagenet-R, CUB-200, UCF-101 の大規模な実験により, DMC と DMC-OT の両者が最先端の性能を発揮することが示された。
- 参考スコア(独自算出の注目度): 77.82901519692378
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Class-incremental learning (CIL) enables models to continuously learn new categories from sequential tasks without forgetting previously acquired knowledge. While recent advances in vision-language models such as CLIP have demonstrated strong generalization across domains, extending them to continual settings remains challenging. In particular, learning task-specific soft prompts for newly introduced classes often leads to severe classifier bias, as the text prototypes overfit to recent categories when prior data are unavailable. In this paper, we propose DMC, a simple yet effective two-stage framework for CLIP-based CIL that decouples the adaptation of the vision encoder and the optimization of textual soft prompts. Each stage is trained with the other frozen, allowing one modality to act as a stable semantic anchor for the other to preserve cross-modal alignment. Furthermore, current CLIP-based CIL approaches typically store class-wise Gaussian statistics for generative replay, yet they overlook the distributional drift that arises when the vision encoder is updated over time. To address this issue, we introduce DMC-OT, an enhanced version of DMC that incorporates an optimal-transport guided calibration strategy to align memory statistics across evolving encoders, along with a task-specific prompting design that enhances inter-task separability. Extensive experiments on CIFAR-100, Imagenet-R, CUB-200, and UCF-101 demonstrate that both DMC and DMC-OT achieve state-of-the-art performance, with DMC-OT further improving accuracy by an average of 1.80%.
- Abstract(参考訳): クラスインクリメンタルラーニング(CIL)は、モデルが獲得した知識を忘れることなく、シーケンシャルなタスクから新しいカテゴリを継続的に学習することを可能にする。
CLIPのようなビジョン言語モデルの最近の進歩はドメイン間の強力な一般化を示しているが、それらを連続的な設定に拡張することは依然として困難である。
特に、新しく導入されたクラスに対するタスク固有のソフトプロンプトの学習は、前のデータが利用できない場合、テキストプロトタイプが最近のカテゴリに過度に適合するため、深刻な分類器バイアスを引き起こすことが多い。
本稿では、視覚エンコーダの適応とテキストソフトプロンプトの最適化を分離する、CLIPベースのCILのためのシンプルで効果的な2段階フレームワークであるDMCを提案する。
各ステージは凍結した他のステージで訓練され、一方のモードはもう一方のモード間のアライメントを維持するための安定なセマンティックアンカーとして機能する。
さらに、現在のCLIPベースのCILアプローチは、一般的に、生成的再生のためのクラスワイドガウス統計を格納するが、視覚エンコーダが時間とともに更新されたときに発生する分布のドリフトを見落としている。
この問題に対処するために,進化するエンコーダ間でメモリ統計を整合させる最適なトランスポート誘導キャリブレーション戦略と,タスク固有プロンプト設計によりタスク間分離性を向上するDMC-OTを導入する。
CIFAR-100, Imagenet-R, CUB-200, UCF-101の大規模な実験により、DMCとDMC-OTはいずれも最先端の性能を達成し、DMC-OTは平均1.80%精度を向上した。
関連論文リスト
- FM-LoRA: Factorized Low-Rank Meta-Prompting for Continual Learning [19.068489119024388]
連続学習は、シーケンシャルなタスクに事前訓練されたモデルを活用するための有望なアプローチとして登場した。
既存のCLメソッドの多くは、ローランド適応(LoRA)アダプタやプロンプトなどの学習構造を漸進的に格納する。
動的階数セレクタ(DRS)と動的メタプロンプティング(DMP)の両方を統合した,新規で効率的な低ランク適応手法FM-LoRAを提案する。
論文 参考訳(メタデータ) (2025-04-09T19:36:18Z) - CalFuse: Multi-Modal Continual Learning via Feature Calibration and Parameter Fusion [17.68751409041168]
クラス・コンチネンタル・ラーニング(CCL)は、歴史データを再考することなく、新たなクラス知識を段階的に取り入れることで、この課題に対処する。
CLIPのようなビジョンランゲージモデル(VLM)の最近の進歩は、事前訓練されたマルチモーダル知識を活用することで、CCLにとって重要な可能性を示している。
本稿では,マルチモーダルな知識統合を実現するために,特徴パラメータFusionを相乗化するフレームワークであるCalFuseを提案する。
論文 参考訳(メタデータ) (2025-03-24T13:44:12Z) - Semi-supervised Semantic Segmentation with Multi-Constraint Consistency Learning [81.02648336552421]
本稿では,エンコーダとデコーダの段階的拡張を容易にするためのマルチ制約一貫性学習手法を提案する。
自己適応型特徴マスキングとノイズ注入は、デコーダの堅牢な学習のための特徴を摂動させるために、インスタンス固有の方法で設計されている。
Pascal VOC2012およびCityscapesデータセットの実験結果から,提案したMCCLが新たな最先端性能を実現することを示す。
論文 参考訳(メタデータ) (2025-03-23T03:21:33Z) - Retrieval-Enhanced Contrastive Vision-Text Models [61.783728119255365]
そこで本研究では,メモリから取得したクロスモーダルな情報を推論時に表現することで,その埋め込みを洗練できる視覚テキストモデルを提案する。
注目すべきことに、これは凍ったCLIPの上に軽量の単層核融合トランスを用いて行うことができる。
検索強化コントラスト訓練(RECO)がCLIPの性能を大幅に向上することを示す。
論文 参考訳(メタデータ) (2023-06-12T15:52:02Z) - Revisiting Class-Incremental Learning with Pre-Trained Models: Generalizability and Adaptivity are All You Need [84.3507610522086]
クラスインクリメンタルラーニング(Class-incremental Learning, CIL)は、古いクラスを忘れずに新しいクラスに適応することを目的としている。
近年の事前訓練は大きな進歩を遂げており、CILには膨大な事前訓練モデル(PTM)が利用できるようになった。
CILの中核となる要素は、モデル更新の適応性と知識伝達の一般化性である。
論文 参考訳(メタデータ) (2023-03-13T17:59:02Z) - CLIPood: Generalizing CLIP to Out-of-Distributions [73.86353105017076]
対照的に、CLIP(Language-image Pre-training)モデルでは、印象的なゼロショット能力を示しているが、下流タスクにおけるCLIPのさらなる適応は、OODのパフォーマンスを好ましくない劣化させる。
ドメインシフトとオープンクラスの両方が見えないテストデータ上で発生する可能性があるOOD状況にCLIPモデルを適用するための微調整手法であるCLIPoodを提案する。
さまざまなOODシナリオによるさまざまなデータセットの実験は、CLIPoodが既存の一般化テクニックを一貫して上回っていることを示している。
論文 参考訳(メタデータ) (2023-02-02T04:27:54Z) - Mitigating Forgetting in Online Continual Learning via Contrasting
Semantically Distinct Augmentations [22.289830907729705]
オンライン連続学習(OCL)は、非定常データストリームからモデル学習を可能とし、新たな知識を継続的に獲得し、学習した知識を維持することを目的としている。
主な課題は、"破滅的な忘れる"問題、すなわち、新しい知識を学習しながら学習した知識を十分に記憶できないことにある。
論文 参考訳(メタデータ) (2022-11-10T05:29:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。