論文の概要: GNSP: Gradient Null Space Projection for Preserving Cross-Modal Alignment in VLMs Continual Learning
- arxiv url: http://arxiv.org/abs/2507.19839v1
- Date: Sat, 26 Jul 2025 07:22:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-29 16:23:56.277792
- Title: GNSP: Gradient Null Space Projection for Preserving Cross-Modal Alignment in VLMs Continual Learning
- Title(参考訳): GNSP:連続学習におけるクロスモーダルアライメントの保存のための勾配ヌル空間投影
- Authors: Tiantian Peng, Yuyang Liu, Shuo Yang, Qiuhe Hong, YongHong Tian,
- Abstract要約: コントラスト言語-画像事前学習は、共有埋め込み空間における視覚的・テキスト的モダリティを整列させることにより、目覚ましいゼロショットの一般化を示した。
様々なタスクを継続的に微調整すると、CLIPはその埋め込みアライメントの破滅的な忘れ込みと劣化に悩まされる。
GNSP(Gradient Null Space Projection)は,タスク固有の勾配を以前に学習した知識のnull空間に投影する,効率的な連続学習手法である。
- 参考スコア(独自算出の注目度): 27.9960664846484
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Contrastive Language-Image Pretraining has demonstrated remarkable zero-shot generalization by aligning visual and textual modalities in a shared embedding space. However, when continuously fine-tuned on diverse tasks, CLIP suffers from catastrophic forgetting and degradation of its embedding alignment, undermining its zero-shot capabilities. In this work, we propose Gradient Null Space Projection (GNSP), an efficient continual learning method that projects task-specific gradients onto the null space of previously learned knowledge. This orthogonal projection mathematically prevents interference with previous tasks without relying on rehearsal or architectural modification. Furthermore, to preserve the inherent generalization property of CLIP, we introduce knowledge distillation and combine it with a modality alignment preservation loss inspired by CLIP pre-training to stabilize the structure of the multimodal embedding space during fine-tuning. On the MTIL benchmark consisting of 11 tasks, our method achieved SOTA performance on both the Average and Last key metrics. More importantly, experiments show that our method successfully maintains the original modality gap and cross-modal retrieval performance of CLIP, confirming its effectiveness in maintaining a robust visual-language space throughout the continual learning process.
- Abstract(参考訳): コントラスト言語-画像事前学習は、共有埋め込み空間における視覚的・テキスト的モダリティを整列させることにより、目覚ましいゼロショットの一般化を示した。
しかし、様々なタスクを継続的に微調整すると、CLIPはその埋め込みアライメントの破滅的な忘れと劣化に悩まされ、ゼロショット能力を損なう。
本研究では,従来の学習知識のnull空間にタスク固有の勾配を投影する,効率的な連続学習手法であるGradient Null Space Projection (GNSP)を提案する。
この直交射影は、リハーサルやアーキテクチャの変更に頼ることなく、数学的に以前のタスクへの干渉を防ぐ。
さらに,CLIPの本質的な一般化特性を維持するために,知識蒸留を導入し,CLIPの事前学習にインスパイアされたモダリティアライメント保存損失と組み合わせて,微調整時のマルチモーダル埋め込み空間の構造を安定化させる。
11のタスクからなるMTILベンチマークでは,平均値とLastキー値の両方でSOTA性能が得られた。
さらに重要なことは,本手法がCLIPの本来のモダリティギャップとクロスモーダル検索性能の維持に成功し,連続学習プロセスを通して堅牢な視覚空間を維持する上での有効性を確認したことである。
関連論文リスト
- Mind the Gap: Preserving and Compensating for the Modality Gap in CLIP-Based Continual Learning [11.50324946279326]
コントラスト言語-画像事前訓練モデル(CLIP)は、様々な下流タスクに強い能力を示す。
視覚言語事前学習モデルの微調整におけるモダリティギャップの変化を分析する。
クラス増分学習におけるCLIPの性能を向上する単純なMG-CLIPを提案する。
論文 参考訳(メタデータ) (2025-07-12T02:28:42Z) - SplitLoRA: Balancing Stability and Plasticity in Continual Learning Through Gradient Space Splitting [68.00007494819798]
継続的な学習には、安定性を保ちながら複数のタスクを連続的に学習するモデルが必要である。
グラディエント・プロジェクションはCLにおいて有効で一般的なパラダイムとして現れ、以前に学習したタスクの勾配空間を2つの部分空間に分割する。
新しいタスクは小部分空間内で効果的に学習され、これにより以前取得した知識との干渉が軽減される。
既存の勾配射影法は、勾配空間を適切に分割することが困難であるため、塑性と安定性の最適なバランスを達成するのに苦労する。
論文 参考訳(メタデータ) (2025-05-28T13:57:56Z) - Post-pre-training for Modality Alignment in Vision-Language Foundation Models [12.110530026601968]
本稿では,CLIPモデルの事前学習と微調整の段階における事前学習手法であるCLIP-Refineを提案する。
ゼロショットのパフォーマンス劣化を伴わずに、小さな画像テキストデータセットに対する1エポックトレーニングとフィーチャースペースの整合性を目指す。
論文 参考訳(メタデータ) (2025-04-17T07:46:19Z) - CODE-CL: Conceptor-Based Gradient Projection for Deep Continual Learning [6.738409533239947]
深層ニューラルネットワークは、タスクを逐次学習する際に破滅的な忘れに苦しむ。
最近のアプローチでは、勾配投影を用いた部分空間の更新が制限されている。
本稿では,Deep Continual Learning (CODE-CL) のための概念ベース勾配予測法を提案する。
論文 参考訳(メタデータ) (2024-11-21T22:31:06Z) - Enhancing Robustness of Vision-Language Models through Orthogonality Learning and Self-Regularization [77.62516752323207]
そこで本研究では,事前訓練した重みを効率よく微調整する直交微調整法を導入し,頑健さと一般化の強化を実現した。
自己正規化戦略は、OrthSRと呼ばれるVLMのゼロショット一般化の観点から安定性を維持するためにさらに活用される。
筆者らはCLIPとCoOpを再検討し,少数の画像のクラスフィシエーションシナリオにおけるモデルの改善を効果的に行う。
論文 参考訳(メタデータ) (2024-07-11T10:35:53Z) - Explore the Potential of CLIP for Training-Free Open Vocabulary Semantic Segmentation [38.16802763051431]
トレーニング不要なセマンティックセグメンテーション戦略であるCLIPtraseを提案する。
パッチ間の自己相関を補正することで、局所的な特徴認識を高める。
実験の結果、CLIPよりも平均して9つのセグメンテーションベンチマークで22.3%先行していることがわかった。
論文 参考訳(メタデータ) (2024-07-11T08:12:16Z) - Visual Prompt Tuning in Null Space for Continual Learning [51.96411454304625]
既存のプロンプトチューニング手法は、継続学習(CL)における印象的な性能を示す。
本稿では,従来のタスクの特徴に代表される部分空間に直交する方向のプロンプトを調整し,各タスクを学習することを目的とする。
実際には、即時勾配予測を実装するために、実効的なヌル空間に基づく近似解が提案されている。
論文 参考訳(メタデータ) (2024-06-09T05:57:40Z) - Towards Continual Learning Desiderata via HSIC-Bottleneck
Orthogonalization and Equiangular Embedding [55.107555305760954]
本稿では,レイヤワイドパラメータのオーバーライトや決定境界の歪みに起因する,概念的にシンプルで効果的な手法を提案する。
提案手法は,ゼロの指数バッファと1.02倍の差が絶対的に優れていても,競争精度が向上する。
論文 参考訳(メタデータ) (2024-01-17T09:01:29Z) - Enhancing Few-shot CLIP with Semantic-Aware Fine-Tuning [61.902254546858465]
Contrastive Language-Image Pre-Trainingに基づく手法は、数発の適応タスクで有望な性能を示した。
本稿では,タスク固有のセマンティクスに焦点を合わせるために,トレーニングプロセス中にアテンションプーリング層のパラメータを微調整することを提案する。
論文 参考訳(メタデータ) (2023-11-08T05:18:57Z) - When Does Contrastive Learning Preserve Adversarial Robustness from
Pretraining to Finetuning? [99.4914671654374]
本稿では,新しい逆比較事前学習フレームワークAdvCLを提案する。
本稿では,AdvCLがモデル精度と微調整効率を損なうことなく,タスク間の堅牢性伝達性を向上できることを示す。
論文 参考訳(メタデータ) (2021-11-01T17:59:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。