論文の概要: Continual Learning on CLIP via Incremental Prompt Tuning with Intrinsic Textual Anchors
- arxiv url: http://arxiv.org/abs/2505.20680v1
- Date: Tue, 27 May 2025 03:51:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-28 17:05:58.390151
- Title: Continual Learning on CLIP via Incremental Prompt Tuning with Intrinsic Textual Anchors
- Title(参考訳): インクリメンタルプロンプトチューニングによるCLIPの連続学習
- Authors: Haodong Lu, Xinyu Zhang, Kristen Moore, Jason Xue, Lina Yao, Anton van den Hengel, Dong Gong,
- Abstract要約: 連続学習(CL)は、破滅的な忘れ込みを避けながら、ディープネットワークが新たな知識を得ることを可能にする。
インクリメンタルなプロンプトチューニングに基づくCLIPのための簡潔なCLアプローチを提案する。
我々の双方向監視戦略は、忘れを減らしながら、新しい知識をより効果的に学習することを可能にする。
- 参考スコア(独自算出の注目度): 50.7383184560431
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Continual learning (CL) enables deep networks to acquire new knowledge while avoiding catastrophic forgetting. The powerful generalization ability of pre-trained models (PTMs), such as the Contrastive Language-Image Pre-training (CLIP) model, has inspired a range of CL methods targeting new and specialized tasks, providing rich multi-modal embeddings that support lightweight, incremental prompt tuning. Existing methods often rely on complex designs built upon specific assumptions, such as intricate regularization schemes for prompt pools, specialized routing mechanisms, or multi-stage incrementations, that introduce additional-and possibly unnecessary-complexity, underutilizing CLIP's intrinsic capabilities. In this paper, we propose a concise CL approach for CLIP based on incremental prompt tuning that fully exploits its multi-modal structure and the stability of textual representations. Our method, Textual Prototype-guided Prompt Tuning (TPPT), introduces textual prototypes not merely as static classifiers, as in existing methods, but as stable anchors to guide the learning of visual prompts, thereby shaping the embedding space (i.e., TPPT-V). We show that our bidirectional supervision strategy enables more effective learning of new knowledge while reducing forgetting. To further close the vision-language gap during CL, we jointly optimizes visual and textual prompts (i.e., TPPT-VT). We also introduce a relational diversity regularization on the textual anchors to prevent embedding space collapse and mitigate correlated forgetting. Extensive experiments and analyses demonstrate the effectiveness of our proposed approach, highlighting the benefits of leveraging CLIP's intrinsic guidance for continual adaptation.
- Abstract(参考訳): 連続学習(CL)は、破滅的な忘れ込みを避けながら、ディープネットワークが新たな知識を得ることを可能にする。
CLIP(Contrastive Language- Image Pre-Training)モデルのような事前学習モデル(PTM)の強力な一般化能力は、新しい特殊タスクをターゲットとしたCLメソッドに影響を与え、軽量でインクリメンタルなプロンプトチューニングをサポートするリッチなマルチモーダル埋め込みを提供する。
既存の手法は、プロンプトプールの複雑な正規化スキーム、特別なルーティング機構、あるいは多段階のインクリメントなど、特定の前提に基づいて構築された複雑な設計に依存しており、CLIPの本質的な能力を弱めている。
本稿では,そのマルチモーダル構造とテキスト表現の安定性をフル活用したインクリメンタルプロンプトチューニングに基づくCLIPの簡潔CLアプローチを提案する。
テキストプロトタイプ誘導型プロンプトチューニング(TPPT)は,既存の手法のように静的な分類器としてだけではなく,視覚的プロンプトの学習を誘導する安定アンカーとしてテキストプロトタイプを導入し,埋め込み空間(TPPT-V)を形成する。
我々の双方向監視戦略は、忘れを減らしながら、新しい知識をより効果的に学習することを可能にする。
CL中における視覚と言語の間のギャップをさらに埋めるため、視覚とテキストのプロンプト(TPPT-VT)を協調的に最適化する。
また,テキストアンカーにリレーショナルな多様性の正規化を導入し,埋め込み空間の崩壊を防止し,相関する忘れを軽減した。
提案手法の有効性を実証し,CLIPの本質的な指導を継続適応に活用することのメリットを強調した。
関連論文リスト
- Continual Task Learning through Adaptive Policy Self-Composition [54.95680427960524]
CompoFormerは構造ベースの連続トランスフォーマーモデルであり、メタポリシックネットワークを介して、以前のポリシーを適応的に構成する。
実験の結果,CompoFormerは従来の継続学習法(CL)よりも優れており,特にタスクシーケンスが長いことが判明した。
論文 参考訳(メタデータ) (2024-11-18T08:20:21Z) - CLAP4CLIP: Continual Learning with Probabilistic Finetuning for Vision-Language Models [23.398619576886375]
継続学習(CL)は、ディープラーニングが学習したものを保持しながら、新しい知識を学ぶのを支援することを目的としている。
タスクごとの視覚誘導テキスト機能に対する確率的モデリングフレームワークであるCLAP(Continuous LeArning with Probabilistic Finetuning)を提案する。
論文 参考訳(メタデータ) (2024-03-28T04:15:58Z) - Realistic Unsupervised CLIP Fine-tuning with Universal Entropy Optimization [101.08992036691673]
本稿では,未知のクラスにおける配布外サンプルの存在を考慮し,教師なしの微調整シナリオについて考察する。
特に,分布外検出と既知のクラスに関連するインスタンスの認識を同時に強化することに注力する。
我々はUniversal Entropy Optimization(UEO)と呼ばれるシンプルで効率的で効果的なアプローチを提案する。
論文 参考訳(メタデータ) (2023-08-24T16:47:17Z) - Self-regulating Prompts: Foundational Model Adaptation without
Forgetting [112.66832145320434]
本稿では,PromptSRCと呼ばれる自己正規化フレームワークを提案する。
PromptSRCはタスク固有の汎用表現とタスクに依存しない汎用表現の両方に最適化するプロンプトを導く。
論文 参考訳(メタデータ) (2023-07-13T17:59:35Z) - POP: Prompt Of Prompts for Continual Learning [59.15888651733645]
継続的な学習(CL)は、破滅的な忘れをせずに新しい概念を学習する人間の能力を模倣することを目的としている。
POP学習を用いた基礎モデルでは,古典的なCL手法よりも優れた性能が得られることを示す。
論文 参考訳(メタデータ) (2023-06-14T02:09:26Z) - StyLIP: Multi-Scale Style-Conditioned Prompt Learning for CLIP-based
Domain Generalization [26.08922351077744]
StyLIPは、ドメイン間のCLIPの分類性能を高める、ドメインの一般化のための新しいアプローチである。
提案手法は,CLIPの事前学習された視覚エンコーダに埋め込まれた視覚的スタイルとコンテンツ情報を切り離すことを目的とした,ドメインに依存しないプロンプト学習戦略に焦点をあてる。
論文 参考訳(メタデータ) (2023-02-18T07:36:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。