論文の概要: Continual Learning on CLIP via Incremental Prompt Tuning with Intrinsic Textual Anchors
- arxiv url: http://arxiv.org/abs/2505.20680v1
- Date: Tue, 27 May 2025 03:51:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-28 17:05:58.390151
- Title: Continual Learning on CLIP via Incremental Prompt Tuning with Intrinsic Textual Anchors
- Title(参考訳): インクリメンタルプロンプトチューニングによるCLIPの連続学習
- Authors: Haodong Lu, Xinyu Zhang, Kristen Moore, Jason Xue, Lina Yao, Anton van den Hengel, Dong Gong,
- Abstract要約: 連続学習(CL)は、破滅的な忘れ込みを避けながら、ディープネットワークが新たな知識を得ることを可能にする。
インクリメンタルなプロンプトチューニングに基づくCLIPのための簡潔なCLアプローチを提案する。
我々の双方向監視戦略は、忘れを減らしながら、新しい知識をより効果的に学習することを可能にする。
- 参考スコア(独自算出の注目度): 50.7383184560431
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Continual learning (CL) enables deep networks to acquire new knowledge while avoiding catastrophic forgetting. The powerful generalization ability of pre-trained models (PTMs), such as the Contrastive Language-Image Pre-training (CLIP) model, has inspired a range of CL methods targeting new and specialized tasks, providing rich multi-modal embeddings that support lightweight, incremental prompt tuning. Existing methods often rely on complex designs built upon specific assumptions, such as intricate regularization schemes for prompt pools, specialized routing mechanisms, or multi-stage incrementations, that introduce additional-and possibly unnecessary-complexity, underutilizing CLIP's intrinsic capabilities. In this paper, we propose a concise CL approach for CLIP based on incremental prompt tuning that fully exploits its multi-modal structure and the stability of textual representations. Our method, Textual Prototype-guided Prompt Tuning (TPPT), introduces textual prototypes not merely as static classifiers, as in existing methods, but as stable anchors to guide the learning of visual prompts, thereby shaping the embedding space (i.e., TPPT-V). We show that our bidirectional supervision strategy enables more effective learning of new knowledge while reducing forgetting. To further close the vision-language gap during CL, we jointly optimizes visual and textual prompts (i.e., TPPT-VT). We also introduce a relational diversity regularization on the textual anchors to prevent embedding space collapse and mitigate correlated forgetting. Extensive experiments and analyses demonstrate the effectiveness of our proposed approach, highlighting the benefits of leveraging CLIP's intrinsic guidance for continual adaptation.
- Abstract(参考訳): 連続学習(CL)は、破滅的な忘れ込みを避けながら、ディープネットワークが新たな知識を得ることを可能にする。
CLIP(Contrastive Language- Image Pre-Training)モデルのような事前学習モデル(PTM)の強力な一般化能力は、新しい特殊タスクをターゲットとしたCLメソッドに影響を与え、軽量でインクリメンタルなプロンプトチューニングをサポートするリッチなマルチモーダル埋め込みを提供する。
既存の手法は、プロンプトプールの複雑な正規化スキーム、特別なルーティング機構、あるいは多段階のインクリメントなど、特定の前提に基づいて構築された複雑な設計に依存しており、CLIPの本質的な能力を弱めている。
本稿では,そのマルチモーダル構造とテキスト表現の安定性をフル活用したインクリメンタルプロンプトチューニングに基づくCLIPの簡潔CLアプローチを提案する。
テキストプロトタイプ誘導型プロンプトチューニング(TPPT)は,既存の手法のように静的な分類器としてだけではなく,視覚的プロンプトの学習を誘導する安定アンカーとしてテキストプロトタイプを導入し,埋め込み空間(TPPT-V)を形成する。
我々の双方向監視戦略は、忘れを減らしながら、新しい知識をより効果的に学習することを可能にする。
CL中における視覚と言語の間のギャップをさらに埋めるため、視覚とテキストのプロンプト(TPPT-VT)を協調的に最適化する。
また,テキストアンカーにリレーショナルな多様性の正規化を導入し,埋め込み空間の崩壊を防止し,相関する忘れを軽減した。
提案手法の有効性を実証し,CLIPの本質的な指導を継続適応に活用することのメリットを強調した。
関連論文リスト
- Harnessing Textual Semantic Priors for Knowledge Transfer and Refinement in CLIP-Driven Continual Learning [19.210280671911278]
継続的な学習は、過去の知識を忘れずにタスクの流れから学習する能力をモデルに装備することを目的としている。
本稿では,テキスト先行のアンチフォッゲッティングと構造化の性質を利用した統合フレームワークを提案し,セマンティック・アウェア・ナレッジ・トランスファーを導く。
論文 参考訳(メタデータ) (2025-08-03T04:09:00Z) - Integrated Structural Prompt Learning for Vision-Language Models [15.002501540565781]
本稿では、視覚言語モデル(VLM)のための統合構造プロンプト(ISP)を提案する。
ISPは、学習可能なプロンプトと凍結トークンの間の構造関係をモデル化するために、自己構造的および相互構造的プロンプトモジュールを導入している。
ISPは最先端の手法に対して競争力を発揮する。
論文 参考訳(メタデータ) (2025-07-08T04:59:58Z) - ChordPrompt: Orchestrating Cross-Modal Prompt Synergy for Multi-Domain Incremental Learning in CLIP [12.031278034659872]
継続学習は、事前訓練された視覚言語モデルに、新規または以前は表現されていないデータ分布に効果的に適応させる権限を与える。
ChordPromptは、視覚情報とテキスト情報の相互作用を活用するためのクロスモーダルプロンプトを導入している。
ChordPromptはゼロショットの一般化とダウンストリームのタスクパフォーマンスにおいて最先端の手法より優れている。
論文 参考訳(メタデータ) (2025-06-24T13:22:06Z) - Adapter-Enhanced Semantic Prompting for Continual Learning [91.63494614012362]
継続学習(CL)は、モデルが進化するデータストリームに適応できるようにする。
従来のメソッドは通常、再生のために過去のデータを保持したり、新しい知識を学ぶためにモデルに追加のブランチを追加したりします。
本稿では,プロンプトチューニングとアダプタ技術を統合した軽量CLフレームワークを提案する。
論文 参考訳(メタデータ) (2024-12-15T06:14:55Z) - Continual Task Learning through Adaptive Policy Self-Composition [54.95680427960524]
CompoFormerは構造ベースの連続トランスフォーマーモデルであり、メタポリシックネットワークを介して、以前のポリシーを適応的に構成する。
実験の結果,CompoFormerは従来の継続学習法(CL)よりも優れており,特にタスクシーケンスが長いことが判明した。
論文 参考訳(メタデータ) (2024-11-18T08:20:21Z) - Elevating All Zero-Shot Sketch-Based Image Retrieval Through Multimodal Prompt Learning [11.033050922826934]
凍結したCLIPバックボーンで動作するように設計された,新しいマルチモーダル・プロンプト学習方式であるSpLIPを紹介する。
SpLIPは双方向のプロンプト共有戦略を実装し、CLIPのビジュアルエンコーダとテキストエンコーダ間の相互知識交換を可能にする。
埋め込み空間をさらに洗練するための2つの革新的な戦略を提案する。
論文 参考訳(メタデータ) (2024-07-05T01:30:42Z) - CLAP4CLIP: Continual Learning with Probabilistic Finetuning for Vision-Language Models [23.398619576886375]
継続学習(CL)は、ディープラーニングが学習したものを保持しながら、新しい知識を学ぶのを支援することを目的としている。
タスクごとの視覚誘導テキスト機能に対する確率的モデリングフレームワークであるCLAP(Continuous LeArning with Probabilistic Finetuning)を提案する。
論文 参考訳(メタデータ) (2024-03-28T04:15:58Z) - Realistic Unsupervised CLIP Fine-tuning with Universal Entropy Optimization [101.08992036691673]
本稿では,未知のクラスにおける配布外サンプルの存在を考慮し,教師なしの微調整シナリオについて考察する。
特に,分布外検出と既知のクラスに関連するインスタンスの認識を同時に強化することに注力する。
我々はUniversal Entropy Optimization(UEO)と呼ばれるシンプルで効率的で効果的なアプローチを提案する。
論文 参考訳(メタデータ) (2023-08-24T16:47:17Z) - Self-regulating Prompts: Foundational Model Adaptation without
Forgetting [112.66832145320434]
本稿では,PromptSRCと呼ばれる自己正規化フレームワークを提案する。
PromptSRCはタスク固有の汎用表現とタスクに依存しない汎用表現の両方に最適化するプロンプトを導く。
論文 参考訳(メタデータ) (2023-07-13T17:59:35Z) - POP: Prompt Of Prompts for Continual Learning [59.15888651733645]
継続的な学習(CL)は、破滅的な忘れをせずに新しい概念を学習する人間の能力を模倣することを目的としている。
POP学習を用いた基礎モデルでは,古典的なCL手法よりも優れた性能が得られることを示す。
論文 参考訳(メタデータ) (2023-06-14T02:09:26Z) - StyLIP: Multi-Scale Style-Conditioned Prompt Learning for CLIP-based
Domain Generalization [26.08922351077744]
StyLIPは、ドメイン間のCLIPの分類性能を高める、ドメインの一般化のための新しいアプローチである。
提案手法は,CLIPの事前学習された視覚エンコーダに埋め込まれた視覚的スタイルとコンテンツ情報を切り離すことを目的とした,ドメインに依存しないプロンプト学習戦略に焦点をあてる。
論文 参考訳(メタデータ) (2023-02-18T07:36:16Z) - CPL: Counterfactual Prompt Learning for Vision and Language Models [76.18024920393245]
本稿では、視覚と言語モデルのための新しいアンダーラインテキストbfCounterfactual underlinetextbfPrompt underlinetextbfLearning (CPL)法を提案する。
CPLは、共同最適化フレームワークにおいて、反ファクト生成とコントラスト学習を同時に採用している。
実験により、CPLは異なるビジョンと言語タスクにおいて優れた数ショットのパフォーマンスを得ることができることが示された。
論文 参考訳(メタデータ) (2022-10-19T08:06:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。