論文の概要: Harnessing Textual Semantic Priors for Knowledge Transfer and Refinement in CLIP-Driven Continual Learning
- arxiv url: http://arxiv.org/abs/2508.01579v1
- Date: Sun, 03 Aug 2025 04:09:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-05 18:25:21.948172
- Title: Harnessing Textual Semantic Priors for Knowledge Transfer and Refinement in CLIP-Driven Continual Learning
- Title(参考訳): CLIP駆動型連続学習における知識伝達と補充のためのテキストセマンティック優先のハーネス化
- Authors: Lingfeng He, De Cheng, Huaijie Wang, Nannan Wang,
- Abstract要約: 継続的な学習は、過去の知識を忘れずにタスクの流れから学習する能力をモデルに装備することを目的としている。
本稿では,テキスト先行のアンチフォッゲッティングと構造化の性質を利用した統合フレームワークを提案し,セマンティック・アウェア・ナレッジ・トランスファーを導く。
- 参考スコア(独自算出の注目度): 19.210280671911278
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Continual learning (CL) aims to equip models with the ability to learn from a stream of tasks without forgetting previous knowledge. With the progress of vision-language models like Contrastive Language-Image Pre-training (CLIP), their promise for CL has attracted increasing attention due to their strong generalizability. However, the potential of rich textual semantic priors in CLIP in addressing the stability-plasticity dilemma remains underexplored. During backbone training, most approaches transfer past knowledge without considering semantic relevance, leading to interference from unrelated tasks that disrupt the balance between stability and plasticity. Besides, while text-based classifiers provide strong generalization, they suffer from limited plasticity due to the inherent modality gap in CLIP. Visual classifiers help bridge this gap, but their prototypes lack rich and precise semantics. To address these challenges, we propose Semantic-Enriched Continual Adaptation (SECA), a unified framework that harnesses the anti-forgetting and structured nature of textual priors to guide semantic-aware knowledge transfer in the backbone and reinforce the semantic structure of the visual classifier. Specifically, a Semantic-Guided Adaptive Knowledge Transfer (SG-AKT) module is proposed to assess new images' relevance to diverse historical visual knowledge via textual cues, and aggregate relevant knowledge in an instance-adaptive manner as distillation signals. Moreover, a Semantic-Enhanced Visual Prototype Refinement (SE-VPR) module is introduced to refine visual prototypes using inter-class semantic relations captured in class-wise textual embeddings. Extensive experiments on multiple benchmarks validate the effectiveness of our approach.
- Abstract(参考訳): 連続学習(CL)は、過去の知識を忘れずにタスクの流れから学習する能力をモデルに装備することを目的としている。
Contrastive Language-Image Pre-Training (CLIP)のような視覚言語モデルの進歩に伴い、CLに対する彼らの約束は、その強力な一般化性によって、注目を集めている。
しかし、安定性・塑性ジレンマに対処するCLIPにおけるリッチテキストセマンティック先行の可能性を未解明のまま残している。
バックボーントレーニングの間、ほとんどのアプローチは意味的関連性を考慮せずに過去の知識を伝達し、安定性と可塑性のバランスを損なう無関係なタスクから干渉する。
さらに、テキストベースの分類器は強力な一般化を提供するが、CLIPの固有のモダリティギャップにより、可塑性が制限される。
視覚分類器はこのギャップを埋めるのに役立つが、プロトタイプにはリッチで正確な意味論が欠けている。
これらの課題に対処するために、セマンティック・エンリッチ・コンティニュアル・アダプション(SECA)を提案する。これは、テキスト先行のアンチフォゲッティングと構造化の性質を利用して、バックボーン内の意味認識の知識伝達を誘導し、視覚分類器のセマンティック構造を補強する統合フレームワークである。
具体的には,セマンティックガイド型適応的知識伝達(SG-AKT)モジュールを提案し,新しい画像と多様な歴史的視覚的知識との関連性を評価し,関連する知識を蒸留信号としてインスタンス適応的に集約する。
さらに、セマンティック強化ビジュアルプロトタイプリファインメント(SE-VPR)モジュールを導入し、クラスワイドテキスト埋め込みでキャプチャされたクラス間セマンティックリレーションを用いて視覚プロトタイプを洗練させる。
複数のベンチマークでの大規模な実験により、我々のアプローチの有効性が検証された。
関連論文リスト
- Continual Learning on CLIP via Incremental Prompt Tuning with Intrinsic Textual Anchors [50.7383184560431]
連続学習(CL)は、破滅的な忘れ込みを避けながら、ディープネットワークが新たな知識を得ることを可能にする。
インクリメンタルなプロンプトチューニングに基づくCLIPのための簡潔なCLアプローチを提案する。
我々の双方向監視戦略は、忘れを減らしながら、新しい知識をより効果的に学習することを可能にする。
論文 参考訳(メタデータ) (2025-05-27T03:51:37Z) - Language Guided Concept Bottleneck Models for Interpretable Continual Learning [62.09201360376577]
継続的な学習は、学習した情報を忘れることなく、学習システムが新しい知識を常に獲得することを目的としている。
既存のCLメソッドのほとんどは、モデルパフォーマンスを改善するための学習知識の保存に重点を置いている。
両課題に対処するために,言語指導型概念ボトルネックモデルを統合する新しいフレームワークを導入する。
論文 参考訳(メタデータ) (2025-03-30T02:41:55Z) - Exploring CLIP's Dense Knowledge for Weakly Supervised Semantic Segmentation [19.26516470653798]
画像レベルラベル付き弱スーパービジョンセマンティック(WSSS)は、クラスマップ(CAM)を用いた画素レベルの予測を実現することを目的としている。
最近の手法は主にCAM生成のための画像テキストアライメントに重点を置いているが、パッチテキストアライメントにおけるCLIPの可能性はいまだ解明されていない。
我々は,WSSS のパッチテキストアライメントパラダイムを通じて,CLIP の密集した知識を探索する ExCEL を提案する。
論文 参考訳(メタデータ) (2025-03-26T02:00:49Z) - InPK: Infusing Prior Knowledge into Prompt for Vision-Language Models [24.170351966913557]
学習可能なトークンにクラス固有の事前知識を注入するInPKモデルを提案する。
また、テキスト調整に対応するための学習可能なテキスト・ツー・ビジョン・プロジェクション・レイヤも導入する。
実験では、InPKは複数のゼロ/ファウショット画像分類タスクにおいて最先端の手法を著しく上回っている。
論文 参考訳(メタデータ) (2025-02-27T05:33:18Z) - DesCLIP: Robust Continual Adaptation via General Attribute Descriptions for Pretrained Vision-Language Models [13.917530818500481]
視覚言語モデル(VLM)の継続的な適応は、下流タスクやデータセットの拡張に漸進的に適応するために、モーダルな事前訓練された知識を活用することに焦点を当てている。
既存の研究はしばしば、一般的な知識と専門知識の潜伏した関係を見越して、下流のタスクで特定のクラステキストと視覚的特徴を結びつけることに焦点を当てている。
汎用属性(GA)記述を利用して,特定のクラスオブジェクトの理解を導くDesCLIPを提案する。
論文 参考訳(メタデータ) (2025-02-02T01:06:02Z) - Adapter-Enhanced Semantic Prompting for Continual Learning [91.63494614012362]
継続学習(CL)は、モデルが進化するデータストリームに適応できるようにする。
従来のメソッドは通常、再生のために過去のデータを保持したり、新しい知識を学ぶためにモデルに追加のブランチを追加したりします。
本稿では,プロンプトチューニングとアダプタ技術を統合した軽量CLフレームワークを提案する。
論文 参考訳(メタデータ) (2024-12-15T06:14:55Z) - Attend and Enrich: Enhanced Visual Prompt for Zero-Shot Learning [114.59476118365266]
視覚表現豊か化のための意味強調プロンプトを抽出するための視覚的プロンプトに意味情報を付与するAENetを提案する。
AENetは、2つの重要なステップから構成される: 1) 視覚的・属性的モダリティの概念調和トークンを探索し、一貫した視覚的セマンティックな概念を表す様相共有トークンに基づく。
論文 参考訳(メタデータ) (2024-06-05T07:59:48Z) - SgVA-CLIP: Semantic-guided Visual Adapting of Vision-Language Models for
Few-shot Image Classification [84.05253637260743]
本稿では,セマンティック誘導視覚適応(SgVA)と呼ばれる新しいフレームワークを提案する。
SgVAは、視覚特異的のコントラスト損失、クロスモーダルのコントラスト損失、暗黙の知識蒸留を包括的に利用することで、識別的なタスク固有の視覚特徴を生成する。
13のデータセットの最先端の結果は、適応された視覚的特徴が、クロスモーダルな特徴を補完し、少数の画像分類を改善することを実証している。
論文 参考訳(メタデータ) (2022-11-28T14:58:15Z) - Contrastive Language-Image Pre-Training with Knowledge Graphs [33.211811772961234]
本稿では,CLIPモデルに意味情報を注入する知識ベース事前学習フレームワークであるKnowledge-CLIPを提案する。
我々のモデルは、視覚と言語の表現を高い品質で意味的に整合させ、シナリオやモダリティを越えて推論能力を高めることができる。
論文 参考訳(メタデータ) (2022-10-17T09:49:22Z) - Dense Contrastive Visual-Linguistic Pretraining [53.61233531733243]
画像とテキストを共同で表現するマルチモーダル表現学習手法が提案されている。
これらの手法は,大規模マルチモーダル事前学習から高レベルな意味情報を取得することにより,優れた性能を実現する。
そこで本稿では,非バイアスのDense Contrastive Visual-Linguistic Pretrainingを提案する。
論文 参考訳(メタデータ) (2021-09-24T07:20:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。