Fugu-MT 論文翻訳(概要): Unlocking Patch-Level Features for CLIP-Based Class-Incremental Learning

論文の概要: Unlocking Patch-Level Features for CLIP-Based Class-Incremental Learning

arxiv url: http://arxiv.org/abs/2605.13835v1
Date: Wed, 13 May 2026 17:56:23 GMT
ステータス: 翻訳完了
システム内更新日: 2026-05-14 23:30:28.223502
Title: Unlocking Patch-Level Features for CLIP-Based Class-Incremental Learning
Title（参考訳）: CLIPに基づくクラスインクリメンタル学習のためのパッチレベルアンロック機能
Authors: Hao Sun, Zi-Jun Ding, Da-Wei Zhou,
Abstract要約: CLIのためのSPA(Semantic-Guided Patch-level Alignment)を提案する。各クラスに対して、まず代表的で多様な視覚サンプルを作成し、それらをGPT-5に供給する。これらの記述は、識別的パッチレベルの視覚的特徴の選択を導くために使用される。
参考スコア（独自算出の注目度）: 13.950318836859731
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Class-Incremental Learning (CIL) enables models to continuously integrate new knowledge while mitigating catastrophic forgetting. Driven by the remarkable generalization of CLIP, leveraging pre-trained vision-language models has become a dominant paradigm in CIL. However, current work primarily focuses on aligning global image embeddings (i.e., [CLS] token) with their corresponding text prompts (i.e., [EOS] token). Despite their good performance, we find that they discard the rich patch-level semantic information inherent in CLIP's encoders. For instance, when recognizing a rabbit, local patches may encode its distinctive cues, such as long ears and a fluffy tail, which can provide complementary evidence for recognition. Based on the above observation, we propose SPA (Semantic-guided Patch-level Alignment) for CLIP-based CIL, which aims to awaken long-neglected local representations within CLIP. Specifically, for each class, we first construct representative and diverse visual samples and feed them to GPT-5 as visual guidance to generate class-wise semantic descriptions. These descriptions are used to guide the selection of discriminative patch-level visual features. Building upon these selected patches, we further employ optimal transport to align selected patch tokens with semantic tokens from class-wise descriptions, yielding a structured cross-modal alignment that improves recognition. Furthermore, we introduce task-specific projectors for effective adaptation to downstream incremental tasks, and sample pseudo-features from stored class-wise Gaussian statistics to calibrate old-class representations, thereby mitigating catastrophic forgetting. Extensive experiments demonstrate that SPA achieves state-of-the-art performance.
Abstract（参考訳）: クラスインクリメンタルラーニング(Class-Incremental Learning, CIL)は、破滅的な忘れを軽減しつつ、モデルが新たな知識を継続的に統合することを可能にする。 CLIPの顕著な一般化によって、事前訓練された視覚言語モデルを活用することが、CILにおいて支配的なパラダイムとなっている。しかし、現在の研究は主にグローバルな画像埋め込み(すなわち[CLS]トークン)と対応するテキストプロンプト(すなわち[EOS]トークン)の整合性に焦点を当てている。優れたパフォーマンスにもかかわらず、CLIPのエンコーダに固有のリッチなパッチレベルのセマンティック情報を捨てていることがわかった。例えば、ウサギを認識するとき、局所的なパッチは、長い耳やふわふわした尾などの独特の手がかりを符号化し、認識の補完的な証拠を与える。本研究は,CLIPをベースとしたCLIのためのSPA(Semantic-Guided Patch-level Alignment)を提案する。具体的には,各クラスに対して,まず代表的かつ多様な視覚サンプルを作成し,それらを視覚指導として GPT-5 に供給し,クラスワイドな意味記述を生成する。これらの記述は、識別的パッチレベルの視覚的特徴の選択を導くために使用される。選択したパッチをベースとして,選択したパッチトークンとクラス記述からのセマンティックトークンを整列する最適なトランスポートを用いて,認識を改善する構造的クロスモーダルアライメントを実現する。さらに、下流インクリメンタルなタスクに効果的に適応するためのタスク固有のプロジェクタを導入し、記憶されたクラスワイドガウス統計から擬似特徴をサンプリングし、古いクラス表現を校正し、破滅的な忘れを緩和する。大規模な実験により、SPAが最先端のパフォーマンスを達成することが示された。

関連論文リスト

Unleashing the Power of Vision-Language Models for Long-Tailed Multi-Label Visual Recognition [55.189113121465816]
本稿では,長い尾を持つ多ラベル視覚認識のための新しい相関適応プロンプトネットワーク(CAPNET)を提案する。 CAPNETはCLIPのテキストエンコーダからの相関を明示的にモデル化する。テスト時間アンサンブルによる一般化を改善し、視覚・テクスチャのモダリティを実現する。
論文参考訳（メタデータ） (2025-11-25T18:57:28Z)
Hierarchical Representation Matching for CLIP-based Class-Incremental Learning [80.2317078787969]
クラスインクリメンタルラーニング(Class-Incremental Learning, CIL)は、進化するデータストリームに継続的に適応可能なモデルを提供することを目的とする。事前訓練された視覚言語モデル(例えばCLIP)の最近の進歩は、このタスクの強力な基盤を提供する。本稿では,CLIPベースのCILのためのHiErarchical Representation MAtchiNg(HERMAN)を紹介する。
論文参考訳（メタデータ） (2025-09-26T17:59:51Z)
Exploring CLIP's Dense Knowledge for Weakly Supervised Semantic Segmentation [19.26516470653798]
画像レベルラベル付き弱スーパービジョンセマンティック(WSSS)は、クラスマップ(CAM)を用いた画素レベルの予測を実現することを目的としている。最近の手法は主にCAM生成のための画像テキストアライメントに重点を置いているが、パッチテキストアライメントにおけるCLIPの可能性はいまだ解明されていない。我々は,WSSS のパッチテキストアライメントパラダイムを通じて,CLIP の密集した知識を探索する ExCEL を提案する。
論文参考訳（メタデータ） (2025-03-26T02:00:49Z)
Self-Calibrated CLIP for Training-Free Open-Vocabulary Segmentation [19.749490092520006]
Self-Calibrated CLIP (SC-CLIP) は、CLIPを校正してより微細な表現を生成する訓練不要の手法である。 SC-CLIPはバニラCLIP ViT-L/14の性能を6.8倍向上させる。
論文参考訳（メタデータ） (2024-11-24T15:14:05Z)
TagCLIP: A Local-to-Global Framework to Enhance Open-Vocabulary Multi-Label Classification of CLIP Without Training [29.431698321195814]
Contrastive Language-Image Pre-Training (CLIP) はオープン語彙分類において顕著な能力を示した。 CLIPは、グローバル機能が最も顕著なクラスに支配される傾向があるため、マルチラベルデータセットのパフォーマンスが低い。画像タグを得るための局所言語フレームワークを提案する。
論文参考訳（メタデータ） (2023-12-20T08:15:40Z)
CLIP meets Model Zoo Experts: Pseudo-Supervision for Visual Enhancement [65.47237619200442]
Contrastive Language Image Pretraining (CLIP)は、視覚言語モデルを訓練するための標準手法である。モデル動物園からのタスク固有の視覚モデルを用いてCLIPトレーニングを強化し、視覚的表現を改善する。この単純なセットアップは、異なるビジョンタスク間で最大16.3%の大幅な改善を示している。
論文参考訳（メタデータ） (2023-10-21T20:20:13Z)
MCTformer+: Multi-Class Token Transformer for Weakly Supervised Semantic Segmentation [90.73815426893034]
弱教師付きセマンティックセグメンテーションの強化を目的としたトランスフォーマーベースのフレームワークを提案する。複数のクラストークンを組み込んだマルチクラストークン変換器を導入し,パッチトークンとのクラス認識インタラクションを実現する。識別型クラストークンの学習を促進するために,Contrastive-Class-Token (CCT)モジュールを提案する。
論文参考訳（メタデータ） (2023-08-06T03:30:20Z)
Calibrating Class Activation Maps for Long-Tailed Visual Recognition [60.77124328049557]
本稿では,CNNの長期分布からネットワーク学習を改善するための2つの効果的な修正を提案する。まず,ネットワーク分類器の学習と予測を改善するために,CAMC (Class Activation Map) モジュールを提案する。第2に,長期化問題における表現学習における正規化分類器の利用について検討する。
論文参考訳（メタデータ） (2021-08-29T05:45:03Z)
SCARF: Self-Supervised Contrastive Learning using Random Feature Corruption [72.35532598131176]
本稿では,特徴のランダムなサブセットを乱してビューを形成するコントラスト学習手法であるSCARFを提案する。 SCARFは既存の戦略を補完し、オートエンコーダのような代替手段より優れていることを示す。
論文参考訳（メタデータ） (2021-06-29T08:08:33Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。