論文の概要: microCLIP: Unsupervised CLIP Adaptation via Coarse-Fine Token Fusion for Fine-Grained Image Classification
- arxiv url: http://arxiv.org/abs/2510.02270v1
- Date: Thu, 02 Oct 2025 17:47:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-03 16:59:21.26633
- Title: microCLIP: Unsupervised CLIP Adaptation via Coarse-Fine Token Fusion for Fine-Grained Image Classification
- Title(参考訳): microCLIP: きめ細かい画像分類のための粗いフィントケン融合による教師なしCLIP適応
- Authors: Sathira Silva, Eman Ali, Chetan Arora, Muhammad Haris Khan,
- Abstract要約: 微細な画像分類のためのCLIPベースの視覚モデル(VLM)の教師なし適応には、顕微鏡的局所的手がかりに対する感度が必要である。
我々は,CLIPの視覚的表現とテキスト的表現を微調整する自己学習フレームワークである$textbfmicroCLIP$を提案する。
- 参考スコア(独自算出の注目度): 22.795156284628053
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Unsupervised adaptation of CLIP-based vision-language models (VLMs) for fine-grained image classification requires sensitivity to microscopic local cues. While CLIP exhibits strong zero-shot transfer, its reliance on coarse global features restricts its performance on fine-grained classification tasks. Prior efforts inject fine-grained knowledge by aligning large language model (LLM) descriptions with the CLIP $\texttt{[CLS]}$ token; however, this approach overlooks spatial precision. We propose $\textbf{microCLIP}$, a self-training framework that jointly refines CLIP's visual and textual representations using fine-grained cues. At its core is Saliency-Oriented Attention Pooling (SOAP) within a lightweight TokenFusion module, which builds a saliency-guided $\texttt{[FG]}$ token from patch embeddings and fuses it with the global $\texttt{[CLS]}$ token for coarse-fine alignment. To stabilize adaptation, we introduce a two-headed LLM-derived classifier: a frozen classifier that, via multi-view alignment, provides a stable text-based prior for pseudo-labeling, and a learnable classifier initialized from LLM descriptions and fine-tuned with TokenFusion. We further develop Dynamic Knowledge Aggregation, which convexly combines fixed LLM/CLIP priors with TokenFusion's evolving logits to iteratively refine pseudo-labels. Together, these components uncover latent fine-grained signals in CLIP, yielding a consistent $2.90\%$ average accuracy gain across 13 fine-grained benchmarks while requiring only light adaptation. Our code is available at https://github.com/sathiiii/microCLIP.
- Abstract(参考訳): 微細な画像分類のためのCLIPベースの視覚言語モデル(VLM)の教師なし適応には、顕微鏡的局所的手がかりに対する感度が必要である。
CLIPは強いゼロショット転送を示すが、粗いグローバル機能への依存は、きめ細かい分類タスクのパフォーマンスを制限する。
以前の取り組みでは、大きな言語モデル(LLM)記述をCLIP $\texttt{[CLS]}$トークンと整合させることで、きめ細かい知識を注入していたが、このアプローチは空間的精度を見落としている。
我々は,CLIPの視覚的およびテキスト的表現をきめ細かなキューを用いて共同で洗練する自己学習フレームワークである$\textbf{microCLIP}$を提案する。
中心となるのは、軽量TokenFusionモジュール内のSalliency-Oriented Attention Pooling (SOAP)であり、これは、パッチ埋め込みからSaliency-Guided $\texttt{[FG]}$トークンを構築し、粗いアライメントのためのグローバル$\texttt{[CLS]}$トークンと融合する。
適応を安定させるために,複数ビューアライメントにより,擬似ラベルに先立って安定したテキストベースを提供する冷凍分類器と,LLM記述から初期化してTokenFusionで微調整する学習可能な分類器を導入する。
さらに,固定LLM/CLIP先行値とTokenFusionの進化するロジットを連接的に組み合わせて,擬似ラベルを反復的に洗練する動的知識集約法を開発した。
これらのコンポーネントはCLIPの遅延した微粒な信号を発見し、13の微粒なベンチマークで平均的精度が2.90 %上昇し、光順応しか必要としない。
私たちのコードはhttps://github.com/sathiiii/microCLIPで利用可能です。
関連論文リスト
- Bridge Feature Matching and Cross-Modal Alignment with Mutual-filtering for Zero-shot Anomaly Detection [25.349261412750586]
本研究では,ZSAD 用 textbfFiSeCLIP とトレーニング不要 textbfCLIP を導入し,特徴マッチングとクロスモーダルアライメントを組み合わせた。
本手法は,異常検出ベンチマークにおいて,異常分類とセグメンテーションの両方において優れた性能を示す。
論文 参考訳(メタデータ) (2025-07-15T05:42:17Z) - Partial CLIP is Enough: Chimera-Seg for Zero-shot Semantic Segmentation [55.486872677160015]
本稿では,体としてのセグメンテーションバックボーンと,頭部としてのCLIPベースのセマンティックヘッドを統合したChimera-Segを提案する。
特に、Chimera-Segはトレーニング可能なセグメンテーションモデルとCLIPセマンティックヘッド(CLIP Semantic Head, CSH)を備えており、CLIP対応空間に高密度な特徴をマッピングする。
また,CLIP CLSトークンと高い類似性を示す濃厚な特徴から知識を抽出する選択的グローバル蒸留(SGD)を提案する。
論文 参考訳(メタデータ) (2025-06-27T09:26:50Z) - CLIP meets DINO for Tuning Zero-Shot Classifier using Unlabeled Image Collections [22.32157080294386]
ラベル付き画像を用いたCLIPに基づく画像分類性能を向上させるためのラベルフリーなプロンプトチューニング手法を提案する。
当社のフレームワークであるNoLA(No Labels Attached)は,最先端のLaFTerよりも平均3.6%向上しています。
論文 参考訳(メタデータ) (2024-11-28T19:48:54Z) - African or European Swallow? Benchmarking Large Vision-Language Models for Fine-Grained Object Classification [53.89380284760555]
textttFOCI (textbfFine-fine textbfObject textbfClasstextbfIfication) は、きめ細かいオブジェクト分類のための難しい多重選択ベンチマークである。
textttFOCIxspaceは、ImageNet-21kから4つのドメイン固有のサブセットで5つの一般的な分類データセットを補完する。
論文 参考訳(メタデータ) (2024-06-20T16:59:39Z) - Cascade-CLIP: Cascaded Vision-Language Embeddings Alignment for Zero-Shot Semantic Segmentation [72.47110803885235]
ゼロショットセマンティックセグメンテーションのための新しいフレームワークCascade-CLIPを提案する。
このフレームワークはCOCO-Stuff, Pascal-VOC, Pascal-Contextといったセグメンテーションベンチマークにおいて優れたゼロショット性能を実現する。
論文 参考訳(メタデータ) (2024-06-02T08:32:51Z) - Semantic Equitable Clustering: A Simple and Effective Strategy for Clustering Vision Tokens [57.37893387775829]
我々はSemantic Equitable Clustering(SEC)という,高速かつバランスの取れたクラスタリング手法を導入する。
SECは、グローバルなセマンティックな関連性に基づいてトークンを効率的かつ直接的な方法でクラスタ化する。
視覚言語コネクタとして機能する汎用視覚バックボーンであるSECViTを提案する。
論文 参考訳(メタデータ) (2024-05-22T04:49:00Z) - CLIP Is Also a Good Teacher: A New Learning Framework for Inductive
Zero-shot Semantic Segmentation [6.181169909576527]
汎用Zero-shot Semanticは、目に見えないカテゴリーと見えないカテゴリの両方を、目に見えないカテゴリの監督下だけに分割することを目的としている。
既存の手法では大規模な視覚言語モデル(VLM)を採用しており、ゼロショット性能が優れている。
ゼロショットおよびオープンボキャブラリタスクに適用されたクローズドセットセグメンテーション用に設計された任意のイメージエンコーダを実現するためのトレーニングフレームワークであるCLIP-ZSS(Zero-shot Semantic)を提案する。
論文 参考訳(メタデータ) (2023-10-03T09:33:47Z) - Improving Zero-Shot Generalization for CLIP with Synthesized Prompts [135.4317555866831]
既存のほとんどのメソッドは、実世界のアプリケーションでは保持できない全てのクラスにラベル付きデータを必要とする。
既存の微調整法を改善するために,textbfSynttextbfHestextbfIzed textbfPrompts(textbfSHIP)と呼ばれるプラグアンドプレイ生成手法を提案する。
論文 参考訳(メタデータ) (2023-07-14T15:15:45Z) - [CLS] Token is All You Need for Zero-Shot Semantic Segmentation [60.06653755695356]
本稿では,事前学習された視覚言語モデルCLIPに基づく,恥ずかしいほどシンプルで効果的なゼロショットセマンティックセマンティックセマンティックセマンティクス(ZS3)法を提案する。
具体的には、テキストブランチから出力される[text]トークンを補助的なセマンティックプロンプトとして使用し、ViTベースのビジュアルエンコーダの浅い層におけるナビゲーション[text]トークンを置き換える。
提案したZS3法は,SOTA性能を達成し,その数発のセマンティックセマンティックセグメンテーション法と同等である。
論文 参考訳(メタデータ) (2023-04-13T01:35:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。