論文の概要: CLIP meets DINO for Tuning Zero-Shot Classifier using Unlabeled Image Collections
- arxiv url: http://arxiv.org/abs/2411.19346v1
- Date: Thu, 28 Nov 2024 19:48:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-02 15:23:08.908143
- Title: CLIP meets DINO for Tuning Zero-Shot Classifier using Unlabeled Image Collections
- Title(参考訳): ラベルなし画像コレクションを用いたゼロショット分類器のチューニングのためのDINOとCLIP
- Authors: Mohamed Fazli Imam, Rufael Fedaku Marew, Jameel Hassan, Mustansar Fiaz, Alham Fikri Aji, Hisham Cholakkal,
- Abstract要約: ラベル付き画像を用いたCLIPに基づく画像分類性能を向上させるためのラベルフリーなプロンプトチューニング手法を提案する。
私たちのフレームワークであるNoLA(No Labels Attached)は、11の多様な画像分類データセットに対して、最先端のLaFterよりも平均3.6%の絶対的な増加を実現しています。
- 参考スコア(独自算出の注目度): 22.32157080294386
- License:
- Abstract: In the era of foundation models, CLIP has emerged as a powerful tool for aligning text and visual modalities into a common embedding space. However, the alignment objective used to train CLIP often results in subpar visual features for fine-grained tasks. In contrast, SSL-pretrained models like DINO excel at extracting rich visual features due to their specialized training paradigm. Yet, these SSL models require an additional supervised linear probing step, which relies on fully labeled data which is often expensive and difficult to obtain at scale. In this paper, we propose a label-free prompt-tuning method that leverages the rich visual features of self-supervised learning models (DINO) and the broad textual knowledge of large language models (LLMs) to largely enhance CLIP-based image classification performance using unlabeled images. Our approach unfolds in three key steps: (1) We generate robust textual feature embeddings that more accurately represent object classes by leveraging class-specific descriptions from LLMs, enabling more effective zero-shot classification compared to CLIP's default name-specific prompts. (2) These textual embeddings are then used to produce pseudo-labels to train an alignment module that integrates the complementary strengths of LLM description-based textual embeddings and DINO's visual features. (3) Finally, we prompt-tune CLIP's vision encoder through DINO-assisted supervision using the trained alignment module. This three-step process allows us to harness the best of visual and textual foundation models, resulting in a powerful and efficient approach that surpasses state-of-the-art label-free classification methods. Notably, our framework, NoLA (No Labels Attached), achieves an average absolute gain of 3.6% over the state-of-the-art LaFter across 11 diverse image classification datasets.
- Abstract(参考訳): 基礎モデルの時代、CLIPはテキストと視覚のモダリティを共通の埋め込み空間に整列するための強力なツールとして登場した。
しかし、CLIPのトレーニングに使用されるアライメントの目的はしばしば、きめ細かいタスクの視覚的特徴の不足をもたらす。
対照的に、DINOのようなSSLで事前トレーニングされたモデルは、独自のトレーニングパラダイムのため、リッチな視覚的特徴の抽出に優れています。
しかし、これらのSSLモデルは、しばしば高価で大規模な取得が困難である完全なラベル付きデータに依存する、教師付き線形探索ステップを必要とする。
本稿では,自己教師付き学習モデル(DINO)のリッチな視覚的特徴と,大規模言語モデル(LLM)の広いテキスト的知識を活用して,ラベル付き画像を用いたCLIPに基づく画像分類性能を大幅に向上させる,ラベルフリーなプロンプトチューニング手法を提案する。
1) LLMからクラス固有の記述を活用することで、オブジェクトクラスをより正確に表現する堅牢なテキスト機能埋め込みを生成し、CLIPのデフォルトの名前固有のプロンプトと比較して、より効果的なゼロショット分類を可能にします。
2) これらのテキスト埋め込みは, LLM記述に基づくテキスト埋め込みとDINOの視覚的特徴を補完するアライメントモジュールをトレーニングするために, 擬似ラベルを生成するために使用される。
(3) 最後に, トレーニングしたアライメントモジュールを用いて, DINOによる監視を通してCLIPの視覚エンコーダをチューニングした。
この3段階のプロセスにより、視覚的およびテキスト的基礎モデルの長所を活用でき、その結果、最先端のラベルなし分類手法を超越した、強力で効率的なアプローチが得られる。
特に、当社のフレームワークであるNoLA(No Labels Attached)は、11のさまざまなイメージ分類データセットに対して、最先端のLaFterよりも平均3.6%の絶対的な増加を実現しています。
関連論文リスト
- DINOv2 Meets Text: A Unified Framework for Image- and Pixel-Level Vision-Language Alignment [20.953645420787527]
計算コストのごく一部でCLIPライクなモデルをトレーニングする。
ゼロショット分類とオープンボキャブラリセマンティックセマンティックセグメンテーションの最先端結果を得る。
論文 参考訳(メタデータ) (2024-12-20T20:46:48Z) - LMSeg: Unleashing the Power of Large-Scale Models for Open-Vocabulary Semantic Segmentation [16.864086165056698]
既存のオープン語彙アプローチでは、CLIPなどのビジョン言語モデルを活用して、大規模なビジョン言語データセットの事前トレーニングを通じて取得したリッチなセマンティック機能と視覚機能を整合させる。
本稿では,複数の大規模モデルを活用して,より細かい視覚的特徴と豊かな言語的特徴との整合性を高めることで問題を緩和することを提案する。
提案手法は,すべての主要な開語彙セグメンテーションベンチマークにおける最先端性能を実現する。
論文 参考訳(メタデータ) (2024-11-30T05:49:42Z) - CLIP-Decoder : ZeroShot Multilabel Classification using Multimodal CLIP Aligned Representation [12.994898879803642]
CLIP-Decoderは最先端のML-Decoderアテンションベースのヘッドに基づく新しい手法である。
CLIP-Decoderにマルチモーダル表現学習を導入し、テキストエンコーダを用いてテキスト特徴と画像特徴抽出のための画像エンコーダを抽出する。
本手法は,ゼロショット学習マルチラベル分類タスクにおける既存の手法と比較して,絶対的な性能向上を実現している。
論文 参考訳(メタデータ) (2024-06-21T02:19:26Z) - Better Call SAL: Towards Learning to Segment Anything in Lidar [63.9984147657437]
本稿では,Lidar内の任意のオブジェクトをセグメント化,分類するためのテキストプロンプト可能なゼロショットモデルを提案する。
擬似ラベルを用いて2次元視覚基盤モデルを用いて3次元の3次元監督を無償で生成する。
我々のモデルは、クラスに依存しない点では91%、ゼロショットのLidar Panopticonでは54%である。
論文 参考訳(メタデータ) (2024-03-19T19:58:54Z) - UMG-CLIP: A Unified Multi-Granularity Vision Generalist for Open-World Understanding [90.74967596080982]
本稿では,マルチグラニュラリティアライメントを備えたコントラスト言語-画像事前学習(CLIP)を拡張した。
UMG-CLIPと呼ばれる統一多言語学習フレームワークを開発した。
パラメータ効率のよいチューニングにより、UMG-CLIPは、現在広く使われているCLIPの亜種を超え、多様な画像理解ベンチマークで最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2024-01-12T06:35:09Z) - CLIP meets Model Zoo Experts: Pseudo-Supervision for Visual Enhancement [65.47237619200442]
Contrastive Language Image Pretraining (CLIP)は、視覚言語モデルを訓練するための標準手法である。
モデル動物園からのタスク固有の視覚モデルを用いてCLIPトレーニングを強化し、視覚的表現を改善する。
この単純なセットアップは、異なるビジョンタスク間で最大16.3%の大幅な改善を示している。
論文 参考訳(メタデータ) (2023-10-21T20:20:13Z) - CLIP Is Also a Good Teacher: A New Learning Framework for Inductive
Zero-shot Semantic Segmentation [6.181169909576527]
汎用Zero-shot Semanticは、目に見えないカテゴリーと見えないカテゴリの両方を、目に見えないカテゴリの監督下だけに分割することを目的としている。
既存の手法では大規模な視覚言語モデル(VLM)を採用しており、ゼロショット性能が優れている。
ゼロショットおよびオープンボキャブラリタスクに適用されたクローズドセットセグメンテーション用に設計された任意のイメージエンコーダを実現するためのトレーニングフレームワークであるCLIP-ZSS(Zero-shot Semantic)を提案する。
論文 参考訳(メタデータ) (2023-10-03T09:33:47Z) - Towards Realistic Zero-Shot Classification via Self Structural Semantic
Alignment [53.2701026843921]
大規模事前訓練型視覚言語モデル(VLM)はゼロショット分類に有効であることが証明されている。
本稿では,アノテーションではなく,より広い語彙を前提とした,より難易度の高いゼロショット分類(Realistic Zero-Shot Classification)を提案する。
本稿では,ラベルのないデータから構造意味情報を抽出し,同時に自己学習を行う自己構造意味アライメント(S3A)フレームワークを提案する。
論文 参考訳(メタデータ) (2023-08-24T17:56:46Z) - Non-Contrastive Learning Meets Language-Image Pre-Training [145.6671909437841]
非コントラスト型言語画像事前学習(nCLIP)の有効性について検討する。
我々は、CLIPとnCLIPを組み合わせたマルチタスクフレームワークであるxCLIPを紹介し、nCLIPが機能セマンティクスの強化にCLIPを支援することを示す。
論文 参考訳(メタデータ) (2022-10-17T17:57:46Z) - Masked Unsupervised Self-training for Zero-shot Image Classification [98.23094305347709]
Masked Unsupervised Self-Training (MUST)は、疑似ラベルと生画像という2つの異なる、補完的な監督源を活用する新しいアプローチである。
MUSTはCLIPを大きなマージンで改善し、教師なしと教師なしの分類のパフォーマンスギャップを狭める。
論文 参考訳(メタデータ) (2022-06-07T02:03:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。