論文の概要: TagCLIP: A Local-to-Global Framework to Enhance Open-Vocabulary
Multi-Label Classification of CLIP Without Training
- arxiv url: http://arxiv.org/abs/2312.12828v1
- Date: Wed, 20 Dec 2023 08:15:40 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-21 16:27:02.928810
- Title: TagCLIP: A Local-to-Global Framework to Enhance Open-Vocabulary
Multi-Label Classification of CLIP Without Training
- Title(参考訳): TagCLIP:CLIPのオープン語彙のマルチラベル分類を支援するローカル-グローバルフレームワーク
- Authors: Yuqi Lin, Minghao Chen, Kaipeng Zhang, Hengjia Li, Mingming Li, Zheng
Yang, Dongqin Lv, Binbin Lin, Haifeng Liu, Deng Cai
- Abstract要約: Contrastive Language-Image Pre-Training (CLIP) はオープン語彙分類において顕著な能力を示した。
CLIPは、グローバル機能が最も顕著なクラスに支配される傾向があるため、マルチラベルデータセットのパフォーマンスが低い。
画像タグを得るための局所言語フレームワークを提案する。
- 参考スコア(独自算出の注目度): 29.431698321195814
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Contrastive Language-Image Pre-training (CLIP) has demonstrated impressive
capabilities in open-vocabulary classification. The class token in the image
encoder is trained to capture the global features to distinguish different text
descriptions supervised by contrastive loss, making it highly effective for
single-label classification. However, it shows poor performance on multi-label
datasets because the global feature tends to be dominated by the most prominent
class and the contrastive nature of softmax operation aggravates it. In this
study, we observe that the multi-label classification results heavily rely on
discriminative local features but are overlooked by CLIP. As a result, we
dissect the preservation of patch-wise spatial information in CLIP and proposed
a local-to-global framework to obtain image tags. It comprises three steps: (1)
patch-level classification to obtain coarse scores; (2) dual-masking attention
refinement (DMAR) module to refine the coarse scores; (3) class-wise
reidentification (CWR) module to remedy predictions from a global perspective.
This framework is solely based on frozen CLIP and significantly enhances its
multi-label classification performance on various benchmarks without
dataset-specific training. Besides, to comprehensively assess the quality and
practicality of generated tags, we extend their application to the downstream
task, i.e., weakly supervised semantic segmentation (WSSS) with generated tags
as image-level pseudo labels. Experiments demonstrate that this
classify-then-segment paradigm dramatically outperforms other annotation-free
segmentation methods and validates the effectiveness of generated tags. Our
code is available at https://github.com/linyq2117/TagCLIP.
- Abstract(参考訳): Contrastive Language-Image Pre-Training (CLIP) はオープン語彙分類において顕著な能力を示した。
画像エンコーダのクラストークンは、対照的な損失によって教師される異なるテキスト記述を区別するために、グローバルな特徴をキャプチャするために訓練される。
しかし、グローバルな特徴が最も顕著なクラスに支配される傾向にあり、ソフトマックス操作の対照的な性質が増すため、マルチラベルデータセットの性能は低い。
本研究では,複数ラベルの分類結果が識別的局所的特徴に大きく依存するが,CLIPでは見落としている。
結果として,CLIPにおけるパッチワイド空間情報の保存を識別し,画像タグを得るためのローカル・グローバル・フレームワークを提案する。
1)粗いスコアを得るためのパッチレベル分類,(2)粗いスコアを洗練するための二重マスキング注意改善(DMAR)モジュール,(3)世界的観点からの予測を改善するためのクラスワイド・リアイデンティティ(CWR)モジュールである。
このフレームワークはフリーズされたCLIPのみに基づいており、データセット固有のトレーニングなしでさまざまなベンチマーク上でのマルチラベル分類性能を大幅に向上させる。
また、生成タグの品質と実用性を総合的に評価するために、生成タグを画像レベル擬似ラベルとして、そのアプリケーションを下流タスク、すなわちwsss(weakly supervised semantic segmentation)に拡張する。
実験により、この分類・分類のパラダイムは、他のアノテーションのないセグメンテーション手法よりも劇的に優れており、生成したタグの有効性が検証されている。
私たちのコードはhttps://github.com/linyq2117/TagCLIPで利用可能です。
関連論文リスト
- LayerMatch: Do Pseudo-labels Benefit All Layers? [77.59625180366115]
半教師付き学習はラベル付きデータの依存性を軽減するための有望なソリューションを提供する。
我々はGrad-ReLUとAvg-Clusteringという2つの層固有の擬似ラベル戦略を開発した。
提案手法は,標準的な半教師付き学習ベンチマークにおいて,例外的な性能を示す。
論文 参考訳(メタデータ) (2024-06-20T11:25:50Z) - Learning Label Hierarchy with Supervised Contrastive Learning [8.488965459026678]
教師付きコントラスト学習(SCL)フレームワークは、各クラスを独立したものとして扱うため、すべてのクラスが等しく重要であるとみなす。
本稿では,クラス間の類似性を利用して階層情報をSCLに組み込んだラベル認識型SCL手法(LASCL)のファミリーを紹介する。
3つのデータセットに対する実験により、提案したLASCLは、複数ラベルの1つのラベルを区別するテキスト分類にうまく機能することが示された。
論文 参考訳(メタデータ) (2024-01-31T23:21:40Z) - CDUL: CLIP-Driven Unsupervised Learning for Multi-Label Image
Classification [23.392746466420128]
アノテーションのないマルチラベル画像分類のためのCLIPに基づく教師なし学習手法を提案する。
我々は、強力なCLIPモデルを完全に活用し、グローバルローカルな画像-テキスト類似性アグリゲーションに基づくマルチラベル予測のためのCLIPの拡張手法を提案する。
提案手法は,MS-COCO,PASCAL VOC 2007,PASCAL VOC 2012,NASデータセット上で,最先端の教師なし手法より優れている。
論文 参考訳(メタデータ) (2023-07-31T13:12:02Z) - Learning Disentangled Label Representations for Multi-label
Classification [39.97251974500034]
One-Shared-Feature-for-Multiple-Labels (OFML) は識別ラベルの特徴を学習するのに役立ちません。
我々は,One-specific-Feature-for-One-Label(OFOL)機構を導入し,新しいアンタングル付きラベル特徴学習フレームワークを提案する。
8つのデータセットで最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2022-12-02T21:49:34Z) - Scaling up Multi-domain Semantic Segmentation with Sentence Embeddings [81.09026586111811]
ゼロショット設定に適用した場合、最先端の教師付き性能を実現するセマンティックセマンティックセマンティクスへのアプローチを提案する。
これは各クラスラベルを、クラスを記述する短い段落のベクトル値の埋め込みに置き換えることによって達成される。
結果として得られた200万以上の画像の統合セマンティックセグメンテーションデータセットは、7つのベンチマークデータセット上の最先端の教師付きメソッドと同等のパフォーマンスを達成するモデルをトレーニングすることができる。
論文 参考訳(メタデータ) (2022-02-04T07:19:09Z) - SCARF: Self-Supervised Contrastive Learning using Random Feature
Corruption [72.35532598131176]
本稿では,特徴のランダムなサブセットを乱してビューを形成するコントラスト学習手法であるSCARFを提案する。
SCARFは既存の戦略を補完し、オートエンコーダのような代替手段より優れていることを示す。
論文 参考訳(メタデータ) (2021-06-29T08:08:33Z) - Generative Multi-Label Zero-Shot Learning [136.17594611722285]
マルチラベルゼロショット学習は、トレーニング中にデータが入手できない複数の見えないカテゴリにイメージを分類する試みである。
我々の研究は、(一般化された)ゼロショット設定におけるマルチラベル機能の問題に最初に取り組みました。
私たちのクロスレベル核融合に基づく生成アプローチは、3つのデータセットすべてにおいて最先端の手法よりも優れています。
論文 参考訳(メタデータ) (2021-01-27T18:56:46Z) - Joint Visual and Temporal Consistency for Unsupervised Domain Adaptive
Person Re-Identification [64.37745443119942]
本稿では,局所的なワンホット分類とグローバルなマルチクラス分類を組み合わせることで,視覚的・時間的整合性を両立させる。
3つの大規模ReIDデータセットの実験結果は、教師なしと教師なしの両方のドメイン適応型ReIDタスクにおいて提案手法の優位性を示す。
論文 参考訳(メタデータ) (2020-07-21T14:31:27Z) - Unsupervised Person Re-identification via Multi-label Classification [55.65870468861157]
本稿では,教師なしのReIDを多ラベル分類タスクとして定式化し,段階的に真のラベルを求める。
提案手法は,まず,各人物画像に単一クラスラベルを割り当てることから始まり,ラベル予測のために更新されたReIDモデルを活用することで,多ラベル分類へと進化する。
マルチラベル分類におけるReIDモデルのトレーニング効率を高めるために,メモリベースマルチラベル分類損失(MMCL)を提案する。
論文 参考訳(メタデータ) (2020-04-20T12:13:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。