論文の概要: CDUL: CLIP-Driven Unsupervised Learning for Multi-Label Image
Classification
- arxiv url: http://arxiv.org/abs/2307.16634v1
- Date: Mon, 31 Jul 2023 13:12:02 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-01 14:30:53.454144
- Title: CDUL: CLIP-Driven Unsupervised Learning for Multi-Label Image
Classification
- Title(参考訳): CDUL:マルチラベル画像分類のためのCLIP駆動型教師なし学習
- Authors: Rabab Abdelfattah, Qing Guo, Xiaoguang Li, Xiaofeng Wang, and Song
Wang
- Abstract要約: アノテーションのないマルチラベル画像分類のためのCLIPに基づく教師なし学習手法を提案する。
我々は、強力なCLIPモデルを完全に活用し、グローバルローカルな画像-テキスト類似性アグリゲーションに基づくマルチラベル予測のためのCLIPの拡張手法を提案する。
提案手法は,MS-COCO,PASCAL VOC 2007,PASCAL VOC 2012,NASデータセット上で,最先端の教師なし手法より優れている。
- 参考スコア(独自算出の注目度): 19.879653631441617
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper presents a CLIP-based unsupervised learning method for
annotation-free multi-label image classification, including three stages:
initialization, training, and inference. At the initialization stage, we take
full advantage of the powerful CLIP model and propose a novel approach to
extend CLIP for multi-label predictions based on global-local image-text
similarity aggregation. To be more specific, we split each image into snippets
and leverage CLIP to generate the similarity vector for the whole image
(global) as well as each snippet (local). Then a similarity aggregator is
introduced to leverage the global and local similarity vectors. Using the
aggregated similarity scores as the initial pseudo labels at the training
stage, we propose an optimization framework to train the parameters of the
classification network and refine pseudo labels for unobserved labels. During
inference, only the classification network is used to predict the labels of the
input image. Extensive experiments show that our method outperforms
state-of-the-art unsupervised methods on MS-COCO, PASCAL VOC 2007, PASCAL VOC
2012, and NUS datasets and even achieves comparable results to weakly
supervised classification methods.
- Abstract(参考訳): 本稿では,初期化,トレーニング,推論の3段階を含む,アノテーションのないマルチラベル画像分類のためのCLIPに基づく教師なし学習手法を提案する。
初期化段階では、強力なCLIPモデルを完全に活用し、グローバルローカルな画像-テキスト類似性アグリゲーションに基づくマルチラベル予測のためのCLIPの拡張手法を提案する。
より具体的に言うと、各画像をスニペットに分割し、CLIPを活用して、画像全体(グローバル)と各スニペット(ローカル)の類似性ベクトルを生成する。
次に、大域的および局所的類似性ベクトルを活用するために類似性アグリゲータを導入する。
学習段階の擬似ラベルとして集約された類似度スコアを用いて、分類ネットワークのパラメータをトレーニングし、観測されていないラベルの擬似ラベルを洗練するための最適化フレームワークを提案する。
推論中は、入力画像のラベルを予測するために分類ネットワークのみを使用する。
本手法はMS-COCO, PASCAL VOC 2007, PASCAL VOC 2012, NUSデータセットにおいて最先端の教師なし手法よりも優れており, 弱い教師付き分類法と同等の結果が得られる。
関連論文リスト
- CLIP-Decoder : ZeroShot Multilabel Classification using Multimodal CLIP Aligned Representation [12.994898879803642]
CLIP-Decoderは最先端のML-Decoderアテンションベースのヘッドに基づく新しい手法である。
CLIP-Decoderにマルチモーダル表現学習を導入し、テキストエンコーダを用いてテキスト特徴と画像特徴抽出のための画像エンコーダを抽出する。
本手法は,ゼロショット学習マルチラベル分類タスクにおける既存の手法と比較して,絶対的な性能向上を実現している。
論文 参考訳(メタデータ) (2024-06-21T02:19:26Z) - TagCLIP: A Local-to-Global Framework to Enhance Open-Vocabulary
Multi-Label Classification of CLIP Without Training [29.431698321195814]
Contrastive Language-Image Pre-Training (CLIP) はオープン語彙分類において顕著な能力を示した。
CLIPは、グローバル機能が最も顕著なクラスに支配される傾向があるため、マルチラベルデータセットのパフォーマンスが低い。
画像タグを得るための局所言語フレームワークを提案する。
論文 参考訳(メタデータ) (2023-12-20T08:15:40Z) - Generalized Category Discovery with Clustering Assignment Consistency [56.92546133591019]
一般化圏発見(GCD)は、最近提案されたオープンワールドタスクである。
クラスタリングの一貫性を促進するための協調学習ベースのフレームワークを提案する。
提案手法は,3つの総合的なベンチマークと3つのきめ細かい視覚認識データセット上での最先端性能を実現する。
論文 参考訳(メタデータ) (2023-10-30T00:32:47Z) - Towards Realistic Zero-Shot Classification via Self Structural Semantic
Alignment [53.2701026843921]
大規模事前訓練型視覚言語モデル(VLM)はゼロショット分類に有効であることが証明されている。
本稿では,アノテーションではなく,より広い語彙を前提とした,より難易度の高いゼロショット分類(Realistic Zero-Shot Classification)を提案する。
本稿では,ラベルのないデータから構造意味情報を抽出し,同時に自己学習を行う自己構造意味アライメント(S3A)フレームワークを提案する。
論文 参考訳(メタデータ) (2023-08-24T17:56:46Z) - ISLE: A Framework for Image Level Semantic Segmentation Ensemble [5.137284292672375]
従来のセマンティックセグメンテーションネットワークは、最先端の予測品質に到達するために、大量のピクセル単位のアノテートラベルを必要とする。
クラスレベルで異なるセマンティックセグメンテーション手法のセットに「擬似ラベル」のアンサンブルを用いるISLEを提案する。
私たちはISLEの個々のコンポーネントよりも2.4%改善しています。
論文 参考訳(メタデータ) (2023-03-14T13:36:36Z) - Masked Unsupervised Self-training for Zero-shot Image Classification [98.23094305347709]
Masked Unsupervised Self-Training (MUST)は、疑似ラベルと生画像という2つの異なる、補完的な監督源を活用する新しいアプローチである。
MUSTはCLIPを大きなマージンで改善し、教師なしと教師なしの分類のパフォーマンスギャップを狭める。
論文 参考訳(メタデータ) (2022-06-07T02:03:06Z) - Zero-Shot Recognition through Image-Guided Semantic Classification [9.291055558504588]
ゼロショット学習(ZSL)のための新しい埋め込み型フレームワークを提案する。
複数ラベル分類のための2値関係法により,画像と意味分類器のマッピングを逆学習する手法を提案する。
IGSCは概念的には単純であり、分類のための既存のディープアーキテクチャをわずかに拡張することで実現可能である。
論文 参考訳(メタデータ) (2020-07-23T06:22:40Z) - Joint Visual and Temporal Consistency for Unsupervised Domain Adaptive
Person Re-Identification [64.37745443119942]
本稿では,局所的なワンホット分類とグローバルなマルチクラス分類を組み合わせることで,視覚的・時間的整合性を両立させる。
3つの大規模ReIDデータセットの実験結果は、教師なしと教師なしの両方のドメイン適応型ReIDタスクにおいて提案手法の優位性を示す。
論文 参考訳(メタデータ) (2020-07-21T14:31:27Z) - Fine-Grained Visual Classification with Efficient End-to-end
Localization [49.9887676289364]
本稿では,エンド・ツー・エンドの設定において,分類ネットワークと融合可能な効率的なローカライゼーションモジュールを提案する。
我々は,CUB200-2011,Stanford Cars,FGVC-Aircraftの3つのベンチマークデータセット上で,新しいモデルを評価する。
論文 参考訳(メタデータ) (2020-05-11T14:07:06Z) - Unsupervised Person Re-identification via Multi-label Classification [55.65870468861157]
本稿では,教師なしのReIDを多ラベル分類タスクとして定式化し,段階的に真のラベルを求める。
提案手法は,まず,各人物画像に単一クラスラベルを割り当てることから始まり,ラベル予測のために更新されたReIDモデルを活用することで,多ラベル分類へと進化する。
マルチラベル分類におけるReIDモデルのトレーニング効率を高めるために,メモリベースマルチラベル分類損失(MMCL)を提案する。
論文 参考訳(メタデータ) (2020-04-20T12:13:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。