論文の概要: Reproducibility Study of CDUL: CLIP-Driven Unsupervised Learning for Multi-Label Image Classification
- arxiv url: http://arxiv.org/abs/2405.11574v1
- Date: Sun, 19 May 2024 14:48:19 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-21 15:12:36.331007
- Title: Reproducibility Study of CDUL: CLIP-Driven Unsupervised Learning for Multi-Label Image Classification
- Title(参考訳): マルチラベル画像分類のためのCLIP駆動型教師なし学習CDULの再現性の検討
- Authors: Manan Shah, Yash Bhalgat,
- Abstract要約: 本報告は,マルチラベル画像分類のためのCDUL: CLIP駆動型教師なし学習に関する研究である。
元の論文で定義されたメソッド全体に対して、再現性があり、よくコメントされ、オープンソースのコード実装を提供する。
- 参考スコア(独自算出の注目度): 3.97478982737167
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This report is a reproducibility study of the paper "CDUL: CLIP-Driven Unsupervised Learning for Multi-Label Image Classification" (Abdelfattah et al, ICCV 2023). Our report makes the following contributions: (1) We provide a reproducible, well commented and open-sourced code implementation for the entire method specified in the original paper. (2) We try to verify the effectiveness of the novel aggregation strategy which uses the CLIP model to initialize the pseudo labels for the subsequent unsupervised multi-label image classification task. (3) We try to verify the effectiveness of the gradient-alignment training method specified in the original paper, which is used to update the network parameters and pseudo labels. The code can be found at https://github.com/cs-mshah/CDUL
- Abstract(参考訳): 本稿では,CDUL: CLIP-Driven Unsupervised Learning for Multi-Label Image Classification (Abdelfattah et al, ICCV 2023)の再現性について述べる。
本報告では,(1)本論文で規定された全メソッドに対して,再現性が高く,よくコメントされ,オープンソースなコード実装を提供する。
2) 擬似ラベルを初期化するためにCLIPモデルを用いた新たな集約戦略の有効性を検証する。
(3) ネットワークパラメータと擬似ラベルを更新するための勾配調整訓練手法の有効性を検証する。
コードはhttps://github.com/cs-mshah/CDULで確認できる。
関連論文リスト
- LC-Protonets: Multi-label Few-shot learning for world music audio tagging [65.72891334156706]
ラベル結合型プロトタイプネットワーク(LC-Protonets)を導入し,複数ラベルの複数ショット分類の問題に対処する。
LC-Protonetsは、限られたトレーニング項目に存在するラベルのパワーセットから、ラベルの組み合わせごとに1つのプロトタイプを生成する。
本手法は,様々な文化をカバーし,現代音楽と伝統音楽の両方を含む,多様な音楽データセットにまたがる自動音声タグ付けに適用する。
論文 参考訳(メタデータ) (2024-09-17T15:13:07Z) - TagCLIP: A Local-to-Global Framework to Enhance Open-Vocabulary
Multi-Label Classification of CLIP Without Training [29.431698321195814]
Contrastive Language-Image Pre-Training (CLIP) はオープン語彙分類において顕著な能力を示した。
CLIPは、グローバル機能が最も顕著なクラスに支配される傾向があるため、マルチラベルデータセットのパフォーマンスが低い。
画像タグを得るための局所言語フレームワークを提案する。
論文 参考訳(メタデータ) (2023-12-20T08:15:40Z) - CUCL: Codebook for Unsupervised Continual Learning [129.91731617718781]
本研究は,教師なし連続学習(UCL)の代替として,教師なし連続学習(UCL)に焦点を当てている。
本稿では,教師なし連続学習のためのCodebook for Unsupervised Continual Learning (CUCL) という手法を提案する。
本手法は教師なしおよび教師なしの手法の性能を大幅に向上させる。
論文 参考訳(メタデータ) (2023-11-25T03:08:50Z) - CDUL: CLIP-Driven Unsupervised Learning for Multi-Label Image
Classification [23.392746466420128]
アノテーションのないマルチラベル画像分類のためのCLIPに基づく教師なし学習手法を提案する。
我々は、強力なCLIPモデルを完全に活用し、グローバルローカルな画像-テキスト類似性アグリゲーションに基づくマルチラベル予測のためのCLIPの拡張手法を提案する。
提案手法は,MS-COCO,PASCAL VOC 2007,PASCAL VOC 2012,NASデータセット上で,最先端の教師なし手法より優れている。
論文 参考訳(メタデータ) (2023-07-31T13:12:02Z) - Enhancing CLIP with CLIP: Exploring Pseudolabeling for Limited-Label
Prompt Tuning [11.284317518288153]
本稿では, 擬似ラベル, すなわちラベルなしデータのラベルを用いて, 即時チューニングによるCLIPの強化について検討する。
半教師付き, トランスダクティブなゼロショット, 教師なし学習といった学習パラダイムは, すべて同じ損失関数の最適化とみなすことができる。
1) 擬似ラベルを反復的に洗練する未探索プロンプトチューニング戦略は,半教師あり学習では19.5ポイント,帰納的ゼロショット学習では28.4ポイント,教師なし学習では15.2ポイント,CLIP精度を継続的に向上させる。
論文 参考訳(メタデータ) (2023-06-02T16:43:05Z) - Transductive CLIP with Class-Conditional Contrastive Learning [68.51078382124331]
雑音ラベル付き分類ネットワークをスクラッチから学習するための新しいフレームワークであるTransductive CLIPを提案する。
擬似ラベルへの依存を軽減するために,クラス条件のコントラスト学習機構を提案する。
アンサンブルラベルは、ノイズラベル付きディープニューラルネットワークのトレーニングを安定化するための擬似ラベル更新戦略として採用されている。
論文 参考訳(メタデータ) (2022-06-13T14:04:57Z) - Masked Unsupervised Self-training for Zero-shot Image Classification [98.23094305347709]
Masked Unsupervised Self-Training (MUST)は、疑似ラベルと生画像という2つの異なる、補完的な監督源を活用する新しいアプローチである。
MUSTはCLIPを大きなマージンで改善し、教師なしと教師なしの分類のパフォーマンスギャップを狭める。
論文 参考訳(メタデータ) (2022-06-07T02:03:06Z) - Multi-label Iterated Learning for Image Classification with Label
Ambiguity [3.5736176624479654]
単一ラベルからの多ラベル学習の帰納バイアスを組み込むために,多ラベル反復学習(MILe)を提案する。
MILeは、バイナリ予測を伝搬することにより、画像のマルチラベル記述を構築する、シンプルだが効果的な手順である。
我々は,MILeがラベルノイズを効果的に低減し,WebVisionのような実世界の大規模ノイズデータに対して最先端の性能を実現することを示す。
論文 参考訳(メタデータ) (2021-11-23T22:10:00Z) - Weakly-Supervised Image Semantic Segmentation Using Graph Convolutional
Networks [9.066817971329899]
画像レベルクラスラベルに基づく弱教師付き画像意味セグメンテーション
このタスクの一般的なアプローチは、ランダムウォーク機構を用いてクラス活性化マップ(CAM)のアクティベーションスコアを伝搬することである。
グラフ畳み込みネットワーク(GCN)に基づく特徴伝達フレームワークを提案する。
論文 参考訳(メタデータ) (2021-03-31T02:05:01Z) - Grafit: Learning fine-grained image representations with coarse labels [114.17782143848315]
本稿では,学習ラベルの提供するものよりも細かな表現を学習する問題に対処する。
粗いラベルと下層の細粒度潜在空間を併用することにより、カテゴリレベルの検索手法の精度を大幅に向上させる。
論文 参考訳(メタデータ) (2020-11-25T19:06:26Z) - Unsupervised Person Re-identification via Multi-label Classification [55.65870468861157]
本稿では,教師なしのReIDを多ラベル分類タスクとして定式化し,段階的に真のラベルを求める。
提案手法は,まず,各人物画像に単一クラスラベルを割り当てることから始まり,ラベル予測のために更新されたReIDモデルを活用することで,多ラベル分類へと進化する。
マルチラベル分類におけるReIDモデルのトレーニング効率を高めるために,メモリベースマルチラベル分類損失(MMCL)を提案する。
論文 参考訳(メタデータ) (2020-04-20T12:13:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。