論文の概要: GET: Unlocking the Multi-modal Potential of CLIP for Generalized Category Discovery
- arxiv url: http://arxiv.org/abs/2403.09974v1
- Date: Fri, 15 Mar 2024 02:40:13 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-18 18:48:40.211354
- Title: GET: Unlocking the Multi-modal Potential of CLIP for Generalized Category Discovery
- Title(参考訳): GET: 一般化カテゴリー発見のためのCLIPのマルチモーダルポテンシャルを解き放つ
- Authors: Enguang Wang, Zhimao Peng, Zhengyuan Xie, Xialei Liu, Ming-Ming Cheng,
- Abstract要約: テキスト埋め込み合成器(TES)を提案する。
提案手法は,CLIPのマルチモーダルポテンシャルを解放し,すべてのGCDベンチマークにおいて,ベースライン手法よりも大きなマージンで性能を向上する。
- 参考スコア(独自算出の注目度): 51.01145921226882
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Given unlabelled datasets containing both old and new categories, generalized category discovery (GCD) aims to accurately discover new classes while correctly classifying old classes, leveraging the class concepts learned from labeled samples. Current GCD methods only use a single visual modality of information, resulting in poor classification of visually similar classes. Though certain classes are visually confused, their text information might be distinct, motivating us to introduce text information into the GCD task. However, the lack of class names for unlabelled data makes it impractical to utilize text information. To tackle this challenging problem, in this paper, we propose a Text Embedding Synthesizer (TES) to generate pseudo text embeddings for unlabelled samples. Specifically, our TES leverages the property that CLIP can generate aligned vision-language features, converting visual embeddings into tokens of the CLIP's text encoder to generate pseudo text embeddings. Besides, we employ a dual-branch framework, through the joint learning and instance consistency of different modality branches, visual and semantic information mutually enhance each other, promoting the interaction and fusion of visual and text embedding space. Our method unlocks the multi-modal potentials of CLIP and outperforms the baseline methods by a large margin on all GCD benchmarks, achieving new state-of-the-art. The code will be released at \url{https://github.com/enguangW/GET}.
- Abstract(参考訳): 古いカテゴリと新しいカテゴリの両方を含むラベルのないデータセットが与えられたとき、一般化されたカテゴリ発見(GCD)は、ラベル付きサンプルから学んだクラス概念を活用しながら、古いクラスを正しく分類しながら、新しいクラスを正確に発見することを目的としている。
現在のGCD法では、情報の単一の視覚的モダリティしか使用せず、視覚的に類似したクラスの分類が不十分である。
ある種のクラスは視覚的に混同されているが、それらのテキスト情報は異なっており、GCDタスクにテキスト情報を導入する動機となっている。
しかし、不正なデータに対するクラス名の欠如は、テキスト情報を利用するのが現実的ではない。
この課題に対処するため,本稿ではテキスト埋め込み合成器(TES)を提案する。
具体的には、私たちのTESは、CLIPが一致した視覚言語機能を生成することができる特性を活用し、視覚的な埋め込みをCLIPのテキストエンコーダのトークンに変換して擬似テキスト埋め込みを生成する。
さらに,視覚と意味情報を相互に強化し,視覚とテキストの埋め込み空間の相互作用と融合を促進する。
提案手法は,CLIPのマルチモーダルポテンシャルを解放し,すべてのGCDベンチマークにおいてベースライン手法よりも高い精度で性能を向上し,新しい最先端技術を実現する。
コードは \url{https://github.com/enguangW/GET} でリリースされる。
関連論文リスト
- Textual Knowledge Matters: Cross-Modality Co-Teaching for Generalized
Visual Class Discovery [69.91441987063307]
Generalized Category Discovery (GCD)は、既知のカテゴリと未知のカテゴリの両方からラベルのないデータをクラスタすることを目的としている。
現在のGCD法は、新しい視覚カテゴリーを発見する際に、人間の認知過程の多様性知覚性を無視する視覚的手がかりのみに依存している。
マルチモーダルなGCDを実現するための2段階のTextGCDフレームワークを提案する。
論文 参考訳(メタデータ) (2024-03-12T07:06:50Z) - TCP:Textual-based Class-aware Prompt tuning for Visual-Language Model [78.77544632773404]
本稿では,テキストベースのクラス認識型Promptチューニング(TCP)を提案する。
TCPは、トレーニング時間の短縮を要求しながら、常に優れたパフォーマンスを達成する。
論文 参考訳(メタデータ) (2023-11-30T03:59:23Z) - Boosting Semantic Segmentation from the Perspective of Explicit Class
Embeddings [19.997929884477628]
クラス埋め込みのメカニズムを探求し、クラスマスクに基づいてより明示的で意味のあるクラス埋め込みを生成することができるという知見を得る。
マルチステージ画像特徴との相互作用において,クラス埋め込みを明示的に獲得・拡張する新たなセグメンテーションパラダイムであるECENetを提案する。
ECENetはADE20Kデータセットよりもはるかに少ない計算コストでパフォーマンスを向上し、PASCAL-Contextデータセット上で新たな最先端結果を達成する。
論文 参考訳(メタデータ) (2023-08-24T16:16:10Z) - Improving Zero-Shot Generalization for CLIP with Synthesized Prompts [135.4317555866831]
既存のほとんどのメソッドは、実世界のアプリケーションでは保持できない全てのクラスにラベル付きデータを必要とする。
既存の微調整法を改善するために,textbfSynttextbfHestextbfIzed textbfPrompts(textbfSHIP)と呼ばれるプラグアンドプレイ生成手法を提案する。
論文 参考訳(メタデータ) (2023-07-14T15:15:45Z) - AttriCLIP: A Non-Incremental Learner for Incremental Knowledge Learning [53.32576252950481]
連続学習は、モデルが逐次到着したデータから段階的に知識を学習できるようにすることを目的としている。
本稿では,新しいクラスやタスクの知識を段階的に抽出する,AttriCLIPという非インクリメンタル学習手法を提案する。
論文 参考訳(メタデータ) (2023-05-19T07:39:17Z) - CLIP-GCD: Simple Language Guided Generalized Category Discovery [21.778676607030253]
一般化カテゴリー発見(GCD)は、既知のカテゴリと未知のカテゴリをラベルのないデータで分類するモデルを必要とする。
従来の手法では、自己教師付き事前学習とラベル付きデータの教師付き微調整を併用し、続いて単純なクラスタリング手法を併用していた。
我々は2つの相補的な方法でマルチモーダル(ビジョンと言語)モデルを活用することを提案する。
論文 参考訳(メタデータ) (2023-05-17T17:55:33Z) - Zero-guidance Segmentation Using Zero Segment Labels [16.76478193075447]
CLIPとDINOを用いた新規なゼロ誘導分割問題を提案する。
一般的な考え方は、まずイメージを小さなオーバーセグメントに分割し、それらをCLIPの視覚言語空間にエンコードし、テキストラベルに変換し、意味論的に類似したセグメントをまとめることである。
私たちの主な貢献は、CLIP内のアテンション層を分析することによって、2つのコンテキストのバランスをとる新しいアテンションマスキング技術です。
論文 参考訳(メタデータ) (2023-03-23T16:15:07Z) - IDEA: Interactive DoublE Attentions from Label Embedding for Text
Classification [4.342189319523322]
そこで,本研究では,シム BERT による新しいモデル構造と IDEA という対話型ダブルアテンションを提案し,テキストとラベル名の情報交換を行う。
提案手法は, ラベルテキストを用いた最先端の手法よりも, より安定した結果が得られている。
論文 参考訳(メタデータ) (2022-09-23T04:50:47Z) - Many-Class Text Classification with Matching [65.74328417321738]
textbfText textbfClassification をテキストとラベル間のtextbfMatching 問題として定式化し,TCM というシンプルなフレームワークを提案する。
従来のテキスト分類手法と比較して、TCMは分類ラベルのきめ細かい意味情報を活用している。
論文 参考訳(メタデータ) (2022-05-23T15:51:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。