論文の概要: CLIP-GCD: Simple Language Guided Generalized Category Discovery
- arxiv url: http://arxiv.org/abs/2305.10420v1
- Date: Wed, 17 May 2023 17:55:33 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-18 14:22:06.583007
- Title: CLIP-GCD: Simple Language Guided Generalized Category Discovery
- Title(参考訳): CLIP-GCD: 単純な言語ガイドによる一般化カテゴリディスカバリ
- Authors: Rabah Ouldnoughi, Chia-Wen Kuo, Zsolt Kira
- Abstract要約: 一般化カテゴリー発見(GCD)は、既知のカテゴリと未知のカテゴリをラベルのないデータで分類するモデルを必要とする。
従来の手法では、自己教師付き事前学習とラベル付きデータの教師付き微調整を併用し、続いて単純なクラスタリング手法を併用していた。
我々は2つの相補的な方法でマルチモーダル(ビジョンと言語)モデルを活用することを提案する。
- 参考スコア(独自算出の注目度): 21.778676607030253
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Generalized Category Discovery (GCD) requires a model to both classify known
categories and cluster unknown categories in unlabeled data. Prior methods
leveraged self-supervised pre-training combined with supervised fine-tuning on
the labeled data, followed by simple clustering methods. In this paper, we
posit that such methods are still prone to poor performance on
out-of-distribution categories, and do not leverage a key ingredient: Semantic
relationships between object categories. We therefore propose to leverage
multi-modal (vision and language) models, in two complementary ways. First, we
establish a strong baseline by replacing uni-modal features with CLIP, inspired
by its zero-shot performance. Second, we propose a novel retrieval-based
mechanism that leverages CLIP's aligned vision-language representations by
mining text descriptions from a text corpus for the labeled and unlabeled set.
We specifically use the alignment between CLIP's visual encoding of the image
and textual encoding of the corpus to retrieve top-k relevant pieces of text
and incorporate their embeddings to perform joint image+text semi-supervised
clustering. We perform rigorous experimentation and ablations (including on
where to retrieve from, how much to retrieve, and how to combine information),
and validate our results on several datasets including out-of-distribution
domains, demonstrating state-of-art results.
- Abstract(参考訳): 一般化カテゴリー発見(GCD)は、既知のカテゴリと未知のカテゴリをラベルのないデータで分類するモデルを必要とする。
従来の手法では、自己教師付き事前学習とラベル付きデータの教師付き微調整を併用し、さらに単純なクラスタリング手法を用いた。
本稿では,これらの手法は,まだ流通外のカテゴリーでは性能が劣る傾向にあり,重要な要素であるオブジェクトカテゴリ間の意味的関係を生かしていないことを示唆する。
そこで我々は2つの相補的な方法でマルチモーダル(ビジョンと言語)モデルを活用することを提案する。
まず,ユニモーダル機能をクリップに置き換えることで,ゼロショット性能にインスパイアされた強力なベースラインを確立する。
第2に、ラベル付きおよびラベルなし集合のためのテキストコーパスからテキスト記述をマイニングすることにより、CLIPの対応した視覚言語表現を活用する新しい検索機構を提案する。
画像の視覚的エンコーディングとコーパスのテキストエンコーディングのアライメントを用いて、トップkのテキストを検索し、埋め込みを組み込んで、共同画像+テキスト半教師付きクラスタリングを行う。
我々は、厳密な実験とアブレーションを行い(どこから取り出すか、どのくらい取り出すか、どのように情報を結合するかを含む)、分散領域を含むいくつかのデータセットで結果を検証する。
関連論文リスト
- African or European Swallow? Benchmarking Large Vision-Language Models for Fine-Grained Object Classification [53.89380284760555]
textttFOCI (textbfFine-fine textbfObject textbfClasstextbfIfication) は、きめ細かいオブジェクト分類のための難しい多重選択ベンチマークである。
textttFOCIxspaceは、ImageNet-21kから4つのドメイン固有のサブセットで5つの一般的な分類データセットを補完する。
論文 参考訳(メタデータ) (2024-06-20T16:59:39Z) - Unlocking the Multi-modal Potential of CLIP for Generalized Category Discovery [50.564146730579424]
テキスト埋め込み合成器(TES)を提案する。
提案手法は,CLIPのマルチモーダルポテンシャルを解放し,すべてのGCDベンチマークにおいて,ベースライン手法よりも大きなマージンで性能を向上する。
論文 参考訳(メタデータ) (2024-03-15T02:40:13Z) - Textual Knowledge Matters: Cross-Modality Co-Teaching for Generalized
Visual Class Discovery [69.91441987063307]
Generalized Category Discovery (GCD)は、既知のカテゴリと未知のカテゴリの両方からラベルのないデータをクラスタすることを目的としている。
現在のGCD法は、新しい視覚カテゴリーを発見する際に、人間の認知過程の多様性知覚性を無視する視覚的手がかりのみに依存している。
マルチモーダルなGCDを実現するための2段階のTextGCDフレームワークを提案する。
論文 参考訳(メタデータ) (2024-03-12T07:06:50Z) - Generalized Category Discovery with Clustering Assignment Consistency [56.92546133591019]
一般化圏発見(GCD)は、最近提案されたオープンワールドタスクである。
クラスタリングの一貫性を促進するための協調学習ベースのフレームワークを提案する。
提案手法は,3つの総合的なベンチマークと3つのきめ細かい視覚認識データセット上での最先端性能を実現する。
論文 参考訳(メタデータ) (2023-10-30T00:32:47Z) - CEIL: A General Classification-Enhanced Iterative Learning Framework for
Text Clustering [16.08402937918212]
短文クラスタリングのための新しい分類強化反復学習フレームワークを提案する。
各イテレーションにおいて、まず最初に言語モデルを採用して、初期テキスト表現を検索する。
厳密なデータフィルタリングと集約プロセスの後、クリーンなカテゴリラベルを持つサンプルが検索され、監督情報として機能する。
最後に、表現能力が改善された更新言語モデルを使用して、次のイテレーションでクラスタリングを強化する。
論文 参考訳(メタデータ) (2023-04-20T14:04:31Z) - CiPR: An Efficient Framework with Cross-instance Positive Relations for Generalized Category Discovery [21.380021266251426]
一般化圏発見(GCD)は、部分的にラベル付けされたデータセットを自動的にクラスタリングするオープンワールドの問題を考える。
本稿では,非競合データに対する未知のカテゴリ数を用いて,GCD問題に対処する。
我々はCiPRというフレームワークを提案し、クロスインスタンスポジティヴリレーションを利用して表現をブートストラップする。
論文 参考訳(メタデータ) (2023-04-14T05:25:52Z) - Open-world Semantic Segmentation via Contrasting and Clustering
Vision-Language Embedding [95.78002228538841]
本研究では,様々なオープンワールドカテゴリのセマンティックオブジェクトを高密度アノテーションを使わずにセマンティックオブジェクトのセマンティックオブジェクトのセマンティック化を学習するための,新しいオープンワールドセマンティックセマンティックセマンティックセマンティクスパイプラインを提案する。
提案手法は任意のカテゴリのオブジェクトを直接分割し、3つのベンチマークデータセット上でデータラベリングを必要とするゼロショットセグメンテーション法より優れている。
論文 参考訳(メタデータ) (2022-07-18T09:20:04Z) - UnifieR: A Unified Retriever for Large-Scale Retrieval [84.61239936314597]
大規模な検索は、クエリを与えられた巨大なコレクションから関連ドキュメントをリコールすることである。
事前学習型言語モデル(PLM)に基づく最近の検索手法は,高密度ベクターあるいはレキシコンに基づくパラダイムに大別することができる。
本論文では,高密度ベクトルとレキシコンに基づく検索を2つの表現能力を持つ1つのモデルで統合する学習フレームワークUnifieRを提案する。
論文 参考訳(メタデータ) (2022-05-23T11:01:59Z) - DocSCAN: Unsupervised Text Classification via Learning from Neighbors [2.2082422928825145]
Semantic Clustering by Adopting Nearest-Neighbors (SCAN)を用いた、完全に教師なしのテキスト分類アプローチであるDocSCANを紹介します。
各文書に対して,大規模事前学習言語モデルから意味情報ベクトルを得る。
類似の文書には近接ベクトルがあるので、表現空間の隣人はトピックラベルを共有する傾向がある。
学習可能なクラスタリングアプローチでは、隣接するデータポイントのペアを弱い学習信号として使用します。
提案されたアプローチは、グラウンドトラスラベルなしでデータセット全体にクラスを割り当てることを学ぶ。
論文 参考訳(メタデータ) (2021-05-09T21:20:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。