論文の概要: Text-Guided Image Clustering
- arxiv url: http://arxiv.org/abs/2402.02996v2
- Date: Mon, 19 Feb 2024 12:36:13 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-21 02:55:02.178484
- Title: Text-Guided Image Clustering
- Title(参考訳): テキスト誘導型画像クラスタリング
- Authors: Andreas Stephan, Lukas Miklautz, Kevin Sidak, Jan Philip Wahle, Bela
Gipp, Claudia Plant, Benjamin Roth
- Abstract要約: 本稿では,画像キャプションと視覚質問応答(VQA)モデルを用いてテキストを生成するテキストガイド画像クラスタリングを提案する。
その結果,8種類の画像クラスタリングデータセットに対して,得られたテキスト表現が画像特徴より優れていることがわかった。
- 参考スコア(独自算出の注目度): 15.217924518131268
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Image clustering divides a collection of images into meaningful groups,
typically interpreted post-hoc via human-given annotations. Those are usually
in the form of text, begging the question of using text as an abstraction for
image clustering. Current image clustering methods, however, neglect the use of
generated textual descriptions. We, therefore, propose Text-Guided Image
Clustering, i.e., generating text using image captioning and visual
question-answering (VQA) models and subsequently clustering the generated text.
Further, we introduce a novel approach to inject task- or domain knowledge for
clustering by prompting VQA models. Across eight diverse image clustering
datasets, our results show that the obtained text representations often
outperform image features. Additionally, we propose a counting-based cluster
explainability method. Our evaluations show that the derived keyword-based
explanations describe clusters better than the respective cluster accuracy
suggests. Overall, this research challenges traditional approaches and paves
the way for a paradigm shift in image clustering, using generated text.
- Abstract(参考訳): 画像クラスタリングは、画像の集合を有意義なグループに分割する。
これらは通常、テキストの形式で、画像クラスタリングの抽象化としてテキストを使用するという疑問を提起する。
しかし、現在の画像クラスタリング手法は、生成されたテキスト記述の使用を無視している。
そこで我々は,画像キャプションと視覚質問応答(VQA)モデルを用いてテキストを生成し,生成したテキストをクラスタリングするテキストガイド画像クラスタリングを提案する。
さらに,VQAモデルの導入により,クラスタリングのためのタスク知識やドメイン知識を注入する新たな手法を提案する。
8種類の画像クラスタリングデータセットにまたがって,得られたテキスト表現が画像特徴を上回った。
さらに,計数に基づくクラスタ説明可能性法を提案する。
提案手法は,各クラスタの精度が提案するクラスタよりも優れていることを示す。
全体として、この研究は従来のアプローチに挑戦し、生成されたテキストを使用して画像クラスタリングのパラダイムシフトの道を開く。
関連論文リスト
- Leveraging Open-Vocabulary Diffusion to Camouflaged Instance
Segmentation [59.78520153338878]
テキスト・ツー・イメージ拡散技術は、テキスト記述から高品質な画像を生成する素晴らしい能力を示している。
そこで本研究では,オープン語彙を応用した最先端拡散モデルを用いて,多スケールのテキスト・視覚的特徴を学習する手法を提案する。
論文 参考訳(メタデータ) (2023-12-29T07:59:07Z) - Image Clustering with External Guidance [35.6717683947989]
クラスタリングのコアは、監視信号を構築するために、事前の知識を取り入れている。
本稿では,クラスタリングを誘導する新たな監視信号として外部知識を活用することを提案する。
論文 参考訳(メタデータ) (2023-10-18T14:20:55Z) - Clustering-based Image-Text Graph Matching for Domain Generalization [13.277406473107721]
ドメイン不変の視覚表現は、未確認のタスクドメインにうまく一般化できるモデルをトレーニングするために重要である。
近年の研究では、テキスト記述には高レベルなクラス識別情報が含まれていることが示されている。
画像領域と対応するテキスト記述間の局所的なアライメントの利用を提唱する。
論文 参考訳(メタデータ) (2023-10-04T10:03:07Z) - Shatter and Gather: Learning Referring Image Segmentation with Text
Supervision [52.46081425504072]
入力画像中の意味的エンティティを検出し,テキストクエリに関連するエンティティを組み合わせて参照者のマスクを予測するモデルを提案する。
提案手法は,イメージセグメンテーションを参照するための4つの公開ベンチマークで評価され,既存のタスクと最近の全てのベンチマークにおけるオープン語彙セグメンテーションモデルよりも明らかに優れていた。
論文 参考訳(メタデータ) (2023-08-29T15:39:15Z) - CoC-GAN: Employing Context Cluster for Unveiling a New Pathway in Image
Generation [12.211795836214112]
本稿では,画像から一組の点雲へ変換する観点から,ユニークな画像生成プロセスを提案する。
我々の手法は、コンテキストクラスタリング(CoC)と呼ばれる単純なクラスタリング手法を利用して、順序のない点集合から画像を生成する。
我々は,このモデルをコンテキストクラスタリング生成適応ネットワーク(CoC-GAN)として導入する。
論文 参考訳(メタデータ) (2023-08-23T01:19:58Z) - CLIP-GCD: Simple Language Guided Generalized Category Discovery [21.778676607030253]
一般化カテゴリー発見(GCD)は、既知のカテゴリと未知のカテゴリをラベルのないデータで分類するモデルを必要とする。
従来の手法では、自己教師付き事前学習とラベル付きデータの教師付き微調整を併用し、続いて単純なクラスタリング手法を併用していた。
我々は2つの相補的な方法でマルチモーダル(ビジョンと言語)モデルを活用することを提案する。
論文 参考訳(メタデータ) (2023-05-17T17:55:33Z) - Text-Conditioned Sampling Framework for Text-to-Image Generation with
Masked Generative Models [52.29800567587504]
そこで本研究では,テキスト情報を用いた局所的監視により最適なトークンを選択するための,学習可能なサンプリングモデルであるテキスト定義トークン選択(TCTS)を提案する。
TCTSは画像の品質だけでなく、生成された画像と与えられたテキストのセマンティックアライメントも改善する。
我々は、周波数適応サンプリング(FAS)と様々な生成タスクを組み合わせたTCTSの有効性を検証し、画像テキストのアライメントや画質において、ベースラインを著しく上回ることを示す。
論文 参考訳(メタデータ) (2023-04-04T03:52:49Z) - Image as Set of Points [60.30495338399321]
コンテキストクラスタ(CoC)は、イメージを非組織的なポイントの集合と見なし、単純化されたクラスタリングアルゴリズムによって特徴を抽出する。
われわれのCoCは畳み込みと無注意で、空間的相互作用のためのクラスタリングアルゴリズムにのみ依存している。
論文 参考訳(メタデータ) (2023-03-02T18:56:39Z) - Semantic-Enhanced Image Clustering [6.218389227248297]
本稿では,視覚言語事前学習モデルの助けを借りて,画像クラスタリングの課題について検討する。
イメージを適切なセマンティック空間にマップする方法と、イメージとセマンティック空間の両方からイメージをクラスタリングする方法は、2つの重要な問題である。
本稿では,与えられた画像を適切な意味空間にマッピングする手法を提案し,画像と意味論の関係に応じて擬似ラベルを生成する。
論文 参考訳(メタデータ) (2022-08-21T09:04:21Z) - Text-to-Image Generation Grounded by Fine-Grained User Attention [62.94737811887098]
Localized Narrativesは、マウストレースと組み合わせた画像の詳細な自然言語記述を備えたデータセットである。
本稿では、このグラウンド化を利用して画像を生成するシーケンシャルモデルであるTReCSを提案する。
論文 参考訳(メタデータ) (2020-11-07T13:23:31Z) - Improving Image Captioning with Better Use of Captions [65.39641077768488]
本稿では,画像表現とキャプション生成の両方を強化するために,キャプションで利用可能なセマンティクスをよりよく探求するための新しい画像キャプションアーキテクチャを提案する。
我々のモデルはまず,弱教師付きマルチインスタンス学習を用いて,有益な帰納バイアスをもたらすキャプション誘導型視覚関係グラフを構築した。
生成期間中、このモデルは、単語とオブジェクト/述語タグのシーケンスを共同で予測するために、マルチタスク学習を用いた視覚関係をさらに取り入れる。
論文 参考訳(メタデータ) (2020-06-21T14:10:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。