論文の概要: Text-Guided Image Clustering
- arxiv url: http://arxiv.org/abs/2402.02996v2
- Date: Mon, 19 Feb 2024 12:36:13 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-21 02:55:02.178484
- Title: Text-Guided Image Clustering
- Title(参考訳): テキスト誘導型画像クラスタリング
- Authors: Andreas Stephan, Lukas Miklautz, Kevin Sidak, Jan Philip Wahle, Bela
Gipp, Claudia Plant, Benjamin Roth
- Abstract要約: 本稿では,画像キャプションと視覚質問応答(VQA)モデルを用いてテキストを生成するテキストガイド画像クラスタリングを提案する。
その結果,8種類の画像クラスタリングデータセットに対して,得られたテキスト表現が画像特徴より優れていることがわかった。
- 参考スコア(独自算出の注目度): 15.217924518131268
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Image clustering divides a collection of images into meaningful groups,
typically interpreted post-hoc via human-given annotations. Those are usually
in the form of text, begging the question of using text as an abstraction for
image clustering. Current image clustering methods, however, neglect the use of
generated textual descriptions. We, therefore, propose Text-Guided Image
Clustering, i.e., generating text using image captioning and visual
question-answering (VQA) models and subsequently clustering the generated text.
Further, we introduce a novel approach to inject task- or domain knowledge for
clustering by prompting VQA models. Across eight diverse image clustering
datasets, our results show that the obtained text representations often
outperform image features. Additionally, we propose a counting-based cluster
explainability method. Our evaluations show that the derived keyword-based
explanations describe clusters better than the respective cluster accuracy
suggests. Overall, this research challenges traditional approaches and paves
the way for a paradigm shift in image clustering, using generated text.
- Abstract(参考訳): 画像クラスタリングは、画像の集合を有意義なグループに分割する。
これらは通常、テキストの形式で、画像クラスタリングの抽象化としてテキストを使用するという疑問を提起する。
しかし、現在の画像クラスタリング手法は、生成されたテキスト記述の使用を無視している。
そこで我々は,画像キャプションと視覚質問応答(VQA)モデルを用いてテキストを生成し,生成したテキストをクラスタリングするテキストガイド画像クラスタリングを提案する。
さらに,VQAモデルの導入により,クラスタリングのためのタスク知識やドメイン知識を注入する新たな手法を提案する。
8種類の画像クラスタリングデータセットにまたがって,得られたテキスト表現が画像特徴を上回った。
さらに,計数に基づくクラスタ説明可能性法を提案する。
提案手法は,各クラスタの精度が提案するクラスタよりも優れていることを示す。
全体として、この研究は従来のアプローチに挑戦し、生成されたテキストを使用して画像クラスタリングのパラダイムシフトの道を開く。
関連論文リスト
- InvSeg: Test-Time Prompt Inversion for Semantic Segmentation [33.60580908728705]
InvSegはセマンティックセグメンテーションのためのテストタイムプロンプトインバージョンメソッドである。
コントラストソフトクラスタリングを導入し,マスクを画像の構造情報と整合させる。
InvSegはコンテキストリッチなテキストプロンプトを埋め込み空間で学習し、モダリティ間の正確なセマンティックアライメントを実現する。
論文 参考訳(メタデータ) (2024-10-15T10:20:31Z) - Text-Guided Alternative Image Clustering [11.103514372355088]
この研究は、代替画像クラスタリングを容易にするために、大きな視覚言語モデルの可能性を探るものである。
本稿では,ユーザの興味をプロンプトを通じて活用する新たなアプローチとして,テキストガイドによる代替イメージコンセンサスクラスタリング(TGAICC)を提案する。
TGAICCは、4つの代替イメージクラスタリングベンチマークデータセットで画像とテキストベースのベースラインを上回っている。
論文 参考訳(メタデータ) (2024-06-07T08:37:57Z) - Leveraging Open-Vocabulary Diffusion to Camouflaged Instance
Segmentation [59.78520153338878]
テキスト・ツー・イメージ拡散技術は、テキスト記述から高品質な画像を生成する素晴らしい能力を示している。
そこで本研究では,オープン語彙を応用した最先端拡散モデルを用いて,多スケールのテキスト・視覚的特徴を学習する手法を提案する。
論文 参考訳(メタデータ) (2023-12-29T07:59:07Z) - Clustering-based Image-Text Graph Matching for Domain Generalization [13.277406473107721]
ドメイン不変の視覚表現は、未確認のタスクドメインにうまく一般化できるモデルをトレーニングするために重要である。
近年の研究では、テキスト記述には高レベルなクラス識別情報が含まれていることが示されている。
画像領域と対応するテキスト記述間の局所的なアライメントの利用を提唱する。
論文 参考訳(メタデータ) (2023-10-04T10:03:07Z) - Shatter and Gather: Learning Referring Image Segmentation with Text
Supervision [52.46081425504072]
入力画像中の意味的エンティティを検出し,テキストクエリに関連するエンティティを組み合わせて参照者のマスクを予測するモデルを提案する。
提案手法は,イメージセグメンテーションを参照するための4つの公開ベンチマークで評価され,既存のタスクと最近の全てのベンチマークにおけるオープン語彙セグメンテーションモデルよりも明らかに優れていた。
論文 参考訳(メタデータ) (2023-08-29T15:39:15Z) - CoC-GAN: Employing Context Cluster for Unveiling a New Pathway in Image
Generation [12.211795836214112]
本稿では,画像から一組の点雲へ変換する観点から,ユニークな画像生成プロセスを提案する。
我々の手法は、コンテキストクラスタリング(CoC)と呼ばれる単純なクラスタリング手法を利用して、順序のない点集合から画像を生成する。
我々は,このモデルをコンテキストクラスタリング生成適応ネットワーク(CoC-GAN)として導入する。
論文 参考訳(メタデータ) (2023-08-23T01:19:58Z) - Image as Set of Points [60.30495338399321]
コンテキストクラスタ(CoC)は、イメージを非組織的なポイントの集合と見なし、単純化されたクラスタリングアルゴリズムによって特徴を抽出する。
われわれのCoCは畳み込みと無注意で、空間的相互作用のためのクラスタリングアルゴリズムにのみ依存している。
論文 参考訳(メタデータ) (2023-03-02T18:56:39Z) - Adaptively Clustering Neighbor Elements for Image-Text Generation [78.82346492527425]
我々はtextbfACF と呼ばれるトランスフォーマーに基づく新しい画像テキスト生成モデルを提案する。
ACFは、視覚パッチをオブジェクト領域と言語単語に適応的にクラスタリングし、暗黙的にオブジェクト・フレーズのアライメントを学習する。
実験の結果,ほとんどのSOTAキャプションやVQAモデルよりも優れたACFの有効性が示された。
論文 参考訳(メタデータ) (2023-01-05T08:37:36Z) - Semantic-Enhanced Image Clustering [6.218389227248297]
本稿では,視覚言語事前学習モデルの助けを借りて,画像クラスタリングの課題について検討する。
イメージを適切なセマンティック空間にマップする方法と、イメージとセマンティック空間の両方からイメージをクラスタリングする方法は、2つの重要な問題である。
本稿では,与えられた画像を適切な意味空間にマッピングする手法を提案し,画像と意味論の関係に応じて擬似ラベルを生成する。
論文 参考訳(メタデータ) (2022-08-21T09:04:21Z) - Text-to-Image Generation Grounded by Fine-Grained User Attention [62.94737811887098]
Localized Narrativesは、マウストレースと組み合わせた画像の詳細な自然言語記述を備えたデータセットである。
本稿では、このグラウンド化を利用して画像を生成するシーケンシャルモデルであるTReCSを提案する。
論文 参考訳(メタデータ) (2020-11-07T13:23:31Z) - Improving Image Captioning with Better Use of Captions [65.39641077768488]
本稿では,画像表現とキャプション生成の両方を強化するために,キャプションで利用可能なセマンティクスをよりよく探求するための新しい画像キャプションアーキテクチャを提案する。
我々のモデルはまず,弱教師付きマルチインスタンス学習を用いて,有益な帰納バイアスをもたらすキャプション誘導型視覚関係グラフを構築した。
生成期間中、このモデルは、単語とオブジェクト/述語タグのシーケンスを共同で予測するために、マルチタスク学習を用いた視覚関係をさらに取り入れる。
論文 参考訳(メタデータ) (2020-06-21T14:10:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。