論文の概要: Organizing Unstructured Image Collections using Natural Language
- arxiv url: http://arxiv.org/abs/2410.05217v2
- Date: Mon, 14 Oct 2024 18:47:46 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-01 23:39:03.165351
- Title: Organizing Unstructured Image Collections using Natural Language
- Title(参考訳): 自然言語を用いた非構造化画像コレクションの編成
- Authors: Mingxuan Liu, Zhun Zhong, Jun Li, Gianni Franchi, Subhankar Roy, Elisa Ricci,
- Abstract要約: 本稿では,大規模な画像コレクションからクラスタリング基準を自動的に検出することを目的としたタスクセマンティック・マルチクラスタリング(SMC)を紹介する。
当社のフレームワークであるText Driven Semantic Multiple Clustering (TeDeSC)は,テキストをプロキシとして使用して,大規模なイメージコレクションを同時に推論する。
偏見の発見やソーシャルメディア画像の人気分析など,さまざまな応用にTeDeSCを適用した。
- 参考スコア(独自算出の注目度): 37.16101036513514
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Organizing unstructured visual data into semantic clusters is a key challenge in computer vision. Traditional deep clustering (DC) approaches focus on a single partition of data, while multiple clustering (MC) methods address this limitation by uncovering distinct clustering solutions. The rise of large language models (LLMs) and multimodal LLMs (MLLMs) has enhanced MC by allowing users to define clustering criteria in natural language. However, manually specifying criteria for large datasets is impractical. In this work, we introduce the task Semantic Multiple Clustering (SMC) that aims to automatically discover clustering criteria from large image collections, uncovering interpretable substructures without requiring human input. Our framework, Text Driven Semantic Multiple Clustering (TeDeSC), uses text as a proxy to concurrently reason over large image collections, discover partitioning criteria, expressed in natural language, and reveal semantic substructures. To evaluate TeDeSC, we introduce the COCO-4c and Food-4c benchmarks, each containing four grouping criteria and ground-truth annotations. We apply TeDeSC to various applications, such as discovering biases and analyzing social media image popularity, demonstrating its utility as a tool for automatically organizing image collections and revealing novel insights.
- Abstract(参考訳): 構造化されていない視覚データをセマンティッククラスタに編成することは、コンピュータビジョンにおける重要な課題である。
従来のディープクラスタリング(DC)アプローチはデータの単一パーティションに重点を置いていますが、複数のクラスタリング(MC)メソッドは、異なるクラスタリングソリューションを明らかにすることで、この制限に対処します。
大規模言語モデル (LLM) とマルチモーダル LLM (MLLM) の台頭により,ユーザが自然言語でクラスタリング基準を定義することができるようになり,MCが強化された。
しかし、大規模なデータセットの基準を手動で指定するのは現実的ではない。
本研究では,大規模な画像コレクションからクラスタリング基準を自動的に検出することを目的としたタスクセマンティック・マルチクラスタリング(SMC)を導入し,人間の入力を必要とせずに解釈可能なサブ構造を明らかにする。
我々のフレームワークであるText Driven Semantic Multiple Clustering (TeDeSC)は、テキストをプロキシとして使用し、大きな画像コレクションを同時に推論し、パーティショニング基準を発見し、自然言語で表現し、セマンティックサブ構造を明らかにする。
TeDeSCを評価するために、COCO-4cおよびFood-4cベンチマークを導入し、それぞれ4つのグルーピング基準とグラウンドトルースアノテーションを含む。
偏見の発見やソーシャルメディアのイメージ人気の分析,イメージコレクションの自動整理,新たな洞察の提示など,さまざまな応用にTeDeSCを適用した。
関連論文リスト
- Text-Guided Alternative Image Clustering [11.103514372355088]
この研究は、代替画像クラスタリングを容易にするために、大きな視覚言語モデルの可能性を探るものである。
本稿では,ユーザの興味をプロンプトを通じて活用する新たなアプローチとして,テキストガイドによる代替イメージコンセンサスクラスタリング(TGAICC)を提案する。
TGAICCは、4つの代替イメージクラスタリングベンチマークデータセットで画像とテキストベースのベースラインを上回っている。
論文 参考訳(メタデータ) (2024-06-07T08:37:57Z) - Unsupervised Multimodal Clustering for Semantics Discovery in Multimodal Utterances [24.142013877384603]
本稿では,新しい教師なしマルチモーダルクラスタリング手法 (UMC) を提案する。
UMCは、マルチモーダルデータのための拡張ビューを構築するためのユニークなアプローチを導入し、事前トレーニングを実行するために使用される。
我々は、最先端の手法よりもクラスタリングメトリクスの2-6%のスコアが顕著に改善され、この領域で最初の成功例となった。
論文 参考訳(メタデータ) (2024-05-21T13:24:07Z) - Vocabulary-free Image Classification and Semantic Segmentation [71.78089106671581]
本稿では,Vocabulary-free Image Classification (VIC)タスクを導入する。これは,制約のない言語による意味空間から,既知の語彙を必要とせずに,入力画像にクラスを割り当てることを目的としている。
VICは、細かなカテゴリを含む数百万の概念を含む意味空間の広さのために、挑戦的である。
本稿では,事前学習された視覚言語モデルと外部データベースを利用した学習自由度手法CaSEDを提案する。
論文 参考訳(メタデータ) (2024-04-16T19:27:21Z) - Generalized Category Discovery with Clustering Assignment Consistency [56.92546133591019]
一般化圏発見(GCD)は、最近提案されたオープンワールドタスクである。
クラスタリングの一貫性を促進するための協調学習ベースのフレームワークを提案する。
提案手法は,3つの総合的なベンチマークと3つのきめ細かい視覚認識データセット上での最先端性能を実現する。
論文 参考訳(メタデータ) (2023-10-30T00:32:47Z) - Image Clustering Conditioned on Text Criteria [14.704110575570166]
本稿では,ユーザが指定したテキスト基準に基づいて画像クラスタリングを行う手法を提案する。
テキスト基準に基づく画像クラスタリング条件 (IC|TC) と呼ぶ。
IC|TCは人間の介入を最小限かつ実用的に必要としており、ユーザーはクラスタリングの結果に対してかなりの制御を行うことができる。
論文 参考訳(メタデータ) (2023-10-27T17:35:01Z) - Towards Realistic Zero-Shot Classification via Self Structural Semantic
Alignment [53.2701026843921]
大規模事前訓練型視覚言語モデル(VLM)はゼロショット分類に有効であることが証明されている。
本稿では,アノテーションではなく,より広い語彙を前提とした,より難易度の高いゼロショット分類(Realistic Zero-Shot Classification)を提案する。
本稿では,ラベルのないデータから構造意味情報を抽出し,同時に自己学習を行う自己構造意味アライメント(S3A)フレームワークを提案する。
論文 参考訳(メタデータ) (2023-08-24T17:56:46Z) - Large Language Models Enable Few-Shot Clustering [88.06276828752553]
大規模言語モデルは、クエリ効率が良く、数発のセミ教師付きテキストクラスタリングを可能にするために、専門家のガイダンスを増幅できることを示す。
最初の2つのステージにLSMを組み込むことで、クラスタの品質が大幅に向上することがわかった。
論文 参考訳(メタデータ) (2023-07-02T09:17:11Z) - CLIP-GCD: Simple Language Guided Generalized Category Discovery [21.778676607030253]
一般化カテゴリー発見(GCD)は、既知のカテゴリと未知のカテゴリをラベルのないデータで分類するモデルを必要とする。
従来の手法では、自己教師付き事前学習とラベル付きデータの教師付き微調整を併用し、続いて単純なクラスタリング手法を併用していた。
我々は2つの相補的な方法でマルチモーダル(ビジョンと言語)モデルを活用することを提案する。
論文 参考訳(メタデータ) (2023-05-17T17:55:33Z) - CEIL: A General Classification-Enhanced Iterative Learning Framework for
Text Clustering [16.08402937918212]
短文クラスタリングのための新しい分類強化反復学習フレームワークを提案する。
各イテレーションにおいて、まず最初に言語モデルを採用して、初期テキスト表現を検索する。
厳密なデータフィルタリングと集約プロセスの後、クリーンなカテゴリラベルを持つサンプルが検索され、監督情報として機能する。
最後に、表現能力が改善された更新言語モデルを使用して、次のイテレーションでクラスタリングを強化する。
論文 参考訳(メタデータ) (2023-04-20T14:04:31Z) - You Never Cluster Alone [150.94921340034688]
我々は、主流のコントラスト学習パラダイムをクラスタレベルのスキームに拡張し、同じクラスタに属するすべてのデータが統一された表現に寄与する。
分類変数の集合をクラスタ化代入信頼度として定義し、インスタンスレベルの学習トラックとクラスタレベルの学習トラックを関連付ける。
代入変数を再パラメータ化することで、TCCはエンドツーエンドでトレーニングされる。
論文 参考訳(メタデータ) (2021-06-03T14:59:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。