論文の概要: Organizing Unstructured Image Collections using Natural Language
- arxiv url: http://arxiv.org/abs/2410.05217v4
- Date: Sat, 31 May 2025 00:52:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-03 16:22:42.813359
- Title: Organizing Unstructured Image Collections using Natural Language
- Title(参考訳): 自然言語を用いた非構造化画像コレクションの編成
- Authors: Mingxuan Liu, Zhun Zhong, Jun Li, Gianni Franchi, Subhankar Roy, Elisa Ricci,
- Abstract要約: 大規模で非構造化画像コレクションからクラスタリング基準を自動的に検出することを目的としたOpen-ended Semantic Multiple Clustering (OpenSMC) の課題を紹介する。
当社のフレームワークであるX-Cluster: eXploratory Clusteringは、テキストを推論プロキシとして扱い、画像を基準毎に意味のあるクラスタにグループ化する。
X-Clusterは意味のあるパーティションを効果的に公開し、バイアス発見やソーシャルメディア画像人気分析などの下流アプリケーションを可能にする。
- 参考スコア(独自算出の注目度): 37.16101036513514
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Organizing unstructured image collections into semantic clusters is a long-standing challenge. Traditional deep clustering techniques address this by producing a single data partition, whereas multiple clustering methods uncover diverse alternative partitions-but only when users predefine the clustering criteria. Yet expecting users to specify such criteria a priori for large, unfamiliar datasets is unrealistic. In this work, we introduce the task of Open-ended Semantic Multiple Clustering (OpenSMC), which aims to automatically discover clustering criteria from large, unstructured image collections, revealing interpretable substructures without human input. Our framework, X-Cluster: eXploratory Clustering, treats text as a reasoning proxy: it concurrently scans the entire image collection, proposes candidate criteria in natural language, and groups images into meaningful clusters per criterion. To evaluate progress, we release COCO-4c and Food-4c benchmarks, each annotated with four grouping criteria. Experiments show that X-Cluster effectively reveals meaningful partitions and enables downstream applications such as bias discovery and social media image popularity analysis. We will open-source code and data to encourage reproducibility and further research.
- Abstract(参考訳): 構造化されていないイメージコレクションをセマンティッククラスタに編成することは、長年にわたる課題である。
従来のディープクラスタリング技術は、単一のデータパーティションを生成することでこの問題に対処する一方で、複数のクラスタリングメソッドは、ユーザがクラスタリング基準を事前に定義している場合にのみ、さまざまな代替パーティションを明らかにする。
しかし、ユーザーがそのような基準を、大きな、馴染みの無いデータセットの優先順位として指定することを期待するのは現実的ではない。
本研究では,大規模で非構造的な画像コレクションからクラスタリング基準を自動的に検出し,人間の入力なしに解釈可能なサブ構造を明らかにすることを目的とした,オープンエンドセマンティック・マルチクラスタリング(Open-ended Semantic Multiple Clustering, OpenSMC)の課題を紹介する。
我々のフレームワークであるX-Cluster: eXploratory Clusteringは、テキストを推論プロキシとして扱い、画像収集全体を同時にスキャンし、自然言語の候補基準を提案し、画像を基準ごとに有意義なクラスタに分類する。
進捗を評価するため,COCO-4cおよびFood-4cベンチマークを4つのグループ化基準でアノテートした。
実験により、X-Clusterは意味のあるパーティションを効果的に明らかにし、バイアス発見やソーシャルメディア画像人気分析などの下流アプリケーションを可能にすることが示された。
再現性とさらなる研究を促進するために、コードとデータをオープンソースにします。
関連論文リスト
- Agent-Centric Personalized Multiple Clustering with Multi-Modal LLMs [40.38930402847949]
エージェント中心のパーソナライズされたクラスタリングフレームワークを提案する。
エージェントはリレーショナルグラフを横断して、ユーザの関心事に基づいてクラスタを検索する。
その結果,提案手法はカードオーダーとカードサイツのベンチマークで0.9667と0.9481のNMIスコアを得ることができた。
論文 参考訳(メタデータ) (2025-03-28T08:45:15Z) - Personalized Clustering via Targeted Representation Learning [12.685373069492448]
クラスタリングは伝統的に、ラベルのないデータ内の自然なグループ構造を明らかにすることを目的としています。
ターゲット表現学習を明示的に行うパーソナライズされたクラスタリング手法を提案する。
論文 参考訳(メタデータ) (2024-12-18T10:28:51Z) - Text-Guided Alternative Image Clustering [11.103514372355088]
この研究は、代替画像クラスタリングを容易にするために、大きな視覚言語モデルの可能性を探るものである。
本稿では,ユーザの興味をプロンプトを通じて活用する新たなアプローチとして,テキストガイドによる代替イメージコンセンサスクラスタリング(TGAICC)を提案する。
TGAICCは、4つの代替イメージクラスタリングベンチマークデータセットで画像とテキストベースのベースラインを上回っている。
論文 参考訳(メタデータ) (2024-06-07T08:37:57Z) - Unsupervised Multimodal Clustering for Semantics Discovery in Multimodal Utterances [24.142013877384603]
本稿では,新しい教師なしマルチモーダルクラスタリング手法 (UMC) を提案する。
UMCは、マルチモーダルデータのための拡張ビューを構築するためのユニークなアプローチを導入し、事前トレーニングを実行するために使用される。
我々は、最先端の手法よりもクラスタリングメトリクスの2-6%のスコアが顕著に改善され、この領域で最初の成功例となった。
論文 参考訳(メタデータ) (2024-05-21T13:24:07Z) - Vocabulary-free Image Classification and Semantic Segmentation [71.78089106671581]
本稿では,Vocabulary-free Image Classification (VIC)タスクを導入する。これは,制約のない言語による意味空間から,既知の語彙を必要とせずに,入力画像にクラスを割り当てることを目的としている。
VICは、細かなカテゴリを含む数百万の概念を含む意味空間の広さのために、挑戦的である。
本稿では,事前学習された視覚言語モデルと外部データベースを利用した学習自由度手法CaSEDを提案する。
論文 参考訳(メタデータ) (2024-04-16T19:27:21Z) - Generalized Category Discovery with Clustering Assignment Consistency [56.92546133591019]
一般化圏発見(GCD)は、最近提案されたオープンワールドタスクである。
クラスタリングの一貫性を促進するための協調学習ベースのフレームワークを提案する。
提案手法は,3つの総合的なベンチマークと3つのきめ細かい視覚認識データセット上での最先端性能を実現する。
論文 参考訳(メタデータ) (2023-10-30T00:32:47Z) - Image Clustering Conditioned on Text Criteria [14.704110575570166]
本稿では,ユーザが指定したテキスト基準に基づいて画像クラスタリングを行う手法を提案する。
テキスト基準に基づく画像クラスタリング条件 (IC|TC) と呼ぶ。
IC|TCは人間の介入を最小限かつ実用的に必要としており、ユーザーはクラスタリングの結果に対してかなりの制御を行うことができる。
論文 参考訳(メタデータ) (2023-10-27T17:35:01Z) - Towards Realistic Zero-Shot Classification via Self Structural Semantic
Alignment [53.2701026843921]
大規模事前訓練型視覚言語モデル(VLM)はゼロショット分類に有効であることが証明されている。
本稿では,アノテーションではなく,より広い語彙を前提とした,より難易度の高いゼロショット分類(Realistic Zero-Shot Classification)を提案する。
本稿では,ラベルのないデータから構造意味情報を抽出し,同時に自己学習を行う自己構造意味アライメント(S3A)フレームワークを提案する。
論文 参考訳(メタデータ) (2023-08-24T17:56:46Z) - Large Language Models Enable Few-Shot Clustering [88.06276828752553]
大規模言語モデルは、クエリ効率が良く、数発のセミ教師付きテキストクラスタリングを可能にするために、専門家のガイダンスを増幅できることを示す。
最初の2つのステージにLSMを組み込むことで、クラスタの品質が大幅に向上することがわかった。
論文 参考訳(メタデータ) (2023-07-02T09:17:11Z) - CLIP-GCD: Simple Language Guided Generalized Category Discovery [21.778676607030253]
一般化カテゴリー発見(GCD)は、既知のカテゴリと未知のカテゴリをラベルのないデータで分類するモデルを必要とする。
従来の手法では、自己教師付き事前学習とラベル付きデータの教師付き微調整を併用し、続いて単純なクラスタリング手法を併用していた。
我々は2つの相補的な方法でマルチモーダル(ビジョンと言語)モデルを活用することを提案する。
論文 参考訳(メタデータ) (2023-05-17T17:55:33Z) - CEIL: A General Classification-Enhanced Iterative Learning Framework for
Text Clustering [16.08402937918212]
短文クラスタリングのための新しい分類強化反復学習フレームワークを提案する。
各イテレーションにおいて、まず最初に言語モデルを採用して、初期テキスト表現を検索する。
厳密なデータフィルタリングと集約プロセスの後、クリーンなカテゴリラベルを持つサンプルが検索され、監督情報として機能する。
最後に、表現能力が改善された更新言語モデルを使用して、次のイテレーションでクラスタリングを強化する。
論文 参考訳(メタデータ) (2023-04-20T14:04:31Z) - Deep Clustering: A Comprehensive Survey [53.387957674512585]
クラスタリング分析は、機械学習とデータマイニングにおいて必須の役割を果たす。
ディープ・クラスタリングは、ディープ・ニューラルネットワークを使ってクラスタリングフレンドリーな表現を学習することができるが、幅広いクラスタリングタスクに広く適用されている。
ディープクラスタリングに関する既存の調査は、主にシングルビューフィールドとネットワークアーキテクチャに焦点を当てており、クラスタリングの複雑なアプリケーションシナリオを無視している。
論文 参考訳(メタデータ) (2022-10-09T02:31:32Z) - You Never Cluster Alone [150.94921340034688]
我々は、主流のコントラスト学習パラダイムをクラスタレベルのスキームに拡張し、同じクラスタに属するすべてのデータが統一された表現に寄与する。
分類変数の集合をクラスタ化代入信頼度として定義し、インスタンスレベルの学習トラックとクラスタレベルの学習トラックを関連付ける。
代入変数を再パラメータ化することで、TCCはエンドツーエンドでトレーニングされる。
論文 参考訳(メタデータ) (2021-06-03T14:59:59Z) - Scalable Hierarchical Agglomerative Clustering [65.66407726145619]
既存のスケーラブルな階層的クラスタリング手法は、スピードの質を犠牲にする。
我々は、品質を犠牲にせず、数十億のデータポイントまでスケールする、スケーラブルで集約的な階層的クラスタリング法を提案する。
論文 参考訳(メタデータ) (2020-10-22T15:58:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。