Fugu-MT 論文翻訳(概要): Language-Assisted Image Clustering Guided by Discriminative Relational Signals and Adaptive Semantic Centers

論文の概要: Language-Assisted Image Clustering Guided by Discriminative Relational Signals and Adaptive Semantic Centers

arxiv url: http://arxiv.org/abs/2603.24275v1
Date: Wed, 25 Mar 2026 13:08:14 GMT
ステータス: 翻訳完了
システム内更新日: 2026-03-26 21:06:11.300443
Title: Language-Assisted Image Clustering Guided by Discriminative Relational Signals and Adaptive Semantic Centers
Title（参考訳）: 識別的関係信号と適応的セマンティックセンターによる言語支援画像クラスタリング
Authors: Jun Ma, Xu Zhang, Zhengxing Jiao, Yaxin Hou, Hui Liu, Junhui Hou, Yuheng Jia,
Abstract要約: 本稿では,2つの補完的なコンポーネントを持つLanguage-Assisted Image Clustering (LAIC) フレームワークを提案する。我々は、クラスタリングのためのより差別的な自己スーパービジョン信号を生成するために、言語間関係を利用する。カテゴリワイドな連続的なセマンティックセンタを即時学習により学習し、最終的なクラスタリングの割り当てを生成する。
参考スコア（独自算出の注目度）: 65.70472330370735
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Language-Assisted Image Clustering (LAIC) augments the input images with additional texts with the help of vision-language models (VLMs) to promote clustering performance. Despite recent progress, existing LAIC methods often overlook two issues: (i) textual features constructed for each image are highly similar, leading to weak inter-class discriminability; (ii) the clustering step is restricted to pre-built image-text alignments, limiting the potential for better utilization of the text modality. To address these issues, we propose a new LAIC framework with two complementary components. First, we exploit cross-modal relations to produce more discriminative self-supervision signals for clustering, as it compatible with most VLMs training mechanisms. Second, we learn category-wise continuous semantic centers via prompt learning to produce the final clustering assignments. Extensive experiments on eight benchmark datasets demonstrate that our method achieves an average improvement of 2.6% over state-of-the-art methods, and the learned semantic centers exhibit strong interpretability. Code is available in the supplementary material.
Abstract（参考訳）: 言語支援画像クラスタリング(LAIC)は、視覚言語モデル(VLM)の助けを借りて、入力画像を追加テキストで拡張し、クラスタリング性能を向上する。最近の進歩にもかかわらず、既存のLAICメソッドはしばしば2つの問題を見落としている。 (i)各画像に構築されたテクストの特徴は極めて類似しており、クラス間識別性の弱いものとなる。 (ii) クラスタリングのステップは、予め構築された画像テキストアライメントに制限され、テキストモダリティのより良い利用の可能性を制限する。これらの問題に対処するため、我々は2つの補完的なコンポーネントを持つ新しいLAICフレームワークを提案する。まず、ほとんどのVLMのトレーニング機構と互換性があるため、クラスタリングのためのより差別的な自己スーパービジョン信号を生成するために、クロスモーダルな関係を利用する。第2に,カテゴリワイド連続セマンティックセンタを即時学習により学習し,最終的なクラスタリング課題を生成する。 8つのベンチマークデータセットに対する大規模な実験により、我々の手法は最先端の手法よりも平均2.6%向上し、学習されたセマンティックセンターは強い解釈可能性を示すことが示された。コードは補足資料で入手できる。

論文の概要: Language-Assisted Image Clustering Guided by Discriminative Relational Signals and Adaptive Semantic Centers

関連論文リスト