論文の概要: Language-Assisted Image Clustering Guided by Discriminative Relational Signals and Adaptive Semantic Centers
- arxiv url: http://arxiv.org/abs/2603.24275v1
- Date: Wed, 25 Mar 2026 13:08:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-26 21:06:11.300443
- Title: Language-Assisted Image Clustering Guided by Discriminative Relational Signals and Adaptive Semantic Centers
- Title(参考訳): 識別的関係信号と適応的セマンティックセンターによる言語支援画像クラスタリング
- Authors: Jun Ma, Xu Zhang, Zhengxing Jiao, Yaxin Hou, Hui Liu, Junhui Hou, Yuheng Jia,
- Abstract要約: 本稿では,2つの補完的なコンポーネントを持つLanguage-Assisted Image Clustering (LAIC) フレームワークを提案する。
我々は、クラスタリングのためのより差別的な自己スーパービジョン信号を生成するために、言語間関係を利用する。
カテゴリワイドな連続的なセマンティックセンタを即時学習により学習し、最終的なクラスタリングの割り当てを生成する。
- 参考スコア(独自算出の注目度): 65.70472330370735
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Language-Assisted Image Clustering (LAIC) augments the input images with additional texts with the help of vision-language models (VLMs) to promote clustering performance. Despite recent progress, existing LAIC methods often overlook two issues: (i) textual features constructed for each image are highly similar, leading to weak inter-class discriminability; (ii) the clustering step is restricted to pre-built image-text alignments, limiting the potential for better utilization of the text modality. To address these issues, we propose a new LAIC framework with two complementary components. First, we exploit cross-modal relations to produce more discriminative self-supervision signals for clustering, as it compatible with most VLMs training mechanisms. Second, we learn category-wise continuous semantic centers via prompt learning to produce the final clustering assignments. Extensive experiments on eight benchmark datasets demonstrate that our method achieves an average improvement of 2.6% over state-of-the-art methods, and the learned semantic centers exhibit strong interpretability. Code is available in the supplementary material.
- Abstract(参考訳): 言語支援画像クラスタリング(LAIC)は、視覚言語モデル(VLM)の助けを借りて、入力画像を追加テキストで拡張し、クラスタリング性能を向上する。
最近の進歩にもかかわらず、既存のLAICメソッドはしばしば2つの問題を見落としている。
(i)各画像に構築されたテクストの特徴は極めて類似しており、クラス間識別性の弱いものとなる。
(ii) クラスタリングのステップは、予め構築された画像テキストアライメントに制限され、テキストモダリティのより良い利用の可能性を制限する。
これらの問題に対処するため、我々は2つの補完的なコンポーネントを持つ新しいLAICフレームワークを提案する。
まず、ほとんどのVLMのトレーニング機構と互換性があるため、クラスタリングのためのより差別的な自己スーパービジョン信号を生成するために、クロスモーダルな関係を利用する。
第2に,カテゴリワイド連続セマンティックセンタを即時学習により学習し,最終的なクラスタリング課題を生成する。
8つのベンチマークデータセットに対する大規模な実験により、我々の手法は最先端の手法よりも平均2.6%向上し、学習されたセマンティックセンターは強い解釈可能性を示すことが示された。
コードは補足資料で入手できる。
関連論文リスト
- Gradient-Attention Guided Dual-Masking Synergetic Framework for Robust Text-based Person Retrieval [15.126709823382539]
本研究は、人物表現学習のためのコントラスト言語画像事前学習(CLIP)を推進している。
MLLMのコンテキスト内学習機能を活用した耐雑音性データ構築パイプラインを開発した。
我々はGA-DMSフレームワークを導入し、ノイズの多いテキストトークンを適応的にマスキングすることで、クロスモーダルアライメントを改善する。
論文 参考訳(メタデータ) (2025-09-11T03:06:22Z) - VladVA: Discriminative Fine-tuning of LVLMs [67.14293827774827]
CLIPのような対照的に訓練された視覚言語モデル(VLM)は、識別的視覚言語表現学習の事実上のアプローチとなっている。
我々は,LVLMの識別的微調整のための新たな訓練手法である「両世界のベスト」を組み合わせることを提案する。
論文 参考訳(メタデータ) (2024-12-05T17:54:27Z) - Dual-Level Cross-Modal Contrastive Clustering [4.083185193413678]
我々はDXMC(Dual-level Cross-Modal Contrastive Clustering)という画像クラスタリングフラムワークを提案する。
画像とテキストのペアを生成するために使用される意味空間を構築するために、外部テキスト情報が導入される。
予め訓練された画像とテキストエンコーダに画像とテキストのペアをそれぞれ送信し、4つのよく設計されたネットワークに次々に供給される画像とテキストの埋め込みを得る。
論文 参考訳(メタデータ) (2024-09-06T18:49:45Z) - Dual Advancement of Representation Learning and Clustering for Sparse and Noisy Images [14.836487514037994]
SNI(Sparse and Noisy Image)は、効果的な表現学習とクラスタリングに重要な課題を提起する。
本稿では、マスク画像モデリングから得られた表現を強化するために、DARLC(Dual Advancement of Representation Learning and Clustering)を提案する。
我々のフレームワークは、局所的な認識性、特異性、関係意味論の理解を高めることによって、表現の学習を改善する包括的なアプローチを提供する。
論文 参考訳(メタデータ) (2024-09-03T10:52:27Z) - Multi-Grained Cross-modal Alignment for Learning Open-vocabulary
Semantic Segmentation from Text Supervision [23.931443799102663]
我々は,高密度アノテーションを使わずに粒度ギャップを埋めるために,MGCA(Multi-Grained Cross-Modal Alignment)フレームワークを導入する。
具体的には、MGCAは画像とテキストのペアに基づいて擬似多言語意味対応を構築する。
提案手法は最先端の手法よりも大幅に進歩し,その有効性と効率性を実証する。
論文 参考訳(メタデータ) (2024-03-06T13:43:36Z) - MaPLe: Multi-modal Prompt Learning [54.96069171726668]
本稿では,視覚と言語分岐の両方を対象としたマルチモーダル・プロンプト・ラーニング(MaPLe)を提案し,視覚と言語表現の整合性を改善する。
最先端のCo-CoOpと比較すると、MaPLeは優れた性能を示し、新規クラスでは3.45%の絶対的な向上を達成している。
論文 参考訳(メタデータ) (2022-10-06T17:59:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。