論文の概要: Self-Enhanced Image Clustering with Cross-Modal Semantic Consistency
- arxiv url: http://arxiv.org/abs/2508.01254v1
- Date: Sat, 02 Aug 2025 08:12:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-05 18:25:21.789138
- Title: Self-Enhanced Image Clustering with Cross-Modal Semantic Consistency
- Title(参考訳): クロスモーダルなセマンティック一貫性を持つ自己強化画像クラスタリング
- Authors: Zihan Li, Wei Sun, Jing Hu, Jianhua Yin, Jianlong Wu, Liqiang Nie,
- Abstract要約: 効率的な画像クラスタリングのためのクロスモーダルなセマンティック一貫性に基づくフレームワークを提案する。
当社のフレームワークはまず,クロスモーダルセマンティック一貫性を通じて,強力な基盤を構築します。
最初の段階では、トレーニング済みモデルのリッチなセマンティクスに合わせて、軽量クラスタリングヘッドをトレーニングします。
第2段階では、自己強化微調整戦略を導入する。
- 参考スコア(独自算出の注目度): 57.961869351897384
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: While large language-image pre-trained models like CLIP offer powerful generic features for image clustering, existing methods typically freeze the encoder. This creates a fundamental mismatch between the model's task-agnostic representations and the demands of a specific clustering task, imposing a ceiling on performance. To break this ceiling, we propose a self-enhanced framework based on cross-modal semantic consistency for efficient image clustering. Our framework first builds a strong foundation via Cross-Modal Semantic Consistency and then specializes the encoder through Self-Enhancement. In the first stage, we focus on Cross-Modal Semantic Consistency. By mining consistency between generated image-text pairs at the instance, cluster assignment, and cluster center levels, we train lightweight clustering heads to align with the rich semantics of the pre-trained model. This alignment process is bolstered by a novel method for generating higher-quality cluster centers and a dynamic balancing regularizer to ensure well-distributed assignments. In the second stage, we introduce a Self-Enhanced fine-tuning strategy. The well-aligned model from the first stage acts as a reliable pseudo-label generator. These self-generated supervisory signals are then used to feed back the efficient, joint optimization of the vision encoder and clustering heads, unlocking their full potential. Extensive experiments on six mainstream datasets show that our method outperforms existing deep clustering methods by significant margins. Notably, our ViT-B/32 model already matches or even surpasses the accuracy of state-of-the-art methods built upon the far larger ViT-L/14.
- Abstract(参考訳): CLIPのような大きな言語イメージの事前訓練されたモデルはイメージクラスタリングに強力な汎用機能を提供するが、既存のメソッドは典型的にはエンコーダを凍結する。
これにより、モデルのタスクに依存しない表現と特定のクラスタリングタスクの要求との間に根本的なミスマッチが生じ、パフォーマンスに上限が課される。
この天井を破るために,効率的な画像クラスタリングのためのクロスモーダルなセマンティック一貫性に基づく自己強化フレームワークを提案する。
当社のフレームワークはまず,クロスモーダルセマンティック一貫性を通じて強力な基盤を構築し,その後,セルフエンハンスメントを通じてエンコーダを専門化する。
最初の段階では、クロスモーダルなセマンティック一貫性にフォーカスします。
インスタンス、クラスタ割り当て、クラスタセンターレベルで生成された画像テキストペア間の一貫性をマイニングすることで、トレーニング済みモデルのリッチなセマンティクスに合わせて軽量なクラスタリングヘッドをトレーニングする。
このアライメントプロセスは、高品質なクラスタセンターを生成する新しい方法と、よく分散された割り当てを保証するための動的バランシング正規化器によって促進される。
第2段階では、自己強化微調整戦略を導入する。
第一段階からの整列モデルは、信頼できる擬似ラベル生成器として機能する。
これらの自己生成の監視信号は、視覚エンコーダとクラスタリングヘッドの効率的な共同最適化をフィードバックし、その潜在能力を最大限に活用する。
6つの主流データセットに対する大規模な実験により、我々の手法は既存のディープクラスタリング手法よりもかなりのマージンで優れていることが示された。
特に、我々のViT-B/32モデルは、はるかに大きなViT-L/14上に構築された最先端の手法の精度を既に一致または超過しています。
関連論文リスト
- Image Clustering Algorithm Based on Self-Supervised Pretrained Models and Latent Feature Distribution Optimization [4.39139858370436]
本稿では,自己教師付き事前学習モデルと潜在特徴分布最適化に基づく画像クラスタリングアルゴリズムを提案する。
我々の手法は最新のクラスタリングアルゴリズムより優れ、最先端のクラスタリング結果が得られる。
論文 参考訳(メタデータ) (2024-08-04T04:08:21Z) - GCC: Generative Calibration Clustering [55.44944397168619]
本稿では,特徴学習と拡張をクラスタリングに組み込む新しいGCC法を提案する。
まず,実検体と実検体間の固有関係を識別する識別的特徴アライメント機構を開発する。
第二に、より信頼性の高いクラスタ割り当てを生成するための自己教師付きメトリック学習を設計する。
論文 参考訳(メタデータ) (2024-04-14T01:51:11Z) - Image Clustering via the Principle of Rate Reduction in the Age of Pretrained Models [37.574691902971296]
本稿では,大規模事前学習モデルの強力な特徴表現を利用した画像クラスタリングパイプラインを提案する。
パイプラインは、CIFAR-10、CIFAR-100、ImageNet-1kなどの標準データセットでうまく動作することを示す。
論文 参考訳(メタデータ) (2023-06-08T15:20:27Z) - CLUSTSEG: Clustering for Universal Segmentation [56.58677563046506]
CLUSTSEGは画像セグメンテーションのための一般的なトランスフォーマーベースのフレームワークである。
これは、統合されたニューラルクラスタリングスキームを通じて、異なるイメージセグメンテーションタスク(スーパーピクセル、セマンティック、インスタンス、パノプティクス)に取り組む。
論文 参考訳(メタデータ) (2023-05-03T15:31:16Z) - GraphLearner: Graph Node Clustering with Fully Learnable Augmentation [76.63963385662426]
Contrastive Deep Graph Clustering (CDGC)は、異なるクラスタにノードをグループ化するために、コントラスト学習のパワーを活用する。
我々は、GraphLearnerと呼ばれる、完全学習可能な拡張を備えたグラフノードクラスタリングを提案する。
学習可能な拡張器を導入し、CDGCのための高品質でタスク固有の拡張サンプルを生成する。
論文 参考訳(メタデータ) (2022-12-07T10:19:39Z) - Large-Scale Hyperspectral Image Clustering Using Contrastive Learning [18.473767002905433]
SSCC(Spectral-Spatial Contrastive Clustering)という,スケーラブルなオンラインクラスタリングモデルを提案する。
我々は、スペクトル空間拡張プールから二重コントラスト学習を行うために、クラスタ番号の次元を持つ投影ヘッドからなる対称双対ニューラルネットワークを利用する。
結果として得られたアプローチは、バッチワイズ最適化によってエンドツーエンドでトレーニングされ、大規模なデータで堅牢になり、見当たらないデータに対して優れた一般化能力が得られる。
論文 参考訳(メタデータ) (2021-11-15T17:50:06Z) - Deep Attention-guided Graph Clustering with Dual Self-supervision [49.040136530379094]
デュアル・セルフ・スーパービジョン(DAGC)を用いたディープアテンション誘導グラフクラスタリング法を提案する。
我々は,三重項Kulback-Leibler分散損失を持つソフトな自己スーパービジョン戦略と,擬似的な監督損失を持つハードな自己スーパービジョン戦略からなる二重自己スーパービジョンソリューションを開発する。
提案手法は6つのベンチマークデータセットにおける最先端の手法より一貫して優れている。
論文 参考訳(メタデータ) (2021-11-10T06:53:03Z) - Clustering by Maximizing Mutual Information Across Views [62.21716612888669]
本稿では,共同表現学習とクラスタリングを組み合わせた画像クラスタリングのための新しいフレームワークを提案する。
提案手法は,様々な画像データセットにおける最先端の単一ステージクラスタリング手法よりも優れていた。
論文 参考訳(メタデータ) (2021-07-24T15:36:49Z) - Learning the Precise Feature for Cluster Assignment [39.320210567860485]
表現学習とクラスタリングを1つのパイプラインに初めて統合するフレームワークを提案する。
提案フレームワークは,近年開発された生成モデルを用いて,本質的な特徴を学習する能力を活用している。
実験の結果,提案手法の性能は,最先端の手法よりも優れているか,少なくとも同等であることがわかった。
論文 参考訳(メタデータ) (2021-06-11T04:08:54Z) - Learning to Cluster Faces via Confidence and Connectivity Estimation [136.5291151775236]
重複する部分グラフを多数必要とせず,完全に学習可能なクラスタリングフレームワークを提案する。
提案手法はクラスタリングの精度を大幅に向上させ,その上で訓練した認識モデルの性能を向上させるが,既存の教師付き手法に比べて桁違いに効率的である。
論文 参考訳(メタデータ) (2020-04-01T13:39:37Z) - GATCluster: Self-Supervised Gaussian-Attention Network for Image
Clustering [9.722607434532883]
画像クラスタリングのための自己教師型クラスタリングネットワーク(GATCluster)を提案する。
まず中間機能を抽出し、次に従来のクラスタリングを実行する代わりに、GATClusterセマンティッククラスタラベルを後処理なしで実行します。
大規模画像のクラスタリングにメモリ効率のよい2段階学習アルゴリズムを開発した。
論文 参考訳(メタデータ) (2020-02-27T00:57:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。