論文の概要: Delving into Spectral Clustering with Vision-Language Representations
- arxiv url: http://arxiv.org/abs/2602.09586v1
- Date: Tue, 10 Feb 2026 09:36:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-11 20:17:43.474895
- Title: Delving into Spectral Clustering with Vision-Language Representations
- Title(参考訳): 視覚言語表現を用いたスペクトルクラスタリング
- Authors: Bo Peng, Yuanwei Hu, Bo Liu, Ling Chen, Jie Lu, Zhen Fang,
- Abstract要約: 本稿では,事前学習された視覚言語モデルにおけるクロスモーダルアライメントを利用したニューラルタンジェントカーネルスペクトルクラスタリングを提案する。
この定式化はクラスタ内の接続を増幅し,クラスタ間のスプリラスな接続を抑えることを示す。
我々の手法は、常に最先端の手法よりも大きなマージンで優れています。
- 参考スコア(独自算出の注目度): 27.433418706301477
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Spectral clustering is known as a powerful technique in unsupervised data analysis. The vast majority of approaches to spectral clustering are driven by a single modality, leaving the rich information in multi-modal representations untapped. Inspired by the recent success of vision-language pre-training, this paper enriches the landscape of spectral clustering from a single-modal to a multi-modal regime. Particularly, we propose Neural Tangent Kernel Spectral Clustering that leverages cross-modal alignment in pre-trained vision-language models. By anchoring the neural tangent kernel with positive nouns, i.e., those semantically close to the images of interest, we arrive at formulating the affinity between images as a coupling of their visual proximity and semantic overlap. We show that this formulation amplifies within-cluster connections while suppressing spurious ones across clusters, hence encouraging block-diagonal structures. In addition, we present a regularized affinity diffusion mechanism that adaptively ensembles affinity matrices induced by different prompts. Extensive experiments on \textbf{16} benchmarks -- including classical, large-scale, fine-grained and domain-shifted datasets -- manifest that our method consistently outperforms the state-of-the-art by a large margin.
- Abstract(参考訳): スペクトルクラスタリングは教師なしデータ分析において強力な手法として知られている。
スペクトルクラスタリングに対するほとんどのアプローチは単一のモダリティによって駆動され、マルチモーダル表現の豊富な情報は未解決のまま残されている。
近年の視覚言語事前学習の成功に触発された本論文は、単一モードから多モード体制へのスペクトルクラスタリングの展望を強化する。
特に,事前学習された視覚言語モデルにおけるクロスモーダルアライメントを利用したニューラルタンジェントカーネルスペクトルクラスタリングを提案する。
ニューラル・タンジェント・カーネルを正の名詞で固定することで、すなわち、興味のある画像にセマンティックに近づいたものは、視覚的近接性とセマンティックオーバーラップの結合として画像間の親和性を定式化する。
この定式化はクラスタ内の接続を増幅し,クラスタ間のスプリアスを抑制し,ブロック対角構造を促進させることを示す。
さらに,異なるプロンプトによって誘導される親和性行列を適応的にアンサンブルする正規化親和性拡散機構を提案する。
古典的、大規模、きめ細かな、ドメインシフトされたデータセットを含む、‘textbf{16}ベンチマーク’に関する大規模な実験は、我々の手法が、最先端の状態を大きなマージンで一貫して上回っていることを示している。
関連論文リスト
- Wasserstein-Aligned Hyperbolic Multi-View Clustering [58.29261653100388]
本稿では,マルチビュークラスタリングのための新しいWasserstein-Aligned Hyperbolic(WAH)フレームワークを提案する。
本手法はビュー固有の双曲エンコーダを用いて特徴をローレンツ多様体に埋め込んで階層的セマンティックモデリングを行う。
論文 参考訳(メタデータ) (2025-12-10T07:56:19Z) - Modality Alignment across Trees on Heterogeneous Hyperbolic Manifolds [49.95082206008502]
ツリーを横断するアライメントは、画像とテキストのモダリティの両方に対してツリーのような階層的な特徴を構築し、調整する手法である。
本稿では,中間トランスフォーマー層からの視覚的クラストークンにクロスアテンション機構を適用した意味認識型視覚特徴抽出フレームワークを提案する。
論文 参考訳(メタデータ) (2025-10-31T11:32:15Z) - Generative Kernel Spectral Clustering [12.485601356990998]
本稿では,カーネルスペクトルクラスタリングと生成モデルを組み合わせた新しいモデルであるGenerative Kernel Spectral Clustering(GenKSC)を提案する。
MNISTとFashionMNISTデータセットの結果は、意味のあるクラスタ表現を学習するモデルの能力を示している。
論文 参考訳(メタデータ) (2025-02-04T09:59:45Z) - Revisiting Self-Supervised Heterogeneous Graph Learning from Spectral Clustering Perspective [52.662463893268225]
自己教師付きヘテロジニアスグラフ学習(SHGL)は様々なシナリオにおいて有望な可能性を示している。
既存のSHGLメソッドには2つの大きな制限がある。
ランクと二重整合性制約によって強化された新しいフレームワークを導入する。
論文 参考訳(メタデータ) (2024-12-01T09:33:20Z) - Fast Disentangled Slim Tensor Learning for Multi-view Clustering [28.950845031752927]
本稿では,マルチビュークラスタリングのための高速離散スリム学習法(DSTL)を提案する。
頑健なPCAにインスパイアされた特徴冗長性の負の影響を軽減するため、DSTLは、潜在する低次元表現を、各ビューに対する意味的非関連部分と意味的関連部分に分解する。
提案手法は計算効率が高く,効果的に解ける。
論文 参考訳(メタデータ) (2024-11-12T09:57:53Z) - Multi-View Clustering via Semi-non-negative Tensor Factorization [120.87318230985653]
半負のテンソル因子分解(Semi-NTF)に基づく新しいマルチビュークラスタリングを開発する。
本モデルは、ビュー間の関係を直接考慮し、ビュー間の補完情報を利用する。
さらに,提案手法の最適化アルゴリズムを提案し,そのアルゴリズムが常に定常KKT点に収束することを数学的に証明する。
論文 参考訳(メタデータ) (2023-03-29T14:54:19Z) - Unified Multi-View Orthonormal Non-Negative Graph Based Clustering
Framework [74.25493157757943]
我々は,非負の特徴特性を活用し,多視点情報を統合された共同学習フレームワークに組み込む,新しいクラスタリングモデルを定式化する。
また、深層機能に基づいたクラスタリングデータに対するマルチモデル非負グラフベースのアプローチを初めて検討する。
論文 参考訳(メタデータ) (2022-11-03T08:18:27Z) - DeepCluE: Enhanced Image Clustering via Multi-layer Ensembles in Deep
Neural Networks [53.88811980967342]
本稿では,Ensembles (DeepCluE) を用いたDeep Clusteringを提案する。
ディープニューラルネットワークにおける複数のレイヤのパワーを活用することで、ディープクラスタリングとアンサンブルクラスタリングのギャップを埋める。
6つの画像データセットの実験結果から、最先端のディープクラスタリングアプローチに対するDeepCluEの利点が確認されている。
論文 参考訳(メタデータ) (2022-06-01T09:51:38Z) - Large-Scale Hyperspectral Image Clustering Using Contrastive Learning [18.473767002905433]
SSCC(Spectral-Spatial Contrastive Clustering)という,スケーラブルなオンラインクラスタリングモデルを提案する。
我々は、スペクトル空間拡張プールから二重コントラスト学習を行うために、クラスタ番号の次元を持つ投影ヘッドからなる対称双対ニューラルネットワークを利用する。
結果として得られたアプローチは、バッチワイズ最適化によってエンドツーエンドでトレーニングされ、大規模なデータで堅牢になり、見当たらないデータに対して優れた一般化能力が得られる。
論文 参考訳(メタデータ) (2021-11-15T17:50:06Z) - Doubly Stochastic Subspace Clustering [9.815735805354905]
多くの最先端サブスペースクラスタリング法は、まずデータポイント間の親和性行列を構築し、その親和性にスペクトルクラスタリングを適用することによって、2段階のプロセスに従う。
本研究では、データの自己表現表現と、スペクトルクラスタリングによく正規化された親和性行列の両方を学習する。
実験により,コンピュータビジョンにおける多くの共通データセットに対して,最先端のサブスペースクラスタリング性能が得られた。
論文 参考訳(メタデータ) (2020-11-30T14:56:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。