論文の概要: Khatri-Rao Clustering for Data Summarization
- arxiv url: http://arxiv.org/abs/2603.06602v2
- Date: Tue, 10 Mar 2026 09:29:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-15 16:38:22.416634
- Title: Khatri-Rao Clustering for Data Summarization
- Title(参考訳): データ要約のためのKhatri-Raoクラスタリング
- Authors: Martino Ciaperoni, Collin Leiber, Aristides Gionis, Heikki Mannila,
- Abstract要約: 広く採用されているCentroidベースのクラスタリングは、少数のプロトタイプの観点から、データセットの有益な要約を見つける。
広く採用されているにもかかわらず、結果として得られるデータ要約は冗長性を含んでいることが多い。
Khatri-Raoクラスタリングのパラダイムを導入し、従来のCentroidベースのクラスタリングを拡張して、より簡潔で、同じくらい正確なデータサマリーを生成する。
- 参考スコア(独自算出の注目度): 16.986754788004642
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: As datasets continue to grow in size and complexity, finding succinct yet accurate data summaries poses a key challenge. Centroid-based clustering, a widely adopted approach to address this challenge, finds informative summaries of datasets in terms of few prototypes, each representing a cluster in the data. Despite their wide adoption, the resulting data summaries often contain redundancies, limiting their effectiveness particularly in datasets characterized by a large number of underlying clusters. To overcome this limitation, we introduce the Khatri-Rao clustering paradigm that extends traditional centroid-based clustering to produce more succinct but equally accurate data summaries by postulating that centroids arise from the interaction of two or more succinct sets of protocentroids. We study two central approaches to centroid-based clustering, namely the well-established k-Means algorithm and the increasingly popular topic of deep clustering, under the lens of the Khatri-Rao paradigm. To this end, we introduce the Khatri-Rao k-Means algorithm and the Khatri-Rao deep clustering framework. Extensive experiments show that Khatri-Rao k-Means can strike a more favorable trade-off between succinctness and accuracy in data summarization than standard k-Means. Leveraging representation learning, the Khatri-Rao deep clustering framework offers even greater benefits, reducing even more the size of data summaries given by deep clustering while preserving their accuracy.
- Abstract(参考訳): データセットのサイズと複雑さが拡大するにつれて、簡潔で正確なデータサマリーを見つけることが大きな課題となる。
この課題に対処する広く採用されているアプローチであるCentroidベースのクラスタリングでは、データ内のクラスタを表す少数のプロトタイプという観点から、データセットの情報的な要約を見つける。
広く採用されているにもかかわらず、結果として得られるデータ要約は冗長性を含むことが多く、特に多くの基盤となるクラスタによって特徴づけられるデータセットにおける有効性を制限する。
この制限を克服するために、我々は2つ以上のプロトセントロイドの相互作用からセントロイドが生じることを仮定して、従来のセントロイドベースのクラスタリングを拡張して、より簡潔だが等しく正確なデータ要約を生成するカトリ・ラオクラスタリングパラダイムを導入する。
我々は,K-Meansアルゴリズムの確立と,Khatri-Raoパラダイムのレンズ下での深層クラスタリングの話題として,Centroid-based clusteringの2つの中心的アプローチについて検討した。
そこで我々は,Khatri-Rao k-MeansアルゴリズムとKhatri-Rao深層クラスタリングフレームワークを紹介する。
大規模な実験により、K-Meansは標準的なk-Meansよりも簡潔さとデータの要約における正確さと正確さのトレードオフがより有利であることが示されている。
表現学習を活用することで、Khatri-Raoのディープクラスタリングフレームワークは、さらに大きなメリットを提供し、ディープクラスタリングによって与えられるデータサマリのサイズをさらに削減し、正確性を保っている。
関連論文リスト
- Robust Categorical Data Clustering Guided by Multi-Granular Competitive Learning [47.32771052588132]
ネストされた粒状クラスター効果は、カテゴリーデータの暗黙的な離散距離空間で顕著である。
本稿では,潜在的なクラスタが対話的に自分自身をチューニングできるマルチグラニュラ競合学習アルゴリズムを提案する。
提案手法は,マルチグラニュラクラスタのネスト分布の探索に有効であることを示す。
論文 参考訳(メタデータ) (2026-01-23T06:33:08Z) - Convex Clustering Redefined: Robust Learning with the Median of Means Estimator [22.614296433333106]
コンベックスクラスタリングをMedian of Means (MoM) 推定器と統合するロバストなアプローチを導入する。
提案手法は,特に大規模データセットにおいて,性能と効率を両立させる。
論文 参考訳(メタデータ) (2025-11-12T21:16:53Z) - Self-Supervised Graph Embedding Clustering [70.36328717683297]
K-means 1-step dimensionality reduction clustering method は,クラスタリングタスクにおける次元性の呪いに対処する上で,いくつかの進歩をもたらした。
本稿では,K-meansに多様体学習を統合する統一フレームワークを提案する。
論文 参考訳(メタデータ) (2024-09-24T08:59:51Z) - Fuzzy K-Means Clustering without Cluster Centroids [21.256564324236333]
ファジィK平均クラスタリングは教師なしデータ分析において重要な手法である。
本稿では,クラスタセントロイドへの依存を完全に排除する,ファジィテクストK-Meansクラスタリングアルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-04-07T12:25:03Z) - End-to-end Learnable Clustering for Intent Learning in Recommendation [54.157784572994316]
我々は、アンダーラインELCRecと呼ばれる新しい意図学習手法を提案する。
振る舞い表現学習をUnderlineEnd-to-end UnderlineLearnable UnderlineClusteringフレームワークに統合する。
1億3000万ページビューの産業レコメンデーションシステムに本手法をデプロイし,有望な結果を得る。
論文 参考訳(メタデータ) (2024-01-11T15:22:55Z) - High-dimensional multi-view clustering methods [0.0]
特にグラフベースのクラスタリングとサブスペースベースのクラスタリングという,2つのカテゴリにおいて,アプローチの検証と比較を行う。
ベンチマークデータセット上で、主要なクラスタリング手法の実験を実施、報告します。
論文 参考訳(メタデータ) (2023-03-14T11:04:37Z) - Deep Clustering: A Comprehensive Survey [53.387957674512585]
クラスタリング分析は、機械学習とデータマイニングにおいて必須の役割を果たす。
ディープ・クラスタリングは、ディープ・ニューラルネットワークを使ってクラスタリングフレンドリーな表現を学習することができるが、幅広いクラスタリングタスクに広く適用されている。
ディープクラスタリングに関する既存の調査は、主にシングルビューフィールドとネットワークアーキテクチャに焦点を当てており、クラスタリングの複雑なアプリケーションシナリオを無視している。
論文 参考訳(メタデータ) (2022-10-09T02:31:32Z) - A Hybrid Algorithm Based Robust Big Data Clustering for Solving
Unhealthy Initialization, Dynamic Centroid Selection and Empty clustering
Problems with Analysis [0.0]
クラスタリングアルゴリズムは、現代的なアプリケーションによって生成されるデータの量を分析する強力な学習ツールとして開発されている。
提案アルゴリズムEG K-MEANS : 拡張生成K-MEANSは主にK-MEANSの3つの問題を解く。
論文 参考訳(メタデータ) (2020-02-21T16:09:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。