論文の概要: Mass Distribution versus Density Distribution in the Context of Clustering
- arxiv url: http://arxiv.org/abs/2601.10759v1
- Date: Wed, 14 Jan 2026 03:55:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-19 20:21:50.237764
- Title: Mass Distribution versus Density Distribution in the Context of Clustering
- Title(参考訳): クラスタリングにおける質量分布と密度分布
- Authors: Kai Ming Ting, Ye Zhu, Hang Zhang, Tianrun Liang,
- Abstract要約: 密度分布は、その基本的な限界、すなわち高密度バイアスを持つことを示す。
本稿では,全クラスタの総質量を最大化するアルゴリズムを提案する。
- 参考スコア(独自算出の注目度): 11.790709734042006
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper investigates two fundamental descriptors of data, i.e., density distribution versus mass distribution, in the context of clustering. Density distribution has been the de facto descriptor of data distribution since the introduction of statistics. We show that density distribution has its fundamental limitation -- high-density bias, irrespective of the algorithms used to perform clustering. Existing density-based clustering algorithms have employed different algorithmic means to counter the effect of the high-density bias with some success, but the fundamental limitation of using density distribution remains an obstacle to discovering clusters of arbitrary shapes, sizes and densities. Using the mass distribution as a better foundation, we propose a new algorithm which maximizes the total mass of all clusters, called mass-maximization clustering (MMC). The algorithm can be easily changed to maximize the total density of all clusters in order to examine the fundamental limitation of using density distribution versus mass distribution. The key advantage of the MMC over the density-maximization clustering is that the maximization is conducted without a bias towards dense clusters.
- Abstract(参考訳): 本稿では,クラスタリングの文脈におけるデータ,すなわち密度分布と質量分布の2つの基本記述子について検討する。
密度分布は統計の導入以来、データ分布の事実上の記述である。
我々は,クラスタリングを行うアルゴリズムに関係なく,密度分布が基本的限界を持つことを示す。
既存の密度に基づくクラスタリングアルゴリズムでは、高密度バイアスの効果に対抗するために異なるアルゴリズムが採用されているが、密度分布を用いることの基本的な制限は、任意の形状、大きさ、密度のクラスタを見つけるのに障害となる。
より優れた基礎として質量分布を用いることにより,全クラスタの総質量を最大化するアルゴリズムを提案し,そのアルゴリズムをMMC(Mass-maximization clustering)と呼ぶ。
このアルゴリズムは、密度分布と質量分布の基本的な限界を調べるために、全てのクラスターの総密度を最大化するために容易に変更することができる。
密度-最大化クラスタリングに対するMCCの重要な利点は、最大化が密度クラスタへのバイアスなしで実行されることである。
関連論文リスト
- Clustering Based on Density Propagation and Subcluster Merging [92.15924057172195]
本稿では,クラスタ数を自動的に決定し,データ空間とグラフ空間の両方に適用可能な密度に基づくノードクラスタリング手法を提案する。
二つのノード間の距離を計算する従来の密度クラスタリング法とは異なり,提案手法は伝播過程を通じて密度を決定する。
論文 参考訳(メタデータ) (2024-11-04T04:09:36Z) - Self-Supervised Graph Embedding Clustering [70.36328717683297]
K-means 1-step dimensionality reduction clustering method は,クラスタリングタスクにおける次元性の呪いに対処する上で,いくつかの進歩をもたらした。
本稿では,K-meansに多様体学習を統合する統一フレームワークを提案する。
論文 参考訳(メタデータ) (2024-09-24T08:59:51Z) - DECWA : Density-Based Clustering using Wasserstein Distance [1.4132765964347058]
空間密度と確率的アプローチに基づく新しいクラスタリングアルゴリズムを提案する。
提案手法は, 様々なデータセットにおいて, 最先端の密度に基づくクラスタリング手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2023-10-25T11:10:08Z) - GFDC: A Granule Fusion Density-Based Clustering with Evidential
Reasoning [22.526274021556755]
密度に基づくクラスタリングアルゴリズムは任意の形状のクラスタを検出できるため、広く適用されている。
本稿では,GFDCを用いた粒界融合密度クラスタリングを提案する。
サンプルの局所密度と大域密度は、まずスパース度測定によって測定される。
次に、情報グラニュラーを高密度および低密度領域に生成し、大きな密度差を持つクラスタの処理を支援する。
論文 参考訳(メタデータ) (2023-05-20T06:27:31Z) - Density-Based Clustering with Kernel Diffusion [59.4179549482505]
単位$d$次元ユークリッド球のインジケータ関数に対応するナイーブ密度は、密度に基づくクラスタリングアルゴリズムで一般的に使用される。
局所分布特性と滑らかさの異なるデータに適応する新しいカーネル拡散密度関数を提案する。
論文 参考訳(メタデータ) (2021-10-11T09:00:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。