論文の概要: Wasserstein $K$-means for clustering probability distributions
- arxiv url: http://arxiv.org/abs/2209.06975v1
- Date: Wed, 14 Sep 2022 23:43:16 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-16 12:13:12.905933
- Title: Wasserstein $K$-means for clustering probability distributions
- Title(参考訳): クラスタリング確率分布に対するWasserstein $K$-means
- Authors: Yubo Zhuang, Xiaohui Chen, Yun Yang
- Abstract要約: ユークリッド空間では、セントロイドと距離に基づくK$平均の定式化は同値である。
現代の機械学習アプリケーションでは、データは確率分布として発生し、測度値のデータを扱う自然な一般化は最適な輸送距離を使用する。
SDP緩和ワッサースタイン$K$-平均は、クラスターが2ドルワッサースタイン計量の下で十分に分離されているため、正確な回復を達成することができることを示す。
- 参考スコア(独自算出の注目度): 16.153709556346417
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Clustering is an important exploratory data analysis technique to group
objects based on their similarity. The widely used $K$-means clustering method
relies on some notion of distance to partition data into a fewer number of
groups. In the Euclidean space, centroid-based and distance-based formulations
of the $K$-means are equivalent. In modern machine learning applications, data
often arise as probability distributions and a natural generalization to handle
measure-valued data is to use the optimal transport metric. Due to non-negative
Alexandrov curvature of the Wasserstein space, barycenters suffer from
regularity and non-robustness issues. The peculiar behaviors of Wasserstein
barycenters may make the centroid-based formulation fail to represent the
within-cluster data points, while the more direct distance-based $K$-means
approach and its semidefinite program (SDP) relaxation are capable of
recovering the true cluster labels. In the special case of clustering Gaussian
distributions, we show that the SDP relaxed Wasserstein $K$-means can achieve
exact recovery given the clusters are well-separated under the $2$-Wasserstein
metric. Our simulation and real data examples also demonstrate that
distance-based $K$-means can achieve better classification performance over the
standard centroid-based $K$-means for clustering probability distributions and
images.
- Abstract(参考訳): クラスタリングは、類似性に基づいてオブジェクトをグループ化する重要な探索データ解析手法である。
広く使われている$K$-meansクラスタリング法は、データを少数のグループに分割する距離の概念に依存している。
ユークリッド空間では、セントロイドと距離に基づくK$平均の定式化は同値である。
現代の機械学習アプリケーションでは、データは確率分布として現れ、測度値のデータを扱う自然な一般化は最適な輸送距離を使用する。
ワッサーシュタイン空間の非負のアレクサンドロフ曲率のため、バリー中心は正則性や非ロバスト性の問題に悩まされる。
Wasserstein Barycenters の特異な振る舞いは、センチロイドに基づく定式化がクラスタ内のデータポイントを表現できないようにし、より直接的な距離に基づく $K$-means アプローチと半定値プログラム(SDP)緩和は真のクラスタラベルを復元することができる。
ガウス分布の特別の場合において、SDP緩和ワッサーシュタイン$K$-平均は、クラスターが2ドルワッサーシュタイン計量の下で十分に分離されているため、正確な回復を達成することができることを示す。
シミュレーションおよび実データ例により、距離ベース$K$-meansは、クラスタリング確率分布と画像に対して標準セントロイドベース$K$-meansよりも優れた分類性能が得られることを示した。
関連論文リスト
- Self-Supervised Graph Embedding Clustering [70.36328717683297]
K-means 1-step dimensionality reduction clustering method は,クラスタリングタスクにおける次元性の呪いに対処する上で,いくつかの進歩をもたらした。
本稿では,K-meansに多様体学習を統合する統一フレームワークを提案する。
論文 参考訳(メタデータ) (2024-09-24T08:59:51Z) - A Unified Framework for Center-based Clustering of Distributed Data [46.86543102499174]
我々は、ユーザのネットワーク上で動作する分散センターベースのクラスタリングアルゴリズムのファミリーを開発する。
私たちのフレームワークは、$K$-meansやHuber Losといった一般的なクラスタリング損失を含む、スムーズな凸損失関数の幅広いクラスを可能にします。
ブレグマン損失の特別の場合、固定点がロイド点の集合に収束することを示す。
論文 参考訳(メタデータ) (2024-02-02T10:44:42Z) - Spectral Clustering for Discrete Distributions [22.450518079181542]
伝統的に、離散分布(D2C)のクラスタリングは、Wasserstein Barycenter法を用いてアプローチされてきた。
本研究では, スペクトルクラスタリングと分布親和性尺度を組み合わせることで, バリセンタ法よりも精度が高く, 効率的であることを示す。
クラスタリング分布における手法の成功を理論的に保証する。
論文 参考訳(メタデータ) (2024-01-25T03:17:03Z) - Rethinking k-means from manifold learning perspective [122.38667613245151]
平均推定なしで直接データのクラスタを検出する新しいクラスタリングアルゴリズムを提案する。
具体的には,バタワースフィルタを用いてデータ点間の距離行列を構成する。
異なる視点に埋め込まれた相補的な情報をうまく活用するために、テンソルのSchatten p-norm正規化を利用する。
論文 参考訳(メタデータ) (2023-05-12T03:01:41Z) - A One-shot Framework for Distributed Clustered Learning in Heterogeneous
Environments [54.172993875654015]
異種環境における分散学習のためのコミュニケーション効率化手法のファミリーを提案する。
ユーザによるローカル計算に基づくワンショットアプローチと、サーバにおけるクラスタリングベースのアグリゲーションステップは、強力な学習保証を提供する。
厳密な凸問題に対しては,ユーザ毎のデータ点数がしきい値を超える限り,提案手法はサンプルサイズの観点から順序最適平均二乗誤差率を達成する。
論文 参考訳(メタデータ) (2022-09-22T09:04:10Z) - Clustering by the Probability Distributions from Extreme Value Theory [32.496691290725764]
本稿では,クラスタの分布をモデル化するためにk-meansを一般化する。
GPDを用いて各クラスタの確率モデルを確立する。
我々はまた、GEV (Generalized Extreme Value) k-means(一般化極値)(GEV)と呼ばれる単純なベースラインも導入する。
特に、GEV k-平均はクラスタ構造を推定することもでき、したがって古典的なk-平均に対して合理的に振る舞うことができる。
論文 参考訳(メタデータ) (2022-02-20T10:52:43Z) - Distributed k-Means with Outliers in General Metrics [0.6117371161379208]
一般距離空間に対する$z$アウトレイアを持つk平均に対する分散コアセットに基づく3ラウンド近似アルゴリズムを提案する。
我々のアルゴリズムの重要な特徴は、距離空間の2倍の次元で捉えられたデータセットの本質的な複雑さに鮮明に適応することである。
論文 参考訳(メタデータ) (2022-02-16T16:24:31Z) - Differentially-Private Clustering of Easy Instances [67.04951703461657]
異なるプライベートクラスタリングでは、個々のデータポイントに関する情報を公開せずに、$k$のクラスタセンターを特定することが目標だ。
我々は、データが"簡単"である場合にユーティリティを提供する実装可能な差分プライベートクラスタリングアルゴリズムを提供する。
我々は、非プライベートクラスタリングアルゴリズムを簡単なインスタンスに適用し、結果をプライベートに組み合わせることのできるフレームワークを提案する。
論文 参考訳(メタデータ) (2021-12-29T08:13:56Z) - Sum-of-norms clustering does not separate nearby balls [49.1574468325115]
我々は,データセットを一般的な測度に置き換えた,和和クラスタリングの連続的なバージョンを示す。
我々は,離散データポイントの場合においても,新たなクラスタリングの局所的特徴を記述し,証明する。
論文 参考訳(メタデータ) (2021-04-28T13:35:17Z) - K-expectiles clustering [0.0]
本稿では,期待値に基づく分割クラスタリングアルゴリズムを提案する。
固定$tau$クラスタリングと適応$tau$クラスタリングの2つのスキームを提案します。
論文 参考訳(メタデータ) (2021-03-16T21:14:56Z) - Quantizing Multiple Sources to a Common Cluster Center: An Asymptotic
Analysis [14.048989759890475]
我々は、$Ld$次元のサンプルを$d$次元のベクトルのデータセットから$Ld$次元のクラスタセンターに結合することで得られる$Ld$次元のサンプルを定量化することを検討する。
クラスタセンターの数が多いレジームにおける平均的性能歪みの式を求める。
元の(ノイズのない)データセットへの忠実さに関して、我々のクラスタリングアプローチは、$Ld$次元ノイズ観測ベクトルを$Ld$次元中心に量子化することに依拠する単純アプローチよりも優れています。
論文 参考訳(メタデータ) (2020-10-23T17:14:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。