論文の概要: Distribution free optimality intervals for clustering
- arxiv url: http://arxiv.org/abs/2107.14442v1
- Date: Fri, 30 Jul 2021 06:13:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2021-08-02 13:09:30.687526
- Title: Distribution free optimality intervals for clustering
- Title(参考訳): クラスタリングのための分布自由最適間隔
- Authors: Marina Meil\u{a}, Hanyu Zhang
- Abstract要約: データ$mathcalD$と、これらのデータのパーティション$mathcalC$を$K$クラスタにすると、得られたクラスタがデータに対して正しい、あるいは有意義なものであると言えますか?
本稿では,K-means歪みなどの損失関数に関して,クラスタリング$mathcalC$が有意義であると考えられるパラダイムを紹介した。
- 参考スコア(独自算出の注目度): 1.7513645771137178
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We address the problem of validating the ouput of clustering algorithms.
Given data $\mathcal{D}$ and a partition $\mathcal{C}$ of these data into $K$
clusters, when can we say that the clusters obtained are correct or meaningful
for the data? This paper introduces a paradigm in which a clustering
$\mathcal{C}$ is considered meaningful if it is good with respect to a loss
function such as the K-means distortion, and stable, i.e. the only good
clustering up to small perturbations. Furthermore, we present a generic method
to obtain post-inference guarantees of near-optimality and stability for a
clustering $\mathcal{C}$. The method can be instantiated for a variety of
clustering criteria (also called loss functions) for which convex relaxations
exist. Obtaining the guarantees amounts to solving a convex optimization
problem. We demonstrate the practical relevance of this method by obtaining
guarantees for the K-means and the Normalized Cut clustering criteria on
realistic data sets. We also prove that asymptotic instability implies finite
sample instability w.h.p., allowing inferences about the population
clusterability from a sample. The guarantees do not depend on any
distributional assumptions, but they depend on the data set $\mathcal{D}$
admitting a stable clustering.
- Abstract(参考訳): 本稿では,クラスタリングアルゴリズムのouputを検証する問題に対処する。
データ$\mathcal{D}$とパーティション$\mathcal{C}$を$K$クラスタにすれば、得られたクラスタがデータに対して正しい、あるいは有意義なものであると言えますか?
本稿では,K-平均歪みなどの損失関数に関して,クラスタリング$\mathcal{C}$が有意義であると考えられるパラダイムを紹介し,安定である。
小さな摂動まで良いクラスタリングしかありません
さらに、クラスタリング$\mathcal{C}$に対して、ほぼ最適性および安定性の推論後保証を得るための一般的な方法を提案する。
この方法は凸緩和が存在する様々なクラスタリング基準(損失関数とも呼ばれる)に対してインスタンス化することができる。
保証を得ることは凸最適化問題の解決につながる。
本手法は,現実のデータセット上でk平均と正規化カットクラスタリング基準の保証を得ることにより,実用的妥当性を示す。
また、漸近不安定性は有限標本不安定性w.h.p.を示し、サンプルからの集団クラスター性についての推測を可能にする。
保証は、いかなる分布的仮定にも依存しないが、安定したクラスタリングを許容するデータセット $\mathcal{d}$ に依存する。
関連論文リスト
- Near-Optimal Clustering in Mixture of Markov Chains [74.3828414695655]
我々は、長さ$H$の軌跡を、大きさ$S$の有限状態空間上の未知のエルゴードマルコフ鎖の1つによって生成される、$T$ trajectories of length $H$の問題を研究する。
我々は、連鎖の遷移核間の重み付きKL分散によって支配されるクラスタリングエラー率に基づいて、インスタンス依存で高い確率の低い境界を導出する。
次に,新しい2段階クラスタリングアルゴリズムを提案する。
論文 参考訳(メタデータ) (2025-06-02T05:10:40Z) - Number of Clusters in a Dataset: A Regularized K-means Approach [0.6445605125467572]
正規化k平均アルゴリズムは、データセット内の異なるクラスタの正しい数を見つけるために使用される。
本稿では,クラスタが理想的であると仮定して,$lambda$の厳密な境界を導出する。
実験により、加法正則化器を用いたk平均アルゴリズムは、しばしば複数の解が得られることが示された。
論文 参考訳(メタデータ) (2025-05-29T01:58:44Z) - K*-Means: A Parameter-free Clustering Algorithm [55.20132267309382]
k*-meansは、kや他のパラメータをセットする必要がない新しいクラスタリングアルゴリズムである。
最小記述長の原理を用いて、クラスタの分割とマージによって最適なクラスタ数k*を自動的に決定する。
k*-平均が収束することが保証されることを証明し、kが未知のシナリオにおいて既存のメソッドよりも著しく優れていることを実験的に証明する。
論文 参考訳(メタデータ) (2025-05-17T08:41:07Z) - Counterfactual Explanations for k-means and Gaussian Clustering [1.8561812622368767]
本稿では、妥当性と実現可能性の制約を含むモデルベースのクラスタリングに対する反事実の一般的な定義について述べる。
提案手法は, 現実性, 対象クラスタ, 動作可能な, 不変な特徴を示す2値マスク, クラスタ境界からどの程度の距離を指定すべきかを示す可視性係数を入力として行う。
論文 参考訳(メタデータ) (2025-01-17T14:56:20Z) - Self-Supervised Graph Embedding Clustering [70.36328717683297]
K-means 1-step dimensionality reduction clustering method は,クラスタリングタスクにおける次元性の呪いに対処する上で,いくつかの進歩をもたらした。
本稿では,K-meansに多様体学習を統合する統一フレームワークを提案する。
論文 参考訳(メタデータ) (2024-09-24T08:59:51Z) - A Unified Framework for Center-based Clustering of Distributed Data [46.86543102499174]
我々は、ユーザのネットワーク上で動作する分散センターベースのクラスタリングアルゴリズムのファミリーを開発する。
私たちのフレームワークは、$K$-meansやHuber Losといった一般的なクラスタリング損失を含む、スムーズな凸損失関数の幅広いクラスを可能にします。
ブレグマン損失の特別の場合、固定点がロイド点の集合に収束することを示す。
論文 参考訳(メタデータ) (2024-02-02T10:44:42Z) - Are Easy Data Easy (for K-Means) [0.0]
本稿では、$k$-meansアルゴリズムの様々なブランドによって、適切に分離されたクラスタを復元する能力について検討する。
シード選択時に繰り返しサブサンプリングによって$k$-means++のバリエーションが提案される。
論文 参考訳(メタデータ) (2023-08-02T09:40:19Z) - Sketch-and-solve approaches to k-means clustering by semidefinite
programming [14.930208990741132]
我々は,k-meansクラスタリングのPeng-Wei半定緩和を高速化するためのスケッチ・アンド・ソルジ手法を提案する。
データが適切に分離された場合、k平均の最適なクラスタリングを特定する。
そうでなければ、我々のアプローチは最適k-平均値に高信頼な下界を与える。
論文 参考訳(メタデータ) (2022-11-28T19:51:30Z) - Asymptotics for The $k$-means [0.6091702876917281]
k$-meansは統計学と計算機科学において最も重要な教師なし学習手法の1つである。
提案したクラスタリング整合性は,クラスタリング手法の以前の基準整合性よりも適切である。
提案した$k$-means法はクラスタリングエラー率を低くし,小さなクラスタやアウトレイアに対してより堅牢であることがわかった。
論文 参考訳(メタデータ) (2022-11-18T03:36:58Z) - A One-shot Framework for Distributed Clustered Learning in Heterogeneous
Environments [54.172993875654015]
異種環境における分散学習のためのコミュニケーション効率化手法のファミリーを提案する。
ユーザによるローカル計算に基づくワンショットアプローチと、サーバにおけるクラスタリングベースのアグリゲーションステップは、強力な学習保証を提供する。
厳密な凸問題に対しては,ユーザ毎のデータ点数がしきい値を超える限り,提案手法はサンプルサイズの観点から順序最適平均二乗誤差率を達成する。
論文 参考訳(メタデータ) (2022-09-22T09:04:10Z) - No More Than 6ft Apart: Robust K-Means via Radius Upper Bounds [17.226362076527764]
k-means、k-medoids、k-centersといったCentroidベースのクラスタリング手法は、探索データ解析においてゴーツーツールとして強く応用されている。
多くの場合、これらの手法はデータセットの視覚化や要約のためにデータ多様体の代表的なセントロイドを得るのに使用される。
本研究では, 遠心円周波によって形成されるクラスターに最大半径制約$r$を導入することにより, このようなシナリオを緩和することを提案する。
論文 参考訳(メタデータ) (2022-03-04T18:59:02Z) - Lattice-Based Methods Surpass Sum-of-Squares in Clustering [98.46302040220395]
クラスタリングは教師なし学習における基本的なプリミティブである。
最近の研究は、低次手法のクラスに対する低い境界を確立している。
意外なことに、この特定のクラスタリングモデルのtextitdoesは、統計的-計算的ギャップを示さない。
論文 参考訳(メタデータ) (2021-12-07T18:50:17Z) - Fuzzy Clustering with Similarity Queries [56.96625809888241]
ファジィ(fuzzy, soft objective)は、よく知られた$k$-means問題の一般化である。
クエリを少なくすることで、問題の解決が容易になる。
論文 参考訳(メタデータ) (2021-06-04T02:32:26Z) - Computationally efficient sparse clustering [67.95910835079825]
我々はPCAに基づく新しいクラスタリングアルゴリズムの有限サンプル解析を行う。
ここでは,ミニマックス最適誤クラスタ化率を,体制$|theta infty$で達成することを示す。
論文 参考訳(メタデータ) (2020-05-21T17:51:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。