論文の概要: Number of Clusters in a Dataset: A Regularized K-means Approach
- arxiv url: http://arxiv.org/abs/2505.22991v1
- Date: Thu, 29 May 2025 01:58:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-30 18:14:07.617933
- Title: Number of Clusters in a Dataset: A Regularized K-means Approach
- Title(参考訳): データセット内のクラスタ数:正規化K平均アプローチ
- Authors: Behzad Kamgar-Parsi, Behrooz Kamgar-Parsi,
- Abstract要約: 正規化k平均アルゴリズムは、データセット内の異なるクラスタの正しい数を見つけるために使用される。
本稿では,クラスタが理想的であると仮定して,$lambda$の厳密な境界を導出する。
実験により、加法正則化器を用いたk平均アルゴリズムは、しばしば複数の解が得られることが示された。
- 参考スコア(独自算出の注目度): 0.6445605125467572
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Finding the number of meaningful clusters in an unlabeled dataset is important in many applications. Regularized k-means algorithm is a possible approach frequently used to find the correct number of distinct clusters in datasets. The most common formulation of the regularization function is the additive linear term $\lambda k$, where $k$ is the number of clusters and $\lambda$ a positive coefficient. Currently, there are no principled guidelines for setting a value for the critical hyperparameter $\lambda$. In this paper, we derive rigorous bounds for $\lambda$ assuming clusters are {\em ideal}. Ideal clusters (defined as $d$-dimensional spheres with identical radii) are close proxies for k-means clusters ($d$-dimensional spherically symmetric distributions with identical standard deviations). Experiments show that the k-means algorithm with additive regularizer often yields multiple solutions. Thus, we also analyze k-means algorithm with multiplicative regularizer. The consensus among k-means solutions with additive and multiplicative regularizations reduces the ambiguity of multiple solutions in certain cases. We also present selected experiments that demonstrate performance of the regularized k-means algorithms as clusters deviate from the ideal assumption.
- Abstract(参考訳): 多くのアプリケーションにおいて、ラベル付けされていないデータセットで意味のあるクラスタの数を見つけることが重要である。
正規化k平均アルゴリズムは、データセット内の異なるクラスタの正しい数を見つけるために頻繁に使用されるアプローチである。
正規化関数の最も一般的な定式化は加法線型項 $\lambda k$ であり、$k$ はクラスタの数、$\lambda$ は正の係数である。
現在、クリティカルハイパーパラメータの値を設定するための原則化されたガイドラインは存在しない。
本稿では、クラスタが {\em ideal} であるとする$\lambda$に対する厳密な境界を導出する。
理想的クラスター ($d$-dimensional spheres with same radii) は k-平均クラスター (d$-dimensional spherally symmetric distributions with same standard deviations) の近接プロキシである。
実験により、加法正則化器を用いたk平均アルゴリズムは、しばしば複数の解が得られることが示された。
そこで我々はk-meansアルゴリズムを乗法正規化器を用いて解析する。
加法的および乗法的正則化を持つk-平均解間のコンセンサスは、ある場合において複数の解のあいまいさを減少させる。
また,クラスタが理想的な仮定から逸脱するとして,正規化k平均アルゴリズムの性能を示す実験も行った。
関連論文リスト
- K*-Means: A Parameter-free Clustering Algorithm [55.20132267309382]
k*-meansは、kや他のパラメータをセットする必要がない新しいクラスタリングアルゴリズムである。
最小記述長の原理を用いて、クラスタの分割とマージによって最適なクラスタ数k*を自動的に決定する。
k*-平均が収束することが保証されることを証明し、kが未知のシナリオにおいて既存のメソッドよりも著しく優れていることを実験的に証明する。
論文 参考訳(メタデータ) (2025-05-17T08:41:07Z) - Radius-Guided Post-Clustering for Shape-Aware, Scalable Refinement of k-Means Results [1.9580473532948401]
標準k平均の後、各クラスター中心は半径(割り当てられた点までの距離)が割り当てられ、半径が重なり合うクラスタがマージされる。
この後処理ステップは、k が k である限り、正確な k の要求を緩める。
この手法は意味のあるマージの上に非推定形状を再構成することができる。
論文 参考訳(メタデータ) (2025-04-28T22:30:53Z) - Counterfactual Explanations for k-means and Gaussian Clustering [1.8561812622368767]
本稿では、妥当性と実現可能性の制約を含むモデルベースのクラスタリングに対する反事実の一般的な定義について述べる。
提案手法は, 現実性, 対象クラスタ, 動作可能な, 不変な特徴を示す2値マスク, クラスタ境界からどの程度の距離を指定すべきかを示す可視性係数を入力として行う。
論文 参考訳(メタデータ) (2025-01-17T14:56:20Z) - Revisiting Instance-Optimal Cluster Recovery in the Labeled Stochastic Block Model [69.15976031704687]
IAC (Instance-Adaptive Clustering, インスタンス適応クラスタリング) を提案する。
IACは$ MathcalO(n, textpolylog(n) $の計算複雑性を維持しており、大規模問題に対してスケーラブルで実用的なものである。
論文 参考訳(メタデータ) (2023-06-18T08:46:06Z) - Rethinking k-means from manifold learning perspective [122.38667613245151]
平均推定なしで直接データのクラスタを検出する新しいクラスタリングアルゴリズムを提案する。
具体的には,バタワースフィルタを用いてデータ点間の距離行列を構成する。
異なる視点に埋め込まれた相補的な情報をうまく活用するために、テンソルのSchatten p-norm正規化を利用する。
論文 参考訳(メタデータ) (2023-05-12T03:01:41Z) - Local versions of sum-of-norms clustering [77.34726150561087]
本手法はボールモデルにおいて任意に閉じた球を分離できることを示す。
我々は、不連結連結集合のクラスタリングで発生する誤差に定量的な有界性を証明した。
論文 参考訳(メタデータ) (2021-09-20T14:45:29Z) - Distribution free optimality intervals for clustering [1.7513645771137178]
データ$mathcalD$と、これらのデータのパーティション$mathcalC$を$K$クラスタにすると、得られたクラスタがデータに対して正しい、あるいは有意義なものであると言えますか?
本稿では,K-means歪みなどの損失関数に関して,クラスタリング$mathcalC$が有意義であると考えられるパラダイムを紹介した。
論文 参考訳(メタデータ) (2021-07-30T06:13:56Z) - Fuzzy Clustering with Similarity Queries [56.96625809888241]
ファジィ(fuzzy, soft objective)は、よく知られた$k$-means問題の一般化である。
クエリを少なくすることで、問題の解決が容易になる。
論文 参考訳(メタデータ) (2021-06-04T02:32:26Z) - K-expectiles clustering [0.0]
本稿では,期待値に基づく分割クラスタリングアルゴリズムを提案する。
固定$tau$クラスタリングと適応$tau$クラスタリングの2つのスキームを提案します。
論文 参考訳(メタデータ) (2021-03-16T21:14:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。