論文の概要: Global $k$-means$++$: an effective relaxation of the global $k$-means
clustering algorithm
- arxiv url: http://arxiv.org/abs/2211.12271v1
- Date: Tue, 22 Nov 2022 13:42:53 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-23 18:56:25.448519
- Title: Global $k$-means$++$: an effective relaxation of the global $k$-means
clustering algorithm
- Title(参考訳): global $k$-means$++$:グローバル$k$-meansクラスタリングアルゴリズムの効果的な緩和
- Authors: Georgios Vardakas and Aristidis Likas
- Abstract要約: グローバル$k$-meansはk-meansのランダム初期化問題に取り組むための決定論的アルゴリズムである。
データは、$k=1,ldots, K$で、すべての$k$-meansサブプロブレムをインクリメンタルに解決することで、$K$クラスタに分割する。
提案手法は、様々なよく知られた実・合成データセットで検証され、比較されている。
- 参考スコア(独自算出の注目度): 0.20305676256390928
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The $k$-means algorithm is a very prevalent clustering method because of its
simplicity, effectiveness, and speed, but its main disadvantage is its high
sensitivity to the initial positions of the cluster centers. The global
$k$-means is a deterministic algorithm proposed to tackle the random
initialization problem of k-means but requires high computational cost. It
partitions the data to $K$ clusters by solving all $k$-means sub-problems
incrementally for $k=1,\ldots, K$. For each $k$ cluster problem, the method
executes the $k$-means algorithm $N$ times, where $N$ is the number of data
points. In this paper, we propose the global $k$-means$++$ clustering
algorithm, which is an effective way of acquiring quality clustering solutions
akin to those of global $k$-means with a reduced computational load. This is
achieved by exploiting the center section probability that is used in the
effective $k$-means$++$ algorithm. The proposed method has been tested and
compared in various well-known real and synthetic datasets yielding very
satisfactory results in terms of clustering quality and execution speed.
- Abstract(参考訳): k$-meansアルゴリズムは、単純性、有効性、速度のため、非常に一般的なクラスタリング手法であるが、その主な欠点は、クラスタセンターの初期位置に対する高い感度である。
グローバル$k$-meansはk-meansのランダム初期化問題に取り組むために提案される決定論的アルゴリズムであるが、計算コストが高い。
データを$k$クラスタに分割し、$k=1,\ldots, k$ですべての$k$-meansサブプロブレムを段階的に解決する。
k$クラスタ問題ごとに、このメソッドは$k$-meansアルゴリズム$n$ timesを実行し、$n$はデータポイントの数である。
本稿では,グローバル$k$-means$++$クラスタリングアルゴリズムを提案する。
これは、有効な$k$-means$++$アルゴリズムで使用される中央セクション確率を活用することで実現される。
提案手法は, 様々な実データと合成データを用いて, クラスタリング品質と実行速度の点で非常に満足できる結果を得た。
関連論文リスト
- A Scalable Algorithm for Individually Fair K-means Clustering [77.93955971520549]
Jung et al. と Mahabadi et al が導入した個別フェア (p$, $k$) クラスタリング問題に対するスケーラブルなアルゴリズムを提案する。
クラスタリングは、各$xin P$に対して$delta(x)$ of $x$の範囲内で中心となる場合、個別にフェアと呼ばれる。
我々は,従来よりもアルゴリズムがはるかに高速であるだけでなく,低コストのソリューションを生み出すことを実証的に示す。
論文 参考訳(メタデータ) (2024-02-09T19:01:48Z) - Sketching Algorithms for Sparse Dictionary Learning: PTAS and Turnstile
Streaming [48.18845814885398]
本研究は,スプリス辞書学習とユークリッド語$k$-meansクラスタリング問題に対するスケッチベースアプローチの適用性を高めるための新しい手法を開発した。
高速アルゴリズムでは、$k$-meansクラスタリング問題に対してPTASを設計するための新しいアプローチを得る。
ストリーミングアルゴリズムの分野では、辞書学習と$k$-meansクラスタリングのための新しい上限と下位境界を得る。
論文 参考訳(メタデータ) (2023-10-29T16:46:26Z) - Simple, Scalable and Effective Clustering via One-Dimensional
Projections [10.807367640692021]
クラスタリングは、教師なし機械学習における基本的な問題であり、データ分析に多くの応用がある。
任意の$k$に対して、期待時間$O(mathrmnnz(X) + nlog n)$で確実に動作する単純なランダム化クラスタリングアルゴリズムを導入する。
我々は,このアルゴリズムが$k$-means目的の任意の入力データセットに対して,近似比$smashwidetildeO(k4)$を達成することを証明した。
論文 参考訳(メタデータ) (2023-10-25T16:37:45Z) - Do you know what q-means? [50.045011844765185]
クラスタリングは、大規模なデータセットを分析する上で最も重要なツールの1つである。
クラスタリングのための"$q$-means"アルゴリズムの改良版を提案する。
また、$Obig(frack2varepsilon2(sqrtkd + log(Nd))big で実行される $varepsilon に対する "dequantized" アルゴリズムも提示する。
論文 参考訳(メタデータ) (2023-08-18T17:52:12Z) - Are Easy Data Easy (for K-Means) [0.0]
本稿では、$k$-meansアルゴリズムの様々なブランドによって、適切に分離されたクラスタを復元する能力について検討する。
シード選択時に繰り返しサブサンプリングによって$k$-means++のバリエーションが提案される。
論文 参考訳(メタデータ) (2023-08-02T09:40:19Z) - Replicable Clustering [57.19013971737493]
我々は,統計学的な$k$-medians,統計学的な$k$-means,統計学的な$k$-centers問題のアルゴリズムをブラックボックス方式で近似ルーチンを用いて提案する。
理論的結果を検証するブラックボックスとしてsklearnの$k$-means++実装を用いた2次元合成分布の実験も行っている。
論文 参考訳(メタデータ) (2023-02-20T23:29:43Z) - Improved Learning-augmented Algorithms for k-means and k-medians
Clustering [8.04779839951237]
学習強化設定におけるクラスタリングの問題について考察し、そこでは、$d$次元ユークリッド空間のデータセットが与えられる。
本稿では,クラスタリングコストを改良したセンターを生成する決定論的$k$-meansアルゴリズムを提案する。
我々のアルゴリズムは、予測があまり正確でないときでも機能する。つまり、我々の限界は$alpha$を$/2$に保ち、以前の研究で$alpha$よりも1/7$に改善する。
論文 参考訳(メタデータ) (2022-10-31T03:00:11Z) - Explainable k-means. Don't be greedy, plant bigger trees! [12.68470213641421]
説明可能な$k$-meansクラスタリングのために,新しいbi-criteria $tildeO(log2 k)$の競合アルゴリズムを提供する。
説明可能な$k$-meansは、最近Dasgupta、Frost、Moshkovitz、Rashtchian(ICML 2020)によって導入された。
論文 参考訳(メタデータ) (2021-11-04T23:15:17Z) - Clustering Mixture Models in Almost-Linear Time via List-Decodable Mean
Estimation [58.24280149662003]
本稿では,データセットの大部分を敵が破壊できるリストデコタブル平均推定の問題について検討する。
我々は、ほぼ最適な統計的保証を達成するために、リストデコダブル平均推定のための新しいアルゴリズムを開発した。
論文 参考訳(メタデータ) (2021-06-16T03:34:14Z) - Fuzzy Clustering with Similarity Queries [56.96625809888241]
ファジィ(fuzzy, soft objective)は、よく知られた$k$-means問題の一般化である。
クエリを少なくすることで、問題の解決が容易になる。
論文 参考訳(メタデータ) (2021-06-04T02:32:26Z) - Explainable $k$-Means and $k$-Medians Clustering [25.513261099927163]
我々は、小さな決定木を使ってデータセットをクラスタに分割し、クラスタを直接的な方法で特徴付けることを検討する。
一般的なトップダウン決定木アルゴリズムが任意のコストでクラスタリングに繋がる可能性があることを示す。
我々は、$k$の葉を持つ木を用いて説明可能なクラスタを生成する効率的なアルゴリズムを設計する。
論文 参考訳(メタデータ) (2020-02-28T04:21:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。