論文の概要: An Analysis of $D^\alpha$ seeding for $k$-means
- arxiv url: http://arxiv.org/abs/2310.13474v1
- Date: Fri, 20 Oct 2023 13:15:18 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-23 22:53:59.690073
- Title: An Analysis of $D^\alpha$ seeding for $k$-means
- Title(参考訳): $k$-meansに対する$D^\alpha$シードの解析
- Authors: Etienne Bamas, Sai Ganesh Nagarajan, Ola Svensson
- Abstract要約: 実際に$alpha>2$は、$D2$のシードに比べて$k$-meansのコストを改善することができる。
以上のパラメータが$Dalphaシードに与える影響を実験的に確認する。
- 参考スコア(独自算出の注目度): 11.394909061094461
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: One of the most popular clustering algorithms is the celebrated $D^\alpha$
seeding algorithm (also know as $k$-means++ when $\alpha=2$) by Arthur and
Vassilvitskii (2007), who showed that it guarantees in expectation an
$O(2^{2\alpha}\cdot \log k)$-approximate solution to the ($k$,$\alpha$)-means
cost (where euclidean distances are raised to the power $\alpha$) for any
$\alpha\ge 1$. More recently, Balcan, Dick, and White (2018) observed
experimentally that using $D^\alpha$ seeding with $\alpha>2$ can lead to a
better solution with respect to the standard $k$-means objective (i.e. the
$(k,2)$-means cost).
In this paper, we provide a rigorous understanding of this phenomenon. For
any $\alpha>2$, we show that $D^\alpha$ seeding guarantees in expectation an
approximation factor of $$ O_\alpha \left((g_\alpha)^{2/\alpha}\cdot
\left(\frac{\sigma_{\mathrm{max}}}{\sigma_{\mathrm{min}}}\right)^{2-4/\alpha}\cdot
(\min\{\ell,\log k\})^{2/\alpha}\right)$$ with respect to the standard
$k$-means cost of any underlying clustering; where $g_\alpha$ is a parameter
capturing the concentration of the points in each cluster,
$\sigma_{\mathrm{max}}$ and $\sigma_{\mathrm{min}}$ are the maximum and minimum
standard deviation of the clusters around their means, and $\ell$ is the number
of distinct mixing weights in the underlying clustering (after rounding them to
the nearest power of $2$). We complement these results by some lower bounds
showing that the dependency on $g_\alpha$ and
$\sigma_{\mathrm{max}}/\sigma_{\mathrm{min}}$ is tight.
Finally, we provide an experimental confirmation of the effects of the
aforementioned parameters when using $D^\alpha$ seeding. Further, we
corroborate the observation that $\alpha>2$ can indeed improve the $k$-means
cost compared to $D^2$ seeding, and that this advantage remains even if we run
Lloyd's algorithm after the seeding.
- Abstract(参考訳): 最も有名なクラスタリングアルゴリズムの1つは、Arthur and Vassilvitskii (2007) による有名な$D^\alpha$ seeding algorithm ($k$-means++ when $\alpha=2$) であり、$O(2^{2\alpha}\cdot \log k)$-approximate solution to the $k$,$\alpha$)-means cost (ここでユークリッド距離は$\alpha\ge 1$に対して$$\alpha$) となることを保証している。
より最近、Balcan, Dick, and White (2018) は、$D^\alpha$ seeding with $\alpha>2$ が標準 $k$-means の目的(すなわち$(k,2)$-means のコスト)に関してより良い解をもたらすことを実験的に観察した。
本稿では,この現象の厳密な理解について述べる。
For any $\alpha>2$, we show that $D^\alpha$ seeding guarantees in expectation an approximation factor of $$ O_\alpha \left((g_\alpha)^{2/\alpha}\cdot \left(\frac{\sigma_{\mathrm{max}}}{\sigma_{\mathrm{min}}}\right)^{2-4/\alpha}\cdot (\min\{\ell,\log k\})^{2/\alpha}\right)$$ with respect to the standard $k$-means cost of any underlying clustering; where $g_\alpha$ is a parameter capturing the concentration of the points in each cluster, $\sigma_{\mathrm{max}}$ and $\sigma_{\mathrm{min}}$ are the maximum and minimum standard deviation of the clusters around their means, and $\ell$ is the number of distinct mixing weights in the underlying clustering (after rounding them to the nearest power of $2$).
これらの結果は、$g_\alpha$ と $\sigma_{\mathrm{max}}/\sigma_{\mathrm{min}}$ への依存がきついことを示す下界によって補う。
最後に, 上記のパラメータが$D^\alpha$シードに与える影響を実験的に確認する。
さらに、$\alpha>2$が$d^2$のシードに比べて実際に$k$-meansのコストを改善できるという観測と、この利点は、シード後のロイドのアルゴリズムを実行しても残ることを裏付ける。
関連論文リスト
- Dimension-free Private Mean Estimation for Anisotropic Distributions [55.86374912608193]
以前の$mathRd上の分布に関する民間推定者は、次元性の呪いに苦しむ。
本稿では,サンプルの複雑さが次元依存性を改善したアルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-11-01T17:59:53Z) - Detection of Dense Subhypergraphs by Low-Degree Polynomials [72.4451045270967]
ランダムグラフにおける植込み高密度部分グラフの検出は、基本的な統計的および計算上の問題である。
我々は、$Gr(n, n-beta)ハイパーグラフにおいて、植えた$Gr(ngamma, n-alpha)$ subhypergraphの存在を検出することを検討する。
平均値の減少に基づく硬さが不明な微妙な対数密度構造を考えると,この結果はグラフの場合$r=2$で既に新しくなっている。
論文 参考訳(メタデータ) (2023-04-17T10:38:08Z) - A spectral least-squares-type method for heavy-tailed corrupted
regression with unknown covariance \& heterogeneous noise [2.019622939313173]
重み付き最小二乗線形回帰は、少なくとも$epsilon n$ arbitrary outliersの$n$のラベル特徴サンプルを破損させたと仮定して再検討する。
本稿では,$(Sigma,Xi) や $Xi$ の演算ノルムに関する知識を前提に,電力法に基づくほぼ最適に計算可能な推定器を提案する。
論文 参考訳(メタデータ) (2022-09-06T23:37:31Z) - Low-Rank Approximation with $1/\epsilon^{1/3}$ Matrix-Vector Products [58.05771390012827]
我々は、任意のSchatten-$p$ノルムの下で、低ランク近似のためのクリロフ部分空間に基づく反復法について研究する。
我々の主な成果は、$tildeO(k/sqrtepsilon)$ matrix-vector productのみを使用するアルゴリズムである。
論文 参考訳(メタデータ) (2022-02-10T16:10:41Z) - Tight FPT Approximation for Constrained k-Center and k-Supplier [0.38073142980733]
我々は、$k$-supplierと$k$-center問題の制約付きバージョンについて検討する。
Ding と Xu [SODA 2015] は、$k$-median と $k$-means の目的という文脈で、制約付きクラスタリングのための統一されたフレームワークを提案した。
論文 参考訳(メタデータ) (2021-10-27T07:52:59Z) - Nonasymptotic one-and two-sample tests in high dimension with unknown
covariance structure [0.0]
テストの問題は、$mu が 0 に対して $eta-閉である場合、すなわち $|mu| geq (eta + delta)$ に対して $|mu| leq eta である。
本研究の目的は,I型とII型の両方の誤差を所定のレベルで制御できるように,最小分離距離$の漸近的上下境界を求めることである。
論文 参考訳(メタデータ) (2021-09-01T06:22:53Z) - Near-optimal Algorithms for Explainable k-Medians and k-Means [12.68470213641421]
Dasgupta, Frost, Moshkovitz, Rashtchian (ICML 2020) が導入した$k$-medians と $k$-means の問題を考える。
私たちのゴールは、データを$kクラスタに分割し、$k-mediansや$k-meansの目的を最小化する、最適な決定ツリーを見つけることです。
論文 参考訳(メタデータ) (2021-07-02T02:07:12Z) - Learning a Latent Simplex in Input-Sparsity Time [58.30321592603066]
我々は、$AinmathbbRdtimes n$へのアクセスを考えると、潜入$k$-vertex simplex $KsubsetmathbbRdtimes n$を学習する問題を考える。
実行時間における$k$への依存は、トップ$k$特異値の質量が$a$であるという自然な仮定から不要であることを示す。
論文 参考訳(メタデータ) (2021-05-17T16:40:48Z) - Model-Free Reinforcement Learning: from Clipped Pseudo-Regret to Sample
Complexity [59.34067736545355]
S$状態、$A$アクション、割引係数$gamma in (0,1)$、近似しきい値$epsilon > 0$の MDP が与えられた場合、$epsilon$-Optimal Policy を学ぶためのモデルなしアルゴリズムを提供する。
十分小さな$epsilon$の場合、サンプルの複雑さで改良されたアルゴリズムを示す。
論文 参考訳(メタデータ) (2020-06-06T13:34:41Z) - Learning Mixtures of Spherical Gaussians via Fourier Analysis [0.5381004207943596]
標本と計算複雑性の有界性は、$omega(1) leq d leq O(log k)$のとき以前には分かっていなかった。
これらの著者はまた、半径$d$ in $d$ dimensions, if $d$ is $Theta(sqrtd)$ in $d$ dimensions, if $d$が少なくとも$poly(k, frac1delta)$であるとき、ガウスのランダム混合の複雑さのサンプルを示す。
論文 参考訳(メタデータ) (2020-04-13T08:06:29Z) - Curse of Dimensionality on Randomized Smoothing for Certifiable
Robustness [151.67113334248464]
我々は、他の攻撃モデルに対してスムースな手法を拡張することは困難であることを示す。
我々はCIFARに関する実験結果を示し,その理論を検証した。
論文 参考訳(メタデータ) (2020-02-08T22:02:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。