論文の概要: On Approximability of $\ell_2^2$ Min-Sum Clustering
- arxiv url: http://arxiv.org/abs/2412.03332v1
- Date: Wed, 04 Dec 2024 14:03:27 GMT
- Title: On Approximability of $\ell_2^2$ Min-Sum Clustering
- Title(参考訳): $\ell_2^2$ Min-Sumクラスタリングの近似性について
- Authors: Karthik C. S., Euiwoong Lee, Yuval Rabani, Chris Schwiegelshohn, Samson Zhou,
- Abstract要約: 本稿では、$ell2$ minsum $k$-clustering問題に対して、最初の強度近似結果を与える。
- Abstract: The $\ell_2^2$ min-sum $k$-clustering problem is to partition an input set into clusters $C_1,\ldots,C_k$ to minimize $\sum_{i=1}^k\sum_{p,q\in C_i}\|p-q\|_2^2$. Although $\ell_2^2$ min-sum $k$-clustering is NP-hard, it is not known whether it is NP-hard to approximate $\ell_2^2$ min-sum $k$-clustering beyond a certain factor. In this paper, we give the first hardness-of-approximation result for the $\ell_2^2$ min-sum $k$-clustering problem. We show that it is NP-hard to approximate the objective to a factor better than $1.056$ and moreover, assuming a balanced variant of the Johnson Coverage Hypothesis, it is NP-hard to approximate the objective to a factor better than 1.327. We then complement our hardness result by giving the first $(1+\varepsilon)$-coreset construction for $\ell_2^2$ min-sum $k$-clustering. Our coreset uses $\mathcal{O}\left(k^{\varepsilon^{-4}}\right)$ space and can be leveraged to achieve a polynomial-time approximation scheme with runtime $nd\cdot f(k,\varepsilon^{-1})$, where $d$ is the underlying dimension of the input dataset and $f$ is a fixed function. Finally, we consider a learning-augmented setting, where the algorithm has access to an oracle that outputs a label $i\in[k]$ for input point, thereby implicitly partitioning the input dataset into $k$ clusters that induce an approximately optimal solution, up to some amount of adversarial error $\alpha\in\left[0,\frac{1}{2}\right)$. We give a polynomial-time algorithm that outputs a $\frac{1+\gamma\alpha}{(1-\alpha)^2}$-approximation to $\ell_2^2$ min-sum $k$-clustering, for a fixed constant $\gamma>0$.
- Abstract(参考訳): $\ell_2^2$ min-sum $k$-clustering 問題は、入力セットをクラスタ $C_1,\ldots,C_k$ に分割して $\sum_{i=1}^k\sum_{p,q\in C_i}\|p-q\|_2^2$ を最小化することである。
$\ell_2^2$ min-sum $k$-clustering は NP-hard であるが、ある因子を超えて $\ell_2^2$ min-sum $k$-clustering を近似する NP-hard かどうかは不明である。
本稿では、$\ell_2^2$ min-sum $k$-clustering問題に対して、最初の強度近似結果を与える。
次に、最初の$(1+\varepsilon)$-coreset construction for $\ell_2^2$ min-sum $k$-clustering を与えることで、ハードネスの結果を補完する。
我々のコアセットは$\mathcal{O}\left(k^{\varepsilon^{-4}}\right)$ spaceを使用し、実行時$nd\cdot f(k,\varepsilon^{-1})$で多項式時間近似スキームを達成するために利用できる。
固定定数 $\gamma>0$ に対して$\frac{1+\gamma\alpha}{(1-\alpha)^2}$-approximation を $\ell_2^2$ min-sum $k$-clustering に出力する多項式時間アルゴリズムを与える。
