論文の概要: Sets Clustering
- arxiv url: http://arxiv.org/abs/2003.04135v1
- Date: Mon, 9 Mar 2020 13:30:30 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-25 08:07:20.352874
- Title: Sets Clustering
- Title(参考訳): setクラスタリング
- Authors: Ibrahim Jubran and Murad Tukan and Alaa Maalouf and Dan Feldman
- Abstract要約: 我々は、$O(logn)$集合のコア集合が常に存在することを証明し、$O(nlogn)$ timeで計算することができる。
このコアセットに非効率だが最適なアルゴリズムを適用することで、集合-k$-means問題に対する最初のPTAS(1+varepsilon$ approximation)を得ることができる。
- 参考スコア(独自算出の注目度): 25.358415142404752
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The input to the \emph{sets-$k$-means} problem is an integer $k\geq 1$ and a
set $\mathcal{P}=\{P_1,\cdots,P_n\}$ of sets in $\mathbb{R}^d$. The goal is to
compute a set $C$ of $k$ centers (points) in $\mathbb{R}^d$ that minimizes the
sum $\sum_{P\in \mathcal{P}} \min_{p\in P, c\in C}\left\| p-c \right\|^2$ of
squared distances to these sets. An \emph{$\varepsilon$-core-set} for this
problem is a weighted subset of $\mathcal{P}$ that approximates this sum up to
$1\pm\varepsilon$ factor, for \emph{every} set $C$ of $k$ centers in
$\mathbb{R}^d$. We prove that such a core-set of $O(\log^2{n})$ sets always
exists, and can be computed in $O(n\log{n})$ time, for every input
$\mathcal{P}$ and every fixed $d,k\geq 1$ and $\varepsilon \in (0,1)$. The
result easily generalized for any metric space, distances to the power of
$z>0$, and M-estimators that handle outliers. Applying an inefficient but
optimal algorithm on this coreset allows us to obtain the first PTAS
($1+\varepsilon$ approximation) for the sets-$k$-means problem that takes time
near linear in $n$. This is the first result even for sets-mean on the plane
($k=1$, $d=2$). Open source code and experimental results for document
classification and facility locations are also provided.
- Abstract(参考訳): emph{sets-$k$-means}問題への入力は整数 $k\geq 1$ であり、$\mathcal{p}=\{p_1,\cdots,p_n\}$ of set in $\mathbb{r}^d$ である。
目標は、$\sum_{p\in \mathcal{p}} \min_{p\in p, c\in c}\left\| p-c \right\|^2$ of squared distances to these set である。
この問題に対する \emph{$\varepsilon$-core-set} は$\mathcal{P}$ の重み付き部分集合であり、$\mathbb{R}^d$ における$k$の集合に対して$1\pm\varepsilon$ factor に近似する。
このような $o(\log^2{n})$ のコア集合は常に存在し、すべての入力 $\mathcal{p}$ と固定 $d,k\geq 1$ と $\varepsilon \in (0,1)$ に対して $o(n\log{n})$ time で計算できる。
結果は、任意の距離空間、$z>0$ のパワーへの距離、および外れ値を扱う M-推定器に対して容易に一般化される。
このコアセットに非効率だが最適なアルゴリズムを適用することで、n$で線形に近い時間を要する集合-k$-平均問題に対する最初のptas ($1+\varepsilon$ approximation) が得られる。
これは平面上の集合平均 (k=1$, $d=2$) に対しても最初の結果である。
