論文の概要: Subspace approximation with outliers
- arxiv url: http://arxiv.org/abs/2006.16573v1
- Date: Tue, 30 Jun 2020 07:22:33 GMT
- Title: Subspace approximation with outliers
- Title(参考訳): 外れ値を持つ部分空間近似
- Authors: Amit Deshpande and Rameshwar Pratap
- Abstract要約: 本稿では, オフリヤを用いた部分空間近似問題に対するサンプリングに基づいて, 次元削減手法と双基準近似を拡張する方法を示す。
我々の結果は、0 delta leq 1 - α$ が満たされる条件が満たされる限り、alpha$ が大きければ成り立つ。
- Abstract: The subspace approximation problem with outliers, for given $n$ points in $d$
dimensions $x_{1},\ldots, x_{n} \in R^{d}$, an integer $1 \leq k \leq d$, and
an outlier parameter $0 \leq \alpha \leq 1$, is to find a $k$-dimensional
linear subspace of $R^{d}$ that minimizes the sum of squared distances to its
nearest $(1-\alpha)n$ points. More generally, the $\ell_{p}$ subspace
approximation problem with outliers minimizes the sum of $p$-th powers of
distances instead of the sum of squared distances. Even the case of robust PCA
is non-trivial, and previous work requires additional assumptions on the input.
Any multiplicative approximation algorithm for the subspace approximation
problem with outliers must solve the robust subspace recovery problem, a
special case in which the $(1-\alpha)n$ inliers in the optimal solution are
promised to lie exactly on a $k$-dimensional linear subspace. However, robust
subspace recovery is Small Set Expansion (SSE)-hard.
We show how to extend dimension reduction techniques and bi-criteria
approximations based on sampling to the problem of subspace approximation with
outliers. To get around the SSE-hardness of robust subspace recovery, we assume
that the squared distance error of the optimal $k$-dimensional subspace summed
over the optimal $(1-\alpha)n$ inliers is at least $\delta$ times its
squared-error summed over all $n$ points, for some $0 < \delta \leq 1 -
\alpha$. With this assumption, we give an efficient algorithm to find a subset
of $poly(k/\epsilon) \log(1/\delta) \log\log(1/\delta)$ points whose span
contains a $k$-dimensional subspace that gives a multiplicative
$(1+\epsilon)$-approximation to the optimal solution. The running time of our
algorithm is linear in $n$ and $d$. Interestingly, our results hold even when
the fraction of outliers $\alpha$ is large, as long as the obvious condition $0
< \delta \leq 1 - \alpha$ is satisfied.
- Abstract(参考訳): 例えば、$d$次元の$x_{1},\ldots, x_{n} \in R^{d}$, an integer $1 \leq k \leq d$, and a outlier parameter $0 \leq \alpha \leq 1$, for given $n$ points in $d$ dimensions $x_{1},\ldots, x_{n} \in R^{d}$, an outlier parameter $0 \leq \alpha \leq 1$, to find $k$-dimensional linear subspace of $R^{d}$は、最も近い$(1-\alpha)n$点への平方距離の和を最小化する。
より一般に、外接点を持つ$\ell_{p}$ 部分空間近似問題は、平方距離の和ではなく、距離の$p$-次元の和を最小化する。
外れ値を持つ部分空間近似問題に対する乗法近似アルゴリズムは、ロバストな部分空間回復問題を解かなければならないが、最適解の 1-\alpha)n$ inlier がちょうど$k$次元の線型部分空間上にあることを約束する特別な場合である。
しかし、ロバストなサブスペースリカバリはSmall Set Expansion (SSE)-hardである。
ロバストな部分空間復元のsse-ハードネスを回避するために、最適な$(1-\alpha)n$イリアー上で和される最適な$k$-次元部分空間の2乗距離誤差は、いくつかの$0 < \delta \leq 1\alpha$ に対して、少なくとも$\delta$倍の2乗誤差であると仮定する。
この仮定により、最適解に対する乗法 $(1+\epsilon)$近似を与える$k$-次元部分空間を含むスパンを持つ $poly(k/\epsilon) \log(1/\delta) \log\log(1/\delta)$point の部分集合を見つける効率的なアルゴリズムを与える。
興味深いことに、この結果は、明らかな条件 $0 < \delta \leq 1 - \alpha$ が満たされる限り、外れ値 $\alpha$ の比率が大きい場合にも成り立つ。
