論文の概要: Computing Approximate $\ell_p$ Sensitivities
- arxiv url: http://arxiv.org/abs/2311.04158v1
- Date: Tue, 7 Nov 2023 17:34:56 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-08 14:34:56.191803
- Title: Computing Approximate $\ell_p$ Sensitivities
- Title(参考訳): 約$\ell_p$感度の計算
- Authors: Swati Padmanabhan, David P. Woodruff, and Qiuyi (Richard) Zhang
- Abstract要約: 我々は、与えられた行列の$ell_p$感度と要約統計を近似する効率的なアルゴリズムを提供する。
- 参考スコア(独自算出の注目度): 47.92218864517787
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent works in dimensionality reduction for regression tasks have introduced
the notion of sensitivity, an estimate of the importance of a specific
datapoint in a dataset, offering provable guarantees on the quality of the
approximation after removing low-sensitivity datapoints via subsampling.
However, fast algorithms for approximating $\ell_p$ sensitivities, which we
show is equivalent to approximate $\ell_p$ regression, are known for only the
$\ell_2$ setting, in which they are termed leverage scores.
In this work, we provide efficient algorithms for approximating $\ell_p$
sensitivities and related summary statistics of a given matrix. In particular,
for a given $n \times d$ matrix, we compute $\alpha$-approximation to its
$\ell_1$ sensitivities at the cost of $O(n/\alpha)$ sensitivity computations.
For estimating the total $\ell_p$ sensitivity (i.e. the sum of $\ell_p$
sensitivities), we provide an algorithm based on importance sampling of
$\ell_p$ Lewis weights, which computes a constant factor approximation to the
total sensitivity at the cost of roughly $O(\sqrt{d})$ sensitivity
computations. Furthermore, we estimate the maximum $\ell_1$ sensitivity, up to
a $\sqrt{d}$ factor, using $O(d)$ sensitivity computations. We generalize all
these results to $\ell_p$ norms for $p > 1$. Lastly, we experimentally show
that for a wide class of matrices in real-world datasets, the total sensitivity
can be quickly approximated and is significantly smaller than the theoretical
prediction, demonstrating that real-world datasets have low intrinsic effective
- Abstract(参考訳): 回帰タスクの次元的削減に関する最近の研究は、データセットにおける特定のデータポイントの重要性を推定する感度の概念を導入し、サブサンプリングによる低感度データポイントの除去後の近似の品質保証を提供する。
本研究では,与えられた行列の$\ell_p$ 感性および関連する要約統計を近似する効率的なアルゴリズムを提案する。
特に、与えられた$n \times d$ 行列に対して、$o(n/\alpha)$ 感度計算のコストで $\alpha$-approximation をその$\ell_1$ 感度に計算する。
これらの結果を全て$\ell_p$ norms for $p > 1$に一般化する。
- Turnstile $\ell_p$ leverage score sampling with applications [56.403488578703865]
我々は,行列$AinmathbbRntimes d$の行をサンプリングする新しいアルゴリズムを開発した。
我々のアルゴリズムはサンプル行インデックスのセットを返すだけでなく、わずかに乱れた行を $tildea_i approx a_i$ で返却し、サンプリング確率を $varepsilon$ の相対誤差に近似する。
論文 参考訳(メタデータ) (2024-06-01T07:33:41Z) - Optimal bounds for $\ell_p$ sensitivity sampling via $\ell_2$ augmentation [56.403488578703865]
我々は$ell$ Sensitivities を $ell$ Sensitivities で拡張することにより、最適な線形 $tilde O(varepsilon-2mu2 d)$ サンプリング複雑性のより良い境界が得られることを示した。
また、ロジスティック回帰のために、$tilde O(varepsilon-2mu2 d)$ sensitivity sample bound を得る。
論文 参考訳(メタデータ) (2024-06-01T07:03:40Z) - Online Robust Mean Estimation [37.746091744197656]
論文 参考訳(メタデータ) (2023-10-24T15:28:43Z) - Data Structures for Density Estimation [66.36971978162461]
論文 参考訳(メタデータ) (2023-06-20T06:13:56Z) - Sharper Bounds for $\ell_p$ Sensitivity Sampling [56.45770306797584]
まず, $ell_p$ 部分空間埋め込みを $p に対して高感度サンプリングする。
また、ルートレバレッジスコアサンプリングアルゴリズムは1leq p2$に対して約$d$を達成し、レバレッジスコアと感度サンプリングの組み合わせにより、約$d2/pmathfrak S2-4/p$を2pinftyで改善することを示した。
論文 参考訳(メタデータ) (2023-06-01T14:27:28Z) - Active Sampling for Linear Regression Beyond the $\ell_2$ Norm [70.49273459706546]
また、損失関数に対して最初の全感度上界$O(dmax1,p/2log2 n)$を提供し、最大で$p$成長する。
論文 参考訳(メタデータ) (2021-11-09T00:20:01Z)