論文の概要: Beyond Worst-Case Dimensionality Reduction for Sparse Vectors
- arxiv url: http://arxiv.org/abs/2502.19865v1
- Date: Thu, 27 Feb 2025 08:17:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-28 14:55:57.532520
- Title: Beyond Worst-Case Dimensionality Reduction for Sparse Vectors
- Title(参考訳): スパースベクトルの極大次元化
- Authors: Sandeep Silwal, David P. Woodruff, Qiuyi Zhang,
- Abstract要約: 我々は、$s$sparseベクトルの最低ケース次元削減を超越して研究する。
任意の集合 $X$ of $s$-sparse vectors in $mathbbRO(s2)$ に対して、$mathbbRO(s2)$ への線型写像が存在し、任意の $ell_p$ ノルムにおいて$X$の99%のベクトルのノルムを正確に保存する。
我々は、$f$の非線形性と$の非負性の両方を示す。
- 参考スコア(独自算出の注目度): 47.927989749887864
- License:
- Abstract: We study beyond worst-case dimensionality reduction for $s$-sparse vectors. Our work is divided into two parts, each focusing on a different facet of beyond worst-case analysis: We first consider average-case guarantees. A folklore upper bound based on the birthday-paradox states: For any collection $X$ of $s$-sparse vectors in $\mathbb{R}^d$, there exists a linear map to $\mathbb{R}^{O(s^2)}$ which \emph{exactly} preserves the norm of $99\%$ of the vectors in $X$ in any $\ell_p$ norm (as opposed to the usual setting where guarantees hold for all vectors). We give lower bounds showing that this is indeed optimal in many settings: any oblivious linear map satisfying similar average-case guarantees must map to $\Omega(s^2)$ dimensions. The same lower bound also holds for a wide class of smooth maps, including `encoder-decoder schemes', where we compare the norm of the original vector to that of a smooth function of the embedding. These lower bounds reveal a separation result, as an upper bound of $O(s \log(d))$ is possible if we instead use arbitrary (possibly non-smooth) functions, e.g., via compressed sensing algorithms. Given these lower bounds, we specialize to sparse \emph{non-negative} vectors. For a dataset $X$ of non-negative $s$-sparse vectors and any $p \ge 1$, we can non-linearly embed $X$ to $O(s\log(|X|s)/\epsilon^2)$ dimensions while preserving all pairwise distances in $\ell_p$ norm up to $1\pm \epsilon$, with no dependence on $p$. Surprisingly, the non-negativity assumption enables much smaller embeddings than arbitrary sparse vectors, where the best known bounds suffer exponential dependence. Our map also guarantees \emph{exact} dimensionality reduction for $\ell_{\infty}$ by embedding into $O(s\log |X|)$ dimensions, which is tight. We show that both the non-linearity of $f$ and the non-negativity of $X$ are necessary, and provide downstream algorithmic improvements.
- Abstract(参考訳): 我々は、$s$sparseベクトルの最低ケース次元削減を超越して研究する。
私たちの仕事は2つの部分に分かれており、それぞれが最悪のケース分析を越えて異なる側面に注目しています。
任意のコレクション $X$ of $s$-sparse vectors in $\mathbb{R}^d$ に対して、$\mathbb{R}^{O(s^2)}$ への線型写像が存在する。
同様の平均ケースの保証を満たす不愉快な線型写像は、$\Omega(s^2)$次元にマップしなければならない。
同じ下界は、 'encoder-decoder schemes' を含む幅広い滑らかな写像のクラスにも成り立ち、元のベクトルのノルムと埋め込みの滑らかな関数のノルムを比較する。
これらの下界は分離結果を示し、代わりに圧縮されたセンシングアルゴリズムを通じて任意の(おそらく非滑らかな)関数(例えば、g)を使う場合、$O(s \log(d))$の上界が可能である。
これらの下界が与えられると、スパース \emph{non- negative} ベクトルを特殊化する。
非負の$s$-sparseベクトルのデータセット$X$と任意の$p \ge 1$に対して、$X$を$O(s\log(|X|s)/\epsilon^2)$次元に非線形に埋め込み、$\ell_p$ノルムですべてのペア距離を$1\pm \epsilon$に保存し、$p$に依存しない。
驚くべきことに、非負性仮定は任意のスパースベクトルよりもはるかに小さな埋め込みを可能にする。
我々の写像はまた、$O(s\log |X|)$次元に埋め込むことで$\ell_{\infty}$に対して \emph{exact} 次元の減少を保証し、これは厳密である。
我々は、$f$の非線形性と$X$の非負性の両方が必要であることを示し、下流アルゴリズムの改善を提供する。
関連論文リスト
- The Communication Complexity of Approximating Matrix Rank [50.6867896228563]
この問題は通信複雑性のランダム化を$Omega(frac1kcdot n2log|mathbbF|)$とする。
アプリケーションとして、$k$パスを持つ任意のストリーミングアルゴリズムに対して、$Omega(frac1kcdot n2log|mathbbF|)$スペースローバウンドを得る。
論文 参考訳(メタデータ) (2024-10-26T06:21:42Z) - Efficient $1$-bit tensor approximations [1.104960878651584]
我々のアルゴリズムは、20ドルの擬似符号で効率よく符号付きカット分解を行う。
オープンテキストMistral-7B-v0.1大言語モデルの重み行列を50%の空間圧縮に近似する。
論文 参考訳(メタデータ) (2024-10-02T17:56:32Z) - Optimal Sketching for Residual Error Estimation for Matrix and Vector Norms [50.15964512954274]
線形スケッチを用いた行列とベクトルノルムの残差誤差推定問題について検討する。
これは、前作とほぼ同じスケッチサイズと精度で、経験的にかなり有利であることを示す。
また、スパースリカバリ問題に対して$Omega(k2/pn1-2/p)$低いバウンダリを示し、これは$mathrmpoly(log n)$ factorまで厳密である。
論文 参考訳(メタデータ) (2024-08-16T02:33:07Z) - A note on estimating the dimension from a random geometric graph [2.3020018305241337]
グラフの隣接行列にアクセスする際に、基礎空間の次元$d$を推定する問題について検討する。
また、密度の条件がなければ、$d$の一貫した推定子は$n r_nd to infty$と$r_n = o(1)$が存在することを示す。
論文 参考訳(メタデータ) (2023-11-21T23:46:44Z) - Optimal Embedding Dimension for Sparse Subspace Embeddings [4.042707434058959]
ランダム$mtimes n$ matrix $S$は、忘れられない部分空間埋め込み(OSE)である。
mtimes n$ random matrix $S$ with $mgeq (1+theta)d$ is an oblivious subspace embedding with $epsilon = O_theta(1)$。
これを使用すれば、現在の行列乗算時間よりも早く適用できる$O(d)$埋め込み次元で、最初の難解な部分空間埋め込みを構築することができる。
論文 参考訳(メタデータ) (2023-11-17T18:01:58Z) - A Nearly-Optimal Bound for Fast Regression with $\ell_\infty$ Guarantee [16.409210914237086]
行列 $Ain mathbbRntimes d$ とテンソル $bin mathbbRn$ が与えられたとき、 $ell_infty$ の回帰問題を考える。
このような$ell_infty$レグレッションの保証を得るためには、濃密なスケッチ行列を使わなければならない。
我々はまた、OCE(Oblivious Coordinate-wise Embedding)特性を利用した $ell_infty$ guarantee regression のための新しい分析フレームワークを開発した。
論文 参考訳(メタデータ) (2023-02-01T05:22:40Z) - Low-Rank Approximation with $1/\epsilon^{1/3}$ Matrix-Vector Products [58.05771390012827]
我々は、任意のSchatten-$p$ノルムの下で、低ランク近似のためのクリロフ部分空間に基づく反復法について研究する。
我々の主な成果は、$tildeO(k/sqrtepsilon)$ matrix-vector productのみを使用するアルゴリズムである。
論文 参考訳(メタデータ) (2022-02-10T16:10:41Z) - Optimal Spectral Recovery of a Planted Vector in a Subspace [80.02218763267992]
我々は、$ell_4$ノルムが同じ$ell$ノルムを持つガウスベクトルと異なるプラントベクトル$v$の効率的な推定と検出について研究する。
規則$n rho gg sqrtN$ では、大クラスのスペクトル法(そしてより一般的には、入力の低次法)は、植込みベクトルの検出に失敗する。
論文 参考訳(メタデータ) (2021-05-31T16:10:49Z) - The Average-Case Time Complexity of Certifying the Restricted Isometry
Property [66.65353643599899]
圧縮センシングにおいて、100万倍のN$センシング行列上の制限等尺性(RIP)はスパースベクトルの効率的な再構成を保証する。
Mtimes N$ matrices with i.d.$mathcalN(0,1/M)$ entry。
論文 参考訳(メタデータ) (2020-05-22T16:55:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。