Fugu-MT 論文翻訳(概要): Improving \textit{Tug-of-War} sketch using Control-Variates method

論文の概要: Improving \textit{Tug-of-War} sketch using Control-Variates method

arxiv url: http://arxiv.org/abs/2203.02432v1
Date: Fri, 4 Mar 2022 17:01:42 GMT
ステータス: 翻訳完了
システム内更新日: 2022-03-07 17:19:59.855441
Title: Improving \textit{Tug-of-War} sketch using Control-Variates method
Title（参考訳）: Control-Variates 法による \textit{Tug-of-War} スケッチの改良
Authors: Rameshwar Pratap and Bhisham Dev Verma and Raghav Kulkarni
Abstract要約: 我々はモンテカルロ・シミュレーションの分散還元で主に知られている古典的な制御-分散性ラベンベルクの手法を用いる。本稿では,提案手法の理論的解析を行い,実世界のデータセットと合成実験を補完する。
参考スコア（独自算出の注目度）: 0.12891210250935145
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Computing space-efficient summary, or \textit{a.k.a. sketches}, of large data, is a central problem in the streaming algorithm. Such sketches are used to answer \textit{post-hoc} queries in several data analytics tasks. The algorithm for computing sketches typically requires to be fast, accurate, and space-efficient. A fundamental problem in the streaming algorithm framework is that of computing the frequency moments of data streams. The frequency moments of a sequence containing $f_i$ elements of type $i$, are the numbers $\mathbf{F}_k=\sum_{i=1}^n {f_i}^k,$ where $i\in [n]$. This is also called as $\ell_k$ norm of the frequency vector $(f_1, f_2, \ldots f_n).$ Another important problem is to compute the similarity between two data streams by computing the inner product of the corresponding frequency vectors. The seminal work of Alon, Matias, and Szegedy~\cite{AMS}, \textit{a.k.a. Tug-of-war} (or AMS) sketch gives a randomized sublinear space (and linear time) algorithm for computing the frequency moments, and the inner product between two frequency vectors corresponding to the data streams. However, the variance of these estimates typically tends to be large. In this work, we focus on minimizing the variance of these estimates. We use the techniques from the classical Control-Variate method~\cite{Lavenberg} which is primarily known for variance reduction in Monte-Carlo simulations, and as a result, we are able to obtain significant variance reduction, at the cost of a little computational overhead. We present a theoretical analysis of our proposal and complement it with supporting experiments on synthetic as well as real-world datasets.
Abstract（参考訳）: 大規模データの空間効率の高いサマリー計算、または \textit{a.k.a. sketches} は、ストリーミングアルゴリズムの中心的な問題である。このようなスケッチは、いくつかのデータ分析タスクで \textit{post-hoc} クエリに答えるために使われる。スケッチの計算アルゴリズムは通常、高速で正確で、空間効率が要求される。ストリーミングアルゴリズムフレームワークの根本的な問題は、データストリームの周波数モーメントを計算することである。 i$ 型の $f_i$ 要素を含む列の周波数モーメントは、$\mathbf{f}_k=\sum_{i=1}^n {f_i}^k,$ ここで $i\in [n]$ である。これは周波数ベクトル $(f_1, f_2, \ldots f_n) の $\ell_k$ norm とも呼ばれる。もう一つの重要な問題は、対応する周波数ベクトルの内部積を計算することによって、2つのデータストリーム間の類似性を計算することである。 Alon, Matias, and Szegedy~\cite{AMS}, \textit{a.k.a. Tug-of-war} (または AMS) のスケッチは、周波数モーメントを計算するためのランダム化された部分線型空間(および線形時間)アルゴリズムと、データストリームに対応する2つの周波数ベクトル間の内部積を与える。しかし、これらの推定値のばらつきは通常大きい傾向にある。本研究では,これらの推定値のばらつきを最小化することに注力する。我々はモンテカルロシミュレーションの分散還元で主に知られている古典的制御-変数法~\cite{Lavenberg}の手法を用いており、計算オーバーヘッドの少ないコストで大きな分散還元を得ることができる。本稿では,提案手法の理論的解析を行い,実世界のデータセットと合成実験を補完する。

関連論文リスト

Differentially Private Space-Efficient Algorithms for Counting Distinct Elements in the Turnstile Model [61.40326886123332]
ターンタイルストリーミングモデルにおいて、異なる要素を数えるという根本的な問題に対して、最初のサブ線形空間を微分プライベートなアルゴリズムを与える。本結果は, 線形問題である最先端アルゴリズムの空間要求を著しく改善する。ストリームにアイテムが現れる回数の制限付き$W$が分かっている場合、我々のアルゴリズムは$tildeO_eta(sqrtW)$ space.sqrtW)$ additive errorを提供する。
論文参考訳（メタデータ） (2025-05-29T17:21:20Z)
Inverting the Leverage Score Gradient: An Efficient Approximate Newton Method [10.742859956268655]
本稿では,レバレッジスコア勾配から固有モデルパラメータを復元することを目的とする。具体的には、レバレッジスコア勾配の逆転を$g(x)$として精査する。
論文参考訳（メタデータ） (2024-08-21T01:39:42Z)
On Computing Pairwise Statistics with Local Differential Privacy [55.81991984375959]
例えば$binomn2-1 sum_i ne j f(x_i, x_j)$, $x_i$ は$i$thユーザへの入力を表し、ローカルモデルでは差分プライバシ(DP)である。この定式化は、Kendallの$tau$ coefficient、Area Under Curve、Giniの平均差、Giniのエントロピーなどの重要なメトリクスをキャプチャする。
論文参考訳（メタデータ） (2024-06-24T04:06:09Z)
Turnstile $\ell_p$ leverage score sampling with applications [56.403488578703865]
我々は,行列$AinmathbbRntimes d$の行をサンプリングする新しいアルゴリズムを開発した。我々のアルゴリズムはサンプル行インデックスのセットを返すだけでなく、わずかに乱れた行を $tildea_i approx a_i$ で返却し、サンプリング確率を $varepsilon$ の相対誤差に近似する。ロジスティック回帰のために、我々のフレームワークは$を達成した最初のアルゴリズムを得る。
論文参考訳（メタデータ） (2024-06-01T07:33:41Z)
Finding Decision Tree Splits in Streaming and Massively Parallel Models [1.3654846342364308]
観測データのストリームが与えられた場合、目標はデータを2つのセットに分割する最適な$j$を見つけることである。これらの問題に対してサブ線形空間と少数のパスを使用する高速ストリーミングアルゴリズムを提供する。これらのアルゴリズムは、超並列計算モデルにも拡張することができる。
論文参考訳（メタデータ） (2024-03-28T22:26:38Z)
A Sub-Quadratic Time Algorithm for Robust Sparse Mean Estimation [6.853165736531941]
逆数外乱の存在下でのスパース平均推定のアルゴリズム的問題について検討する。我々の主な貢献は、$mathrmpoly(k,log d,1/epsilon)$サンプルを用いて、エフェサブクアクラティック時間で実行される頑健なスパース平均推定アルゴリズムである。
論文参考訳（メタデータ） (2024-03-07T18:23:51Z)
Differentially Private Clustering in Data Streams [65.78882209673885]
オフラインのDPコアセットやクラスタリングアルゴリズムをブラックボックスとしてのみ必要とする,差分プライベートなストリーミングクラスタリングフレームワークを提案する。我々のフレームワークはまた、連続的なリリース設定の下で微分プライベートであり、すなわち、全てのタイムスタンプにおけるアルゴリズムの出力の和は常に微分プライベートである。
論文参考訳（メタデータ） (2023-07-14T16:11:22Z)
Communication-Efficient Adam-Type Algorithms for Distributed Data Mining [93.50424502011626]
我々はスケッチを利用した新しい分散Adam型アルゴリズムのクラス(例:SketchedAMSGrad)を提案する。我々の新しいアルゴリズムは、反復毎に$O(frac1sqrtnT + frac1(k/d)2 T)$の高速収束率を$O(k log(d))$の通信コストで達成する。
論文参考訳（メタデータ） (2022-10-14T01:42:05Z)
Kernel Packet: An Exact and Scalable Algorithm for Gaussian Process Regression with Mat\'ern Correlations [23.560067934682294]
マタン相関を用いた1次元ガウス過程回帰のための正確でスケーラブルなアルゴリズムを開発した。提案アルゴリズムは,計算時間と予測精度の両方において,既存の代替手法よりもはるかに優れている。
論文参考訳（メタデータ） (2022-03-07T03:30:35Z)
Clustering Mixture Models in Almost-Linear Time via List-Decodable Mean Estimation [58.24280149662003]
本稿では,データセットの大部分を敵が破壊できるリストデコタブル平均推定の問題について検討する。我々は、ほぼ最適な統計的保証を達成するために、リストデコダブル平均推定のための新しいアルゴリズムを開発した。
論文参考訳（メタデータ） (2021-06-16T03:34:14Z)
List-Decodable Mean Estimation in Nearly-PCA Time [50.79691056481693]
高次元におけるリストデコタブル平均推定の基本的な課題について検討する。我々のアルゴリズムは、すべての$k = O(sqrtd) cup Omega(d)$に対して$widetildeO(ndk)$で実行されます。我々のアルゴリズムの変種は、すべての$k$に対してランタイム$widetildeO(ndk)$を持ち、リカバリ保証の$O(sqrtlog k)$ Factorを犠牲にしている。
論文参考訳（メタデータ） (2020-11-19T17:21:37Z)
Streaming Complexity of SVMs [110.63976030971106]
本稿では,ストリーミングモデルにおけるバイアス正規化SVM問題を解く際の空間複雑性について検討する。両方の問題に対して、$frac1lambdaepsilon$の次元に対して、$frac1lambdaepsilon$よりも空間的に小さいストリーミングアルゴリズムを得ることができることを示す。
論文参考訳（メタデータ） (2020-07-07T17:10:00Z)
Streaming Coresets for Symmetric Tensor Factorization [9.181791777532608]
ストリーミング環境でテンソルを効率的に分解する方法を示す。本稿では,オンラインフィルタリングとカーネル化という2つの新しいアルゴリズム手法を紹介する。単一トピックモデリング学習におけるアルゴリズムの適用例を示す。
論文参考訳（メタデータ） (2020-06-01T19:55:34Z)
A Deterministic Streaming Sketch for Ridge Regression [15.256452294422294]
リッジ回帰を推定するための決定論的空間効率アルゴリズムを提案する。これは、ソリューションエラーが保証された最初の$o(d2)$空間決定論的ストリーミングアルゴリズムである。合成データセットと実世界のデータセットのランダムなスケッチアルゴリズムと比較して、我々のアルゴリズムは空間と類似時間が少なくて経験的誤差が少ない。
論文参考訳（メタデータ） (2020-02-05T22:08:29Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。