論文の概要: Proof: Accelerating Approximate Aggregation Queries with Expensive
Predicates
- arxiv url: http://arxiv.org/abs/2107.12525v2
- Date: Wed, 28 Jul 2021 18:29:08 GMT
- ステータス: 処理完了
- システム内更新日: 2021-07-30 10:24:49.646019
- Title: Proof: Accelerating Approximate Aggregation Queries with Expensive
Predicates
- Title(参考訳): 証明:過剰な述語による近似集約クエリの高速化
- Authors: Daniel Kang, John Guibas, Peter Bailis, Tatsunori Hashimoto, Yi Sun,
Matei Zaharia
- Abstract要約: データセット $mathcalD$ が与えられたら、述語にマッチする $mathcalD$ のサブセットの平均を計算することに興味があります。
ABaeは、サンプリング予算が$N$である場合、階層化されたサンプリングモデルとプロキシモデルを活用して、この統計を効率的に計算する。
- 参考スコア(独自算出の注目度): 27.061440438036257
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Given a dataset $\mathcal{D}$, we are interested in computing the mean of a
subset of $\mathcal{D}$ which matches a predicate. ABae leverages stratified
sampling and proxy models to efficiently compute this statistic given a
sampling budget $N$. In this document, we theoretically analyze ABae and show
that the MSE of the estimate decays at rate $O(N_1^{-1} + N_2^{-1} +
N_1^{1/2}N_2^{-3/2})$, where $N=K \cdot N_1+N_2$ for some integer constant $K$
and $K \cdot N_1$ and $N_2$ represent the number of samples used in Stage 1 and
Stage 2 of ABae respectively. Hence, if a constant fraction of the total sample
budget $N$ is allocated to each stage, we will achieve a mean squared error of
$O(N^{-1})$ which matches the rate of mean squared error of the optimal
stratified sampling algorithm given a priori knowledge of the predicate
positive rate and standard deviation per stratum.
- Abstract(参考訳): データセット $\mathcal{D}$ が与えられたら、述語に一致する $\mathcal{D}$ のサブセットの平均を計算することに興味があります。
abaeは階層化されたサンプリングとプロキシモデルを利用して、サンプリング予算が$n$の場合に、この統計を効率的に計算する。
この論文では、ABae を理論的に解析し、推定値の MSE が $O(N_1^{-1} + N_2^{-1} + N_1^{1/2}N_2^{-3/2})$, ここでは、ある整数定数 $K$ に対して $N=K \cdot N_1+N_2$ と $K \cdot N_1$ と $N_2$ は、それぞれ ABae のステージ 1 とステージ 2 で使用されるサンプル数を表す。
したがって、全サンプル予算の定数である$N$を各ステージに割り当てると、予測正の確率と成層ごとの標準偏差の事前知識が与えられた最適成層サンプリングアルゴリズムの平均二乗誤差率に一致する平均二乗誤差が$O(N^{-1})$となる。
関連論文リスト
- Statistical-Computational Trade-offs for Density Estimation [60.81548752871115]
幅広い種類のデータ構造に対して、それらの境界は著しく改善されないことを示す。
これは密度推定のための新しい統計計算トレードオフである。
論文 参考訳(メタデータ) (2024-10-30T15:03:33Z) - Sum-of-squares lower bounds for Non-Gaussian Component Analysis [33.80749804695003]
非ガウス成分分析(Non-Gaussian Component Analysis、NGCA)は、高次元データセットにおいて非ガウス方向を求める統計的タスクである。
本稿では Sum-of-Squares フレームワークにおける NGCA の複雑さについて考察する。
論文 参考訳(メタデータ) (2024-10-28T18:19:13Z) - Simple and Nearly-Optimal Sampling for Rank-1 Tensor Completion via Gauss-Jordan [49.1574468325115]
ランク1テンソルを$otimes_i=1N mathbbRd$で完了する際のサンプルと計算複雑性を再考する。
本稿では,一対のランダム線形系上で,ガウス・ヨルダンに相当するアルゴリズムを許容する問題のキャラクタリゼーションを提案する。
論文 参考訳(メタデータ) (2024-08-10T04:26:19Z) - Estimating the Mixing Coefficients of Geometrically Ergodic Markov
Processes [5.00389879175348]
実数値の幾何学的エルゴード的マルコフ過程の個々の$beta$-mixing係数を1つのサンプルパスから推定する。
予想される誤差率は$mathcal O(log(n) n-1/2)$である。
論文 参考訳(メタデータ) (2024-02-11T20:17:10Z) - Data Structures for Density Estimation [66.36971978162461]
p$のサブリニア数($n$)が与えられた場合、主な結果は$k$のサブリニアで$v_i$を識別する最初のデータ構造になります。
また、Acharyaなどのアルゴリズムの改良版も提供します。
論文 参考訳(メタデータ) (2023-06-20T06:13:56Z) - Replicable Clustering [57.19013971737493]
我々は,統計学的な$k$-medians,統計学的な$k$-means,統計学的な$k$-centers問題のアルゴリズムをブラックボックス方式で近似ルーチンを用いて提案する。
理論的結果を検証するブラックボックスとしてsklearnの$k$-means++実装を用いた2次元合成分布の実験も行っている。
論文 参考訳(メタデータ) (2023-02-20T23:29:43Z) - Robust Sparse Mean Estimation via Sum of Squares [42.526664955704746]
本研究では,高次元スパース平均推定の問題点を,逆数外乱の$epsilon$-fractionの存在下で検討する。
我々のアルゴリズムは、サム・オブ・スクエア(Sum-of-Squares)ベースのアルゴリズムアプローチに従う。
論文 参考訳(メタデータ) (2022-06-07T16:49:54Z) - On the Subbagging Estimation for Massive Data [10.902757578215255]
本稿では,コンピュータのメモリ制約を伴うビッグデータ解析のためのサブバッキング(サブサンプル集約)推定手法を紹介する。
サイズ$N$のデータセット全体に対して、$m_N$サブサンプルはランダムに描画され、メモリ制約を満たすためにサブサンプルサイズ$k_Nll N$を持つ各サブサンプルは、交換なしで均一にサンプリングされる。
アメリカン航空のデータセットを分析して、サブバッキング推定が全サンプル推定に数値的に近く、メモリ制約下では計算速度が速いことを示す。
論文 参考訳(メタデータ) (2021-02-28T21:38:22Z) - Complexity of zigzag sampling algorithm for strongly log-concave
distributions [6.336005544376984]
強いログ凹分布に対するジグザグサンプリングアルゴリズムの計算複雑性について検討する。
ジグザグサンプリングアルゴリズムは, 計算コストが$obiglに匹敵するchi-squareの発散において, $varepsilon$ 誤差を達成することを証明した。
論文 参考訳(メタデータ) (2020-12-21T03:10:21Z) - Sparse sketches with small inversion bias [79.77110958547695]
逆バイアスは、逆の共分散に依存する量の推定を平均化するときに生じる。
本研究では、確率行列に対する$(epsilon,delta)$-unbiased estimatorという概念に基づいて、逆バイアスを解析するためのフレームワークを開発する。
スケッチ行列 $S$ が密度が高く、すなわちサブガウスのエントリを持つとき、$(epsilon,delta)$-unbiased for $(Atop A)-1$ は $m=O(d+sqrt d/ のスケッチを持つ。
論文 参考訳(メタデータ) (2020-11-21T01:33:15Z) - Sample Complexity of Asynchronous Q-Learning: Sharper Analysis and
Variance Reduction [63.41789556777387]
非同期Q-ラーニングはマルコフ決定過程(MDP)の最適行動値関数(またはQ-関数)を学習することを目的としている。
Q-関数の入出力$varepsilon$-正確な推定に必要なサンプルの数は、少なくとも$frac1mu_min (1-gamma)5varepsilon2+ fract_mixmu_min (1-gamma)$の順である。
論文 参考訳(メタデータ) (2020-06-04T17:51:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。