論文の概要: Sharp Frequency Bounds for Sample-Based Queries
- arxiv url: http://arxiv.org/abs/2208.06753v1
- Date: Sun, 14 Aug 2022 00:38:14 GMT
- ステータス: 処理完了
- システム内更新日: 2022-08-16 15:09:16.280278
- Title: Sharp Frequency Bounds for Sample-Based Queries
- Title(参考訳): サンプルベースクエリのシャープ周波数境界
- Authors: Eric Bax and John Donald
- Abstract要約: データスケッチアルゴリズムは、大きなデータセットをスキャンし、少量のデータ(スケッチ)を収集します。
一部のデータスケッチアルゴリズムは、ビッグデータセットの固定サイズのランダムサンプルを取得し、そのサンプルを使用して、ビッグデータセットのさまざまな基準を満たす項目の頻度を推測する。
本稿では,これらの周波数に対して,統計的にほぼ正しい(PAC)境界を正確に推定する方法を示す。
- 参考スコア(独自算出の注目度): 0.12183405753834559
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: A data sketch algorithm scans a big data set, collecting a small amount of
data -- the sketch, which can be used to statistically infer properties of the
big data set. Some data sketch algorithms take a fixed-size random sample of a
big data set, and use that sample to infer frequencies of items that meet
various criteria in the big data set. This paper shows how to statistically
infer probably approximately correct (PAC) bounds for those frequencies,
efficiently, and precisely enough that the frequency bounds are either sharp or
off by only one, which is the best possible result without exact computation.
- Abstract(参考訳): データスケッチアルゴリズムは、ビッグデータセットをスキャンし、少量のデータ(スケッチ)を収集する。
一部のデータスケッチアルゴリズムは、ビッグデータセットの固定サイズのランダムサンプルを取得し、そのサンプルを使用して、ビッグデータセットのさまざまな基準を満たす項目の頻度を推測する。
本稿では、周波数境界が1つだけシャープかオフであるかを統計的に推定する方法を示し、正確な計算を行なわない最善の結果である。
関連論文リスト
- A CLIP-Powered Framework for Robust and Generalizable Data Selection [51.46695086779598]
実世界のデータセットは、しばしば冗長でノイズの多いデータを含み、トレーニング効率とモデルパフォーマンスに悪影響を及ぼす。
データ選択は、データセット全体から最も代表的なサンプルを特定することを約束している。
より堅牢で一般化可能なサンプル選択にマルチモーダル情報を活用するCLIPを利用した新しいデータ選択フレームワークを提案する。
論文 参考訳(メタデータ) (2024-10-15T03:00:58Z) - Scalable Batch Acquisition for Deep Bayesian Active Learning [70.68403899432198]
ディープラーニングでは、各ステップでマークアップする複数の例を選択することが重要です。
BatchBALDのような既存のソリューションでは、多くの例を選択する際に大きな制限がある。
本稿では,より計算効率のよいLarge BatchBALDアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-01-13T11:45:17Z) - Conformal Frequency Estimation using Discrete Sketched Data with
Coverage for Distinct Queries [35.67445122503686]
本稿では、非常に大きな離散データセットにおいて、問合せ対象の周波数に対する信頼区間を構築するための共形推論手法を開発する。
提案手法は,シミュレーションにおける既存の頻繁主義者やベイズ的な代替手法と比較して,経験的性能が向上したことを示す。
論文 参考訳(メタデータ) (2022-11-09T00:05:29Z) - Conformalized Frequency Estimation from Sketched Data [6.510507449705344]
非常に大きなデータセットでクエリされたオブジェクトの周波数に対する信頼区間を構築するために、フレキシブルな共形推論法を開発した。
アプローチは完全にデータ適応的であり、人口分布やスケッチアルゴリズムの内部動作に関する知識を一切利用しない。
論文 参考訳(メタデータ) (2022-04-08T19:39:37Z) - Optimal Sampling Gaps for Adaptive Submodular Maximization [28.24164217929491]
アダプティブサブモジュラの文脈における確率サンプリングによる性能損失について検討する。
ポリシワイズ・サブモジュラの性質は、現実世界の幅広いアプリケーションで見つけることができることを示しています。
論文 参考訳(メタデータ) (2021-04-05T03:21:32Z) - Multi-Source Causal Inference Using Control Variates [81.57072928775509]
本稿では,複数のデータソースから因果効果を推定するアルゴリズムを提案する。
理論的には、これはATE推定値の分散を減少させる。
このフレームワークを結果選択バイアスの下で観測データからの推論に適用する。
論文 参考訳(メタデータ) (2021-03-30T21:20:51Z) - More Informed Random Sample Consensus [1.827510863075184]
本稿では,L'evy分布とデータソートアルゴリズムを併用してデータをサンプリングする手法を提案する。
提案手法の仮説サンプリングステップでは, データをソートアルゴリズムでソートし, 不整集合にあるデータ点の確率に基づいてデータをソートする。
次に、L'evy分布のソートされたデータから仮説をサンプリングする。
論文 参考訳(メタデータ) (2020-11-18T06:43:50Z) - Oblivious Sampling Algorithms for Private Data Analysis [10.990447273771592]
データセットのサンプル上で実行されるクエリに基づいて,セキュアでプライバシ保護されたデータ解析について検討する。
信頼された実行環境(TEE)は、クエリ計算中にデータの内容を保護するために使用できる。
TEEsにおける差分プライベート(DP)クエリのサポートは、クエリ出力が明らかにされたときの記録プライバシを提供する。
論文 参考訳(メタデータ) (2020-09-28T23:45:30Z) - Evaluating representations by the complexity of learning low-loss
predictors [55.94170724668857]
下流タスクの解決に使用されるデータの表現を評価することの問題点を考察する。
本稿では,関心のあるタスクにおける低損失を実現する表現の上に,予測器を学習する複雑性によって表現の質を測定することを提案する。
論文 参考訳(メタデータ) (2020-09-15T22:06:58Z) - WOR and $p$'s: Sketches for $\ell_p$-Sampling Without Replacement [75.12782480740822]
We design novel composable sketches for WOR $ell_p$ sample。
私たちのスケッチは、サンプルサイズと直線的にしか成長しないサイズです。
我々の方法は、最初に$p>1$の重要なレギュレーションでWORサンプリングを提供し、最初に$p>0$で署名された更新を処理する。
論文 参考訳(メタデータ) (2020-07-14T00:19:27Z) - Sampling from a $k$-DPP without looking at all items [58.30573872035083]
カーネル関数とサブセットサイズ$k$が与えられた場合、我々のゴールは、サブセットによって誘導されるカーネル行列の行列式に比例する確率を持つ$n$アイテムから$k$をサンプリングすることである(つまり$k$-DPP)。
既存の$k$-DPPサンプリングアルゴリズムは、すべての$n$アイテムを複数回パスする高価な前処理ステップを必要とするため、大規模なデータセットでは利用できない。
そこで我々は, 十分大きなデータの均一なサンプルを適応的に構築し, より小さな$k$のアイテムを効率よく生成するアルゴリズムを開発した。
論文 参考訳(メタデータ) (2020-06-30T16:40:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。