論文の概要: Bayesian nonparametric estimation of coverage probabilities and distinct
counts from sketched data
- arxiv url: http://arxiv.org/abs/2209.02135v1
- Date: Mon, 5 Sep 2022 20:48:04 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-07 14:49:27.099548
- Title: Bayesian nonparametric estimation of coverage probabilities and distinct
counts from sketched data
- Title(参考訳): スケッチデータによるベイズ非パラメトリック被覆確率と別個数の推定
- Authors: Stefano Favaro, Matteo Sesia
- Abstract要約: ランダムハッシュを用いてスケッチしたデータからカバレッジ確率を推定するノンパラメトリック手法を提案する。
提案したベイズ推定器はディリクレ法と組み合わせて大規模解析に容易に適用できることが示されている。
提案手法の実証的有効性は、数値実験と応用を通して、コビッドDNA配列、古典英語文献、IPアドレスの実際のデータセットに適用できることを実証する。
- 参考スコア(独自算出の注目度): 6.510507449705344
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The estimation of coverage probabilities, and in particular of the missing
mass, is a classical statistical problem with applications in numerous
scientific fields. In this paper, we study this problem in relation to
randomized data compression, or sketching. This is a novel but practically
relevant perspective, and it refers to situations in which coverage
probabilities must be estimated based on a compressed and imperfect summary, or
sketch, of the true data, because neither the full data nor the empirical
frequencies of distinct symbols can be observed directly. Our contribution is a
Bayesian nonparametric methodology to estimate coverage probabilities from data
sketched through random hashing, which also solves the challenging problems of
recovering the numbers of distinct counts in the true data and of distinct
counts with a specified empirical frequency of interest. The proposed Bayesian
estimators are shown to be easily applicable to large-scale analyses in
combination with a Dirichlet process prior, although they involve some open
computational challenges under the more general Pitman-Yor process prior. The
empirical effectiveness of our methodology is demonstrated through numerical
experiments and applications to real data sets of Covid DNA sequences, classic
English literature, and IP addresses.
- Abstract(参考訳): 被覆確率の推定、特に不足質量は、多くの科学分野における応用に関する古典的な統計問題である。
本稿では,この問題をランダム化データ圧縮やスケッチ処理と関連づけて検討する。
これは、新しいが実際は関係のある視点であり、個々のシンボルの完全なデータも経験周波数も直接観察できないため、真のデータの圧縮された不完全な要約やスケッチに基づいて、カバレッジ確率を推定しなければならない状況を指す。
我々の貢献は、ランダムハッシュによってスケッチされたデータからカバレッジ確率を推定するベイズ非パラメトリック手法であり、また、真のデータと特定の経験的頻度で異なるカウントの数を復元する難しい問題を解決している。
提案したベイズ推定器は、ディリクレ過程と組み合わせて大規模解析に容易に適用可能であるが、より一般的なピットマン・ヨル過程の下では、いくつかのオープンな計算課題が伴う。
本手法の実証的有効性は,covid-19 dna配列,古典英語文献,ipアドレスの実データ集合に対する数値実験と応用により実証された。
関連論文リスト
- Approximating Counterfactual Bounds while Fusing Observational, Biased
and Randomised Data Sources [64.96984404868411]
我々は、複数の、偏見のある、観察的、介入的な研究からのデータを統合するという問題に対処する。
利用可能なデータの可能性は局所的な最大値を持たないことを示す。
次に、同じアプローチが複数のデータセットの一般的なケースにどのように対処できるかを示す。
論文 参考訳(メタデータ) (2023-07-31T11:28:24Z) - The Decaying Missing-at-Random Framework: Doubly Robust Causal Inference
with Partially Labeled Data [10.021381302215062]
現実のシナリオでは、データ収集の制限によって部分的にラベル付けされたデータセットが生成されることが多く、信頼性の高い因果推論の描画が困難になる。
半パラメトリック(SS)や欠落したデータ文学における従来のアプローチは、これらの複雑さを適切に扱えないため、偏りのある見積もりにつながる可能性がある。
このフレームワークは、高次元設定における欠落した結果に対処し、選択バイアスを考慮に入れます。
論文 参考訳(メタデータ) (2023-05-22T07:37:12Z) - Learning to Bound Counterfactual Inference in Structural Causal Models
from Observational and Randomised Data [64.96984404868411]
我々は、従来のEMベースのアルゴリズムを拡張するための全体的なデータの特徴付けを導出する。
新しいアルゴリズムは、そのような混合データソースからモデルパラメータの(不特定性)領域を近似することを学ぶ。
反実的な結果に間隔近似を与え、それが特定可能な場合の点に崩壊する。
論文 参考訳(メタデータ) (2022-12-06T12:42:11Z) - MissDAG: Causal Discovery in the Presence of Missing Data with
Continuous Additive Noise Models [78.72682320019737]
不完全な観測データから因果発見を行うため,MissDAGと呼ばれる一般的な手法を開発した。
MissDAGは、期待-最大化の枠組みの下で観測の可視部分の期待される可能性を最大化する。
各種因果探索アルゴリズムを組み込んだMissDAGの柔軟性について,広範囲なシミュレーションと実データ実験により検証した。
論文 参考訳(メタデータ) (2022-05-27T09:59:46Z) - Combining Observational and Randomized Data for Estimating Heterogeneous
Treatment Effects [82.20189909620899]
不均一な治療効果を推定することは、多くの領域において重要な問題である。
現在、現存するほとんどの作品は観測データにのみ依存している。
本稿では、大量の観測データと少量のランダム化データを組み合わせることで、不均一な処理効果を推定する。
論文 参考訳(メタデータ) (2022-02-25T18:59:54Z) - Deep Probability Estimation [14.659180336823354]
深層ニューラルネットワークを用いた高次元データからの確率推定について検討する。
この研究の目的は、ディープニューラルネットワークを用いた高次元データからの確率推定を調査することである。
合成データおよび実世界の3つの確率推定タスクにおける既存手法の評価を行った。
論文 参考訳(メタデータ) (2021-11-21T03:55:50Z) - DPER: Efficient Parameter Estimation for Randomly Missing Data [0.24466725954625884]
本稿では,1クラス・複数クラスのランダムに欠落したデータセットに対して,最大推定値(MLE)を求めるアルゴリズムを提案する。
我々のアルゴリズムは、データを通して複数のイテレーションを必要としないので、他の方法よりも時間のかかることを約束します。
論文 参考訳(メタデータ) (2021-06-06T16:37:48Z) - Tracking disease outbreaks from sparse data with Bayesian inference [55.82986443159948]
新型コロナウイルス(COVID-19)のパンデミックは、感染発生時の感染率を推定する新たな動機を与える。
標準的な手法は、より細かいスケールで共通する部分的な観測可能性とスパースなデータに対応するのに苦労する。
原理的に部分観測可能なベイズ的枠組みを提案する。
論文 参考訳(メタデータ) (2020-09-12T20:37:33Z) - Anomaly Detection in Trajectory Data with Normalizing Flows [0.0]
本稿では,ニューラルネットワークを用いたデータから複雑な密度推定を可能にする,正規化フローに基づく手法を提案する。
提案手法は, 軌道の各セグメントに対して, 流れを正規化する重要な特徴である, 正確なモデル確率値を算出する。
実世界の軌道データを用いて, 正規化フローを用いた集約異常検出法(GRADINGS)を評価し, 従来の異常検出法と比較した。
論文 参考訳(メタデータ) (2020-04-13T14:16:40Z) - A Robust Functional EM Algorithm for Incomplete Panel Count Data [66.07942227228014]
完全無作為な仮定(MCAR)の下での数え上げ過程の平均関数を推定する機能的EMアルゴリズムを提案する。
提案アルゴリズムは、いくつかの一般的なパネル数推定手法をラップし、不完全数にシームレスに対処し、ポアソン過程の仮定の誤特定に頑健である。
本稿では, 数値実験による提案アルゴリズムの有用性と喫煙停止データの解析について述べる。
論文 参考訳(メタデータ) (2020-03-02T20:04:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。