論文の概要: Conformalized Frequency Estimation from Sketched Data
- arxiv url: http://arxiv.org/abs/2204.04270v1
- Date: Fri, 8 Apr 2022 19:39:37 GMT
- ステータス: 処理完了
- システム内更新日: 2022-04-12 17:24:21.234410
- Title: Conformalized Frequency Estimation from Sketched Data
- Title(参考訳): スケッチデータからの共形周波数推定
- Authors: Matteo Sesia and Stefano Favaro
- Abstract要約: 非常に大きなデータセットでクエリされたオブジェクトの周波数に対する信頼区間を構築するために、フレキシブルな共形推論法を開発した。
アプローチは完全にデータ適応的であり、人口分布やスケッチアルゴリズムの内部動作に関する知識を一切利用しない。
- 参考スコア(独自算出の注目度): 6.510507449705344
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: A flexible conformal inference method is developed to construct confidence
intervals for the frequencies of queried objects in a very large data set,
based on the information contained in a much smaller sketch of those data. The
approach is completely data-adaptive and makes no use of any knowledge of the
population distribution or of the inner workings of the sketching algorithm;
instead, it constructs provably valid frequentist confidence intervals under
the sole assumption of data exchangeability. Although the proposed solution is
much more broadly applicable, this paper explicitly demonstrates its use in
combination with the famous count-min sketch algorithm and a non-linear
variation thereof to facilitate the exposition. The performance is compared to
that of existing frequentist and Bayesian alternatives through several
experiments with synthetic data as well as with real data sets consisting of
SARS-CoV-2 DNA sequences and classic English literature.
- Abstract(参考訳): 膨大なデータ集合内のクエリ対象の頻度に対する信頼区間を,これらのデータのより小さなスケッチに含まれる情報に基づいて構築するために,フレキシブルな共形推論法を開発した。
この手法は完全にデータ適応的であり、人口分布やスケッチアルゴリズムの内部動作の知識を一切利用しない。
提案手法はより広い範囲で適用可能であるが,本論文では,有名なカウントミンスケッチアルゴリズムと,その非線形変動を併用して表現を容易にする。
この性能は、SARS-CoV-2のDNA配列と古典英語の文献からなる実際のデータセットと同様に、合成データによるいくつかの実験を通じて、既存の頻繁な代替品やベイズ的な代替品と比較される。
関連論文リスト
- Improving Grammatical Error Correction via Contextual Data Augmentation [49.746484518527716]
本研究では,文脈拡張に基づく合成データ構築手法を提案する。
具体的には、ルールベースの置換とモデルベースの生成を組み合わせる。
また,合成データにおけるノイズラベルの効果を軽減するために,レザベリングに基づくデータクリーニング手法を提案する。
論文 参考訳(メタデータ) (2024-06-25T10:49:56Z) - Anomalous Change Point Detection Using Probabilistic Predictive Coding [13.719066883151623]
確率予測符号化 (Probabilistic Predictive Coding, PPC) と呼ばれる深層学習に基づく CPD/AD 手法を提案する。
PPCは、連続したデータを低次元の潜在空間表現にエンコードし、その後のデータ表現とそれに対応する予測不確かさを予測することを共同で学習する。
本研究では, 合成時系列実験, 画像データ, 実世界の磁気共鳴分光画像データにまたがって提案手法の有効性と適応性を示す。
論文 参考訳(メタデータ) (2024-05-24T17:17:34Z) - Inference With Combining Rules From Multiple Differentially Private Synthetic Datasets [0.0]
DIPSデータセットの分析にルールを組み合わせることによって,プロシージャの適用性を検討する。
我々の経験的実験により、提案された組み合わせルールは、特定の状況において正確な推論を提供するが、すべての場合において正確な推論はできないことが示された。
論文 参考訳(メタデータ) (2024-05-08T02:33:35Z) - Tackling Diverse Minorities in Imbalanced Classification [80.78227787608714]
不均衡データセットは、様々な現実世界のアプリケーションで一般的に見られ、分類器の訓練において重要な課題が提示されている。
マイノリティクラスとマイノリティクラスの両方のデータサンプルを混合することにより、反復的に合成サンプルを生成することを提案する。
提案するフレームワークの有効性を,7つの公開ベンチマークデータセットを用いて広範な実験により実証する。
論文 参考訳(メタデータ) (2023-08-28T18:48:34Z) - Conformal Frequency Estimation using Discrete Sketched Data with
Coverage for Distinct Queries [35.67445122503686]
本稿では、非常に大きな離散データセットにおいて、問合せ対象の周波数に対する信頼区間を構築するための共形推論手法を開発する。
提案手法は,シミュレーションにおける既存の頻繁主義者やベイズ的な代替手法と比較して,経験的性能が向上したことを示す。
論文 参考訳(メタデータ) (2022-11-09T00:05:29Z) - Toward Learning Robust and Invariant Representations with Alignment
Regularization and Data Augmentation [76.85274970052762]
本論文はアライメント正則化の選択肢の増大を動機としている。
我々は、ロバスト性および不変性の次元に沿って、いくつかの人気のある設計選択のパフォーマンスを評価する。
我々はまた、現実的と考える仮定の下で経験的な研究を補完するために、アライメント正則化の挙動を正式に分析する。
論文 参考訳(メタデータ) (2022-06-04T04:29:19Z) - The Optimal Noise in Noise-Contrastive Learning Is Not What You Think [80.07065346699005]
この仮定から逸脱すると、実際により良い統計的推定結果が得られることが示される。
特に、最適な雑音分布は、データと異なり、また、別の家族からさえも異なる。
論文 参考訳(メタデータ) (2022-03-02T13:59:20Z) - Approximate Bayesian Computation with Path Signatures [0.5156484100374059]
本稿では,時系列データ間の距離を構築するための自然候補としてパスシグネチャを導入する。
実験により, 従来の時系列モデルよりも高精度なベイズ後方推定が可能であることが示された。
論文 参考訳(メタデータ) (2021-06-23T17:25:43Z) - PriorGrad: Improving Conditional Denoising Diffusion Models with
Data-Driven Adaptive Prior [103.00403682863427]
条件拡散モデルの効率を改善するために, PreGrad を提案する。
PriorGradはデータとパラメータの効率を向上し、品質を向上する。
論文 参考訳(メタデータ) (2021-06-11T14:04:03Z) - Towards Synthetic Multivariate Time Series Generation for Flare
Forecasting [5.098461305284216]
データ駆動・レアイベント予測アルゴリズムのトレーニングにおける制限要因の1つは、関心のあるイベントの不足である。
本研究では,データインフォームド・オーバーサンプリングを行う手段として,条件付き生成逆数ネットワーク(CGAN)の有用性を検討する。
論文 参考訳(メタデータ) (2021-05-16T22:23:23Z) - Asymptotic Analysis of an Ensemble of Randomly Projected Linear
Discriminants [94.46276668068327]
[1]では、ランダムに投影された線形判別式のアンサンブルを用いてデータセットを分類する。
我々は,計算コストのかかるクロスバリデーション推定器の代替として,誤分類確率の一貫した推定器を開発する。
また、実データと合成データの両方で投影次元を調整するための推定器の使用を実証する。
論文 参考訳(メタデータ) (2020-04-17T12:47:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。