論文の概要: Conformalized Frequency Estimation from Sketched Data
- arxiv url: http://arxiv.org/abs/2204.04270v1
- Date: Fri, 8 Apr 2022 19:39:37 GMT
- ステータス: 処理完了
- システム内更新日: 2022-04-12 17:24:21.234410
- Title: Conformalized Frequency Estimation from Sketched Data
- Title(参考訳): スケッチデータからの共形周波数推定
- Authors: Matteo Sesia and Stefano Favaro
- Abstract要約: 非常に大きなデータセットでクエリされたオブジェクトの周波数に対する信頼区間を構築するために、フレキシブルな共形推論法を開発した。
アプローチは完全にデータ適応的であり、人口分布やスケッチアルゴリズムの内部動作に関する知識を一切利用しない。
- 参考スコア(独自算出の注目度): 6.510507449705344
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: A flexible conformal inference method is developed to construct confidence
intervals for the frequencies of queried objects in a very large data set,
based on the information contained in a much smaller sketch of those data. The
approach is completely data-adaptive and makes no use of any knowledge of the
population distribution or of the inner workings of the sketching algorithm;
instead, it constructs provably valid frequentist confidence intervals under
the sole assumption of data exchangeability. Although the proposed solution is
much more broadly applicable, this paper explicitly demonstrates its use in
combination with the famous count-min sketch algorithm and a non-linear
variation thereof to facilitate the exposition. The performance is compared to
that of existing frequentist and Bayesian alternatives through several
experiments with synthetic data as well as with real data sets consisting of
SARS-CoV-2 DNA sequences and classic English literature.
- Abstract(参考訳): 膨大なデータ集合内のクエリ対象の頻度に対する信頼区間を,これらのデータのより小さなスケッチに含まれる情報に基づいて構築するために,フレキシブルな共形推論法を開発した。
この手法は完全にデータ適応的であり、人口分布やスケッチアルゴリズムの内部動作の知識を一切利用しない。
提案手法はより広い範囲で適用可能であるが,本論文では,有名なカウントミンスケッチアルゴリズムと,その非線形変動を併用して表現を容易にする。
この性能は、SARS-CoV-2のDNA配列と古典英語の文献からなる実際のデータセットと同様に、合成データによるいくつかの実験を通じて、既存の頻繁な代替品やベイズ的な代替品と比較される。
関連論文リスト
- Causal Discovery under Identifiable Heteroscedastic Noise Model [50.23769985430187]
因果DAG学習は、最近精度と効率の両面で有望な性能を達成した。
本稿では,変数間のノイズ分散の変動を考慮したDAG学習のための新しい定式化を提案する。
次に、最適化の難しさに対処する効果的な2相反復DAG学習アルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-12-20T08:51:58Z) - Tackling Diverse Minorities in Imbalanced Classification [80.78227787608714]
不均衡データセットは、様々な現実世界のアプリケーションで一般的に見られ、分類器の訓練において重要な課題が提示されている。
マイノリティクラスとマイノリティクラスの両方のデータサンプルを混合することにより、反復的に合成サンプルを生成することを提案する。
提案するフレームワークの有効性を,7つの公開ベンチマークデータセットを用いて広範な実験により実証する。
論文 参考訳(メタデータ) (2023-08-28T18:48:34Z) - Conformal Frequency Estimation using Discrete Sketched Data with
Coverage for Distinct Queries [35.67445122503686]
本稿では、非常に大きな離散データセットにおいて、問合せ対象の周波数に対する信頼区間を構築するための共形推論手法を開発する。
提案手法は,シミュレーションにおける既存の頻繁主義者やベイズ的な代替手法と比較して,経験的性能が向上したことを示す。
論文 参考訳(メタデータ) (2022-11-09T00:05:29Z) - Dimension Independent Data Sets Approximation and Applications to
Classification [0.0]
我々は、近似・補間理論の古典的カーネル法を、非常に具体的な文脈で再検討する。
データ信号と呼ばれる特別な関数は、任意のデータセットに対して定義され、教師付き分類問題を簡潔に解くために使用される。
論文 参考訳(メタデータ) (2022-08-29T17:32:55Z) - Toward Learning Robust and Invariant Representations with Alignment
Regularization and Data Augmentation [76.85274970052762]
本論文はアライメント正則化の選択肢の増大を動機としている。
我々は、ロバスト性および不変性の次元に沿って、いくつかの人気のある設計選択のパフォーマンスを評価する。
我々はまた、現実的と考える仮定の下で経験的な研究を補完するために、アライメント正則化の挙動を正式に分析する。
論文 参考訳(メタデータ) (2022-06-04T04:29:19Z) - The Optimal Noise in Noise-Contrastive Learning Is Not What You Think [80.07065346699005]
この仮定から逸脱すると、実際により良い統計的推定結果が得られることが示される。
特に、最適な雑音分布は、データと異なり、また、別の家族からさえも異なる。
論文 参考訳(メタデータ) (2022-03-02T13:59:20Z) - On Sparse High-Dimensional Graphical Model Learning For Dependent Time
Series [23.503820266772504]
本稿では,スパース,高次元定常時系列の条件独立グラフ(CIG)を推定する問題を考察する。
スパースグループラッソに基づく周波数領域の定式化について述べる。
また,ベイズ情報基準に基づくチューニングパラメータの選択についても実験的に検討した。
論文 参考訳(メタデータ) (2021-11-15T16:52:02Z) - Approximate Bayesian Computation with Path Signatures [0.5156484100374059]
本稿では,時系列データ間の距離を構築するための自然候補としてパスシグネチャを導入する。
実験により, 従来の時系列モデルよりも高精度なベイズ後方推定が可能であることが示された。
論文 参考訳(メタデータ) (2021-06-23T17:25:43Z) - PriorGrad: Improving Conditional Denoising Diffusion Models with
Data-Driven Adaptive Prior [103.00403682863427]
条件拡散モデルの効率を改善するために, PreGrad を提案する。
PriorGradはデータとパラメータの効率を向上し、品質を向上する。
論文 参考訳(メタデータ) (2021-06-11T14:04:03Z) - Towards Synthetic Multivariate Time Series Generation for Flare
Forecasting [5.098461305284216]
データ駆動・レアイベント予測アルゴリズムのトレーニングにおける制限要因の1つは、関心のあるイベントの不足である。
本研究では,データインフォームド・オーバーサンプリングを行う手段として,条件付き生成逆数ネットワーク(CGAN)の有用性を検討する。
論文 参考訳(メタデータ) (2021-05-16T22:23:23Z) - Asymptotic Analysis of an Ensemble of Randomly Projected Linear
Discriminants [94.46276668068327]
[1]では、ランダムに投影された線形判別式のアンサンブルを用いてデータセットを分類する。
我々は,計算コストのかかるクロスバリデーション推定器の代替として,誤分類確率の一貫した推定器を開発する。
また、実データと合成データの両方で投影次元を調整するための推定器の使用を実証する。
論文 参考訳(メタデータ) (2020-04-17T12:47:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。