論文の概要: Conformal Frequency Estimation using Discrete Sketched Data with
Coverage for Distinct Queries
- arxiv url: http://arxiv.org/abs/2211.04612v2
- Date: Tue, 15 Aug 2023 23:27:12 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-17 17:54:08.246936
- Title: Conformal Frequency Estimation using Discrete Sketched Data with
Coverage for Distinct Queries
- Title(参考訳): 離散スケッチデータを用いた固有クエリの共形周波数推定
- Authors: Matteo Sesia, Stefano Favaro, Edgar Dobriban
- Abstract要約: 本稿では、非常に大きな離散データセットにおいて、問合せ対象の周波数に対する信頼区間を構築するための共形推論手法を開発する。
提案手法は,シミュレーションにおける既存の頻繁主義者やベイズ的な代替手法と比較して,経験的性能が向上したことを示す。
- 参考スコア(独自算出の注目度): 35.67445122503686
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: This paper develops conformal inference methods to construct a confidence
interval for the frequency of a queried object in a very large discrete data
set, based on a sketch with a lower memory footprint. This approach requires no
knowledge of the data distribution and can be combined with any sketching
algorithm, including but not limited to the renowned count-min sketch, the
count-sketch, and variations thereof. After explaining how to achieve marginal
coverage for exchangeable random queries, we extend our solution to provide
stronger inferences that can account for the discreteness of the data and for
heterogeneous query frequencies, increasing also robustness to possible
distribution shifts. These results are facilitated by a novel conformal
calibration technique that guarantees valid coverage for a large fraction of
distinct random queries. Finally, we show our methods have improved empirical
performance compared to existing frequentist and Bayesian alternatives in
simulations as well as in examples of text and SARS-CoV-2 DNA data.
- Abstract(参考訳): 本稿では,メモリフットプリントの少ないスケッチに基づいて,クエリ対象の頻度に対する信頼区間を,非常に大きな離散データセットで構築する共形推論手法を提案する。
このアプローチは、データ分布に関する知識を必要とせず、有名なカウントミンスケッチ、カウントスケッチ、およびそれらのバリエーションを含むあらゆるスケッチアルゴリズムと組み合わせることができる。
交換可能なランダムクエリの限界カバレッジを達成する方法について説明した後、我々は、データの離散性と異種クエリ周波数を考慮できる強力な推論を提供し、分散シフトの可能性に対する堅牢性を高めるために、ソリューションを拡張した。
これらの結果は、多数の異なるランダムクエリに対して有効なカバレッジを保証する新しいコンフォメーションキャリブレーション手法によって促進される。
最後に,本手法は,テキストやSARS-CoV-2のDNAデータの例と同様に,既存の頻繁な手法やベイズ的な手法と比較して実験性能が向上したことを示す。
関連論文リスト
- Distributed Markov Chain Monte Carlo Sampling based on the Alternating
Direction Method of Multipliers [143.6249073384419]
本論文では,乗算器の交互方向法に基づく分散サンプリング手法を提案する。
我々は,アルゴリズムの収束に関する理論的保証と,その最先端性に関する実験的証拠の両方を提供する。
シミュレーションでは,線形回帰タスクとロジスティック回帰タスクにアルゴリズムを配置し,その高速収束を既存の勾配法と比較した。
論文 参考訳(メタデータ) (2024-01-29T02:08:40Z) - Tackling Diverse Minorities in Imbalanced Classification [80.78227787608714]
不均衡データセットは、様々な現実世界のアプリケーションで一般的に見られ、分類器の訓練において重要な課題が提示されている。
マイノリティクラスとマイノリティクラスの両方のデータサンプルを混合することにより、反復的に合成サンプルを生成することを提案する。
提案するフレームワークの有効性を,7つの公開ベンチマークデータセットを用いて広範な実験により実証する。
論文 参考訳(メタデータ) (2023-08-28T18:48:34Z) - Derandomized Novelty Detection with FDR Control via Conformal E-values [20.864605211132663]
p-値の代わりに適切な共形e-値を活用することにより、共形推論をより安定にすることを提案する。
提案手法は, 標準共形推論と比較して, 電力損失が少なく, ランダム性を低減できることを示す。
論文 参考訳(メタデータ) (2023-02-14T19:21:44Z) - Differentially Private Federated Clustering over Non-IID Data [59.611244450530315]
クラスタリングクラスタ(FedC)問題は、巨大なクライアント上に分散されたラベルなしデータサンプルを、サーバのオーケストレーションの下で有限のクライアントに正確に分割することを目的としている。
本稿では,DP-Fedと呼ばれる差分プライバシー収束手法を用いた新しいFedCアルゴリズムを提案する。
提案するDP-Fedの様々な属性は、プライバシー保護の理論的解析、特に非識別的かつ独立に分散された(非i.d.)データの場合において得られる。
論文 参考訳(メタデータ) (2023-01-03T05:38:43Z) - Conformalized Frequency Estimation from Sketched Data [6.510507449705344]
非常に大きなデータセットでクエリされたオブジェクトの周波数に対する信頼区間を構築するために、フレキシブルな共形推論法を開発した。
アプローチは完全にデータ適応的であり、人口分布やスケッチアルゴリズムの内部動作に関する知識を一切利用しない。
論文 参考訳(メタデータ) (2022-04-08T19:39:37Z) - Robust and Provable Guarantees for Sparse Random Embeddings [72.24615341588846]
我々は、Freksen が al. (NIPS'18) と Jagadeesan (NIPS'18) で提供したスパースランダム埋め込みの保証を改善する。
a) 前述した保証とは対照的に我々の境界は明示的であり、(b)我々の境界は実際に重要な定数によってよりシャープであることが保証されている。
我々は、我々の境界が、広範囲の現実世界のデータセットに関する先行研究よりも著しく優れていることを実証的に実証した。
論文 参考訳(メタデータ) (2022-02-22T11:15:59Z) - On Sparse High-Dimensional Graphical Model Learning For Dependent Time Series [12.94486861344922]
本稿では,スパース,高次元定常時系列の条件独立グラフ(CIG)を推定する問題を考察する。
スパースグループラッソに基づく周波数領域の定式化について述べる。
また,ベイズ情報基準に基づくチューニングパラメータの選択についても実験的に検討した。
論文 参考訳(メタデータ) (2021-11-15T16:52:02Z) - Generalization in the Face of Adaptivity: A Bayesian Perspective [3.0202264016476623]
適応的に選択されたクエリによるデータサンプルの繰り返し使用は、急速に過度な適合につながる可能性がある。
単純なノイズアンバウンド付加アルゴリズムは、この問題を防ぐのに十分であることがわかった。
提案手法では, 過去のクエリに対する応答にデータサンプルに関する情報がどの程度エンコードされたか, ベイズ因子と新しいクエリの共分散から適応性の害が生じることを示す。
論文 参考訳(メタデータ) (2021-06-20T22:06:44Z) - Improved, Deterministic Smoothing for L1 Certified Robustness [119.86676998327864]
分割雑音を伴う非加法的決定論的平滑化法(dssn)を提案する。
一様加法平滑化とは対照的に、ssn認証は無作為なノイズコンポーネントを独立に必要としない。
これは、規範ベースの敵対的脅威モデルに対して決定論的「ランダム化平滑化」を提供する最初の仕事である。
論文 参考訳(メタデータ) (2021-03-17T21:49:53Z) - Beyond the Mean-Field: Structured Deep Gaussian Processes Improve the
Predictive Uncertainties [12.068153197381575]
高速収束を達成しつつ、潜在過程間の共分散を維持できる新しい変分族を提案する。
新しいアプローチの効率的な実装を提供し、それをいくつかのベンチマークデータセットに適用します。
優れた結果をもたらし、最先端の代替品よりも精度とキャリブレーションされた不確実性推定とのバランスが良くなる。
論文 参考訳(メタデータ) (2020-05-22T11:10:59Z) - Spatially Adaptive Inference with Stochastic Feature Sampling and
Interpolation [72.40827239394565]
スパースサンプリングされた場所のみの機能を計算することを提案する。
次に、効率的な手順で特徴写像を密に再構築する。
提案したネットワークは、様々なコンピュータビジョンタスクの精度を維持しながら、かなりの計算を省くために実験的に示されている。
論文 参考訳(メタデータ) (2020-03-19T15:36:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。