論文の概要: Conformal Frequency Estimation with Sketched Data under Relaxed
Exchangeability
- arxiv url: http://arxiv.org/abs/2211.04612v1
- Date: Wed, 9 Nov 2022 00:05:29 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-10 17:52:00.393101
- Title: Conformal Frequency Estimation with Sketched Data under Relaxed
Exchangeability
- Title(参考訳): 緩和交換性を考慮したスケッチデータによる等角周波数推定
- Authors: Matteo Sesia, Stefano Favaro, Edgar Dobriban
- Abstract要約: 非常に大きなデータセットにおいて,クエリ対象の周波数に対する信頼区間を構築するためのフレキシブルな手法を開発した。
このアプローチでは、データの配布やスケッチアルゴリズムの詳細に関する知識は必要ない。
共形推論手法を用いて、ランダムなクエリに対して有意な頻繁な信頼区間を構築する。
- 参考スコア(独自算出の注目度): 23.590914759211323
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: A flexible method is developed to construct a confidence interval for the
frequency of a queried object in a very large data set, based on a much smaller
sketch of the data. The approach requires no knowledge of the data distribution
or of the details of the sketching algorithm; instead, it constructs provably
valid frequentist confidence intervals for random queries using a conformal
inference approach. After achieving marginal coverage for random queries under
the assumption of data exchangeability, the proposed method is extended to
provide stronger inferences accounting for possibly heterogeneous frequencies
of different random queries, redundant queries, and distribution shifts. While
the presented methods are broadly applicable, this paper focuses on use cases
involving the count-min sketch algorithm and a non-linear variation thereof, to
facilitate comparison to prior work. In particular, the developed methods are
compared empirically to frequentist and Bayesian alternatives, through
simulations and experiments with data sets of SARS-CoV-2 DNA sequences and
classic English literature.
- Abstract(参考訳): データのより小さなスケッチに基づいて、非常に大きなデータセットでクエリされたオブジェクトの頻度に対する信頼区間を構築するための柔軟な手法を開発した。
このアプローチでは、データ分布やスケッチアルゴリズムの詳細に関する知識は必要とせず、共形推論アプローチを用いて、ランダムなクエリに対して正当な頻繁な信頼区間を構築する。
提案手法は,データ交換可能性を想定したランダムクエリの限界カバレッジを達成した後,異なるランダムクエリ,冗長クエリ,分散シフトのヘテロジニアス周波数を考慮した,より強い推論を行うように拡張した。
提案手法は広く適用可能であるが,本論文では,先行作業との比較を容易にするために,カウントミンスケッチアルゴリズムとその非線形変動を含むユースケースに焦点を当てる。
特に,sars-cov-2のdna配列と古典英語文献のデータセットを用いたシミュレーションと実験を通じて,経験的比較を行った。
関連論文リスト
- Distributed Markov Chain Monte Carlo Sampling based on the Alternating
Direction Method of Multipliers [143.6249073384419]
本論文では,乗算器の交互方向法に基づく分散サンプリング手法を提案する。
我々は,アルゴリズムの収束に関する理論的保証と,その最先端性に関する実験的証拠の両方を提供する。
シミュレーションでは,線形回帰タスクとロジスティック回帰タスクにアルゴリズムを配置し,その高速収束を既存の勾配法と比較した。
論文 参考訳(メタデータ) (2024-01-29T02:08:40Z) - Tackling Diverse Minorities in Imbalanced Classification [80.78227787608714]
不均衡データセットは、様々な現実世界のアプリケーションで一般的に見られ、分類器の訓練において重要な課題が提示されている。
マイノリティクラスとマイノリティクラスの両方のデータサンプルを混合することにより、反復的に合成サンプルを生成することを提案する。
提案するフレームワークの有効性を,7つの公開ベンチマークデータセットを用いて広範な実験により実証する。
論文 参考訳(メタデータ) (2023-08-28T18:48:34Z) - Derandomized Novelty Detection with FDR Control via Conformal E-values [20.864605211132663]
p-値の代わりに適切な共形e-値を活用することにより、共形推論をより安定にすることを提案する。
提案手法は, 標準共形推論と比較して, 電力損失が少なく, ランダム性を低減できることを示す。
論文 参考訳(メタデータ) (2023-02-14T19:21:44Z) - Differentially Private Federated Clustering over Non-IID Data [59.611244450530315]
クラスタリングクラスタ(FedC)問題は、巨大なクライアント上に分散されたラベルなしデータサンプルを、サーバのオーケストレーションの下で有限のクライアントに正確に分割することを目的としている。
本稿では,DP-Fedと呼ばれる差分プライバシー収束手法を用いた新しいFedCアルゴリズムを提案する。
提案するDP-Fedの様々な属性は、プライバシー保護の理論的解析、特に非識別的かつ独立に分散された(非i.d.)データの場合において得られる。
論文 参考訳(メタデータ) (2023-01-03T05:38:43Z) - Conformalized Frequency Estimation from Sketched Data [6.510507449705344]
非常に大きなデータセットでクエリされたオブジェクトの周波数に対する信頼区間を構築するために、フレキシブルな共形推論法を開発した。
アプローチは完全にデータ適応的であり、人口分布やスケッチアルゴリズムの内部動作に関する知識を一切利用しない。
論文 参考訳(メタデータ) (2022-04-08T19:39:37Z) - Robust and Provable Guarantees for Sparse Random Embeddings [72.24615341588846]
我々は、Freksen が al. (NIPS'18) と Jagadeesan (NIPS'18) で提供したスパースランダム埋め込みの保証を改善する。
a) 前述した保証とは対照的に我々の境界は明示的であり、(b)我々の境界は実際に重要な定数によってよりシャープであることが保証されている。
我々は、我々の境界が、広範囲の現実世界のデータセットに関する先行研究よりも著しく優れていることを実証的に実証した。
論文 参考訳(メタデータ) (2022-02-22T11:15:59Z) - On Sparse High-Dimensional Graphical Model Learning For Dependent Time Series [12.94486861344922]
本稿では,スパース,高次元定常時系列の条件独立グラフ(CIG)を推定する問題を考察する。
スパースグループラッソに基づく周波数領域の定式化について述べる。
また,ベイズ情報基準に基づくチューニングパラメータの選択についても実験的に検討した。
論文 参考訳(メタデータ) (2021-11-15T16:52:02Z) - Generalization in the Face of Adaptivity: A Bayesian Perspective [3.0202264016476623]
適応的に選択されたクエリによるデータサンプルの繰り返し使用は、急速に過度な適合につながる可能性がある。
単純なノイズアンバウンド付加アルゴリズムは、この問題を防ぐのに十分であることがわかった。
提案手法では, 過去のクエリに対する応答にデータサンプルに関する情報がどの程度エンコードされたか, ベイズ因子と新しいクエリの共分散から適応性の害が生じることを示す。
論文 参考訳(メタデータ) (2021-06-20T22:06:44Z) - Improved, Deterministic Smoothing for L1 Certified Robustness [119.86676998327864]
分割雑音を伴う非加法的決定論的平滑化法(dssn)を提案する。
一様加法平滑化とは対照的に、ssn認証は無作為なノイズコンポーネントを独立に必要としない。
これは、規範ベースの敵対的脅威モデルに対して決定論的「ランダム化平滑化」を提供する最初の仕事である。
論文 参考訳(メタデータ) (2021-03-17T21:49:53Z) - Beyond the Mean-Field: Structured Deep Gaussian Processes Improve the
Predictive Uncertainties [12.068153197381575]
高速収束を達成しつつ、潜在過程間の共分散を維持できる新しい変分族を提案する。
新しいアプローチの効率的な実装を提供し、それをいくつかのベンチマークデータセットに適用します。
優れた結果をもたらし、最先端の代替品よりも精度とキャリブレーションされた不確実性推定とのバランスが良くなる。
論文 参考訳(メタデータ) (2020-05-22T11:10:59Z) - Spatially Adaptive Inference with Stochastic Feature Sampling and
Interpolation [72.40827239394565]
スパースサンプリングされた場所のみの機能を計算することを提案する。
次に、効率的な手順で特徴写像を密に再構築する。
提案したネットワークは、様々なコンピュータビジョンタスクの精度を維持しながら、かなりの計算を省くために実験的に示されている。
論文 参考訳(メタデータ) (2020-03-19T15:36:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。