論文の概要: Data fission: splitting a single data point
- arxiv url: http://arxiv.org/abs/2112.11079v9
- Date: Sun, 10 Dec 2023 19:04:32 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-13 03:43:45.047729
- Title: Data fission: splitting a single data point
- Title(参考訳): データ分裂:単一のデータポイントを分割する
- Authors: James Leiner, Boyan Duan, Larry Wasserman, Aaditya Ramdas
- Abstract要約: 本稿では、このような有限サンプルの分割を実現するための、より一般的な方法論を提案する。
我々は、データ分割、データ彫刻、p値マスキングに代わる方法として、メソッドデータフィッションと呼ぶ。
トレンドフィルタリングやその他の回帰問題に対する選択後推論など,いくつかのアプリケーションでの手法を例示する。
- 参考スコア(独自算出の注目度): 27.500860533521713
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Suppose we observe a random vector $X$ from some distribution $P$ in a known
family with unknown parameters. We ask the following question: when is it
possible to split $X$ into two parts $f(X)$ and $g(X)$ such that neither part
is sufficient to reconstruct $X$ by itself, but both together can recover $X$
fully, and the joint distribution of $(f(X),g(X))$ is tractable? As one
example, if $X=(X_1,\dots,X_n)$ and $P$ is a product distribution, then for any
$m<n$, we can split the sample to define $f(X)=(X_1,\dots,X_m)$ and
$g(X)=(X_{m+1},\dots,X_n)$. Rasines and Young (2022) offers an alternative
approach that uses additive Gaussian noise -- this enables post-selection
inference in finite samples for Gaussian distributed data and asymptotically
when errors are non-Gaussian. In this paper, we offer a more general
methodology for achieving such a split in finite samples by borrowing ideas
from Bayesian inference to yield a (frequentist) solution that can be viewed as
a continuous analog of data splitting. We call our method data fission, as an
alternative to data splitting, data carving and p-value masking. We exemplify
the method on a few prototypical applications, such as post-selection inference
for trend filtering and other regression problems.
- Abstract(参考訳): 未知のパラメータを持つ既知の族において、ある分布からランダムベクトル $x$ を観測すると仮定する。
いずれの場合、$x$を2つの部分に分けて$f(x)$と$g(x)$に分割することは可能で、どちらの部分も$x$をそれ自体で再構築するには十分ではありませんが、どちらも$x$を完全に回収することができ、$(f(x),g(x))$のジョイントディストリビューションは扱いやすいのでしょうか?
例えば、$X=(X_1,\dots,X_n)$と$P$が積分布であれば、任意の$m<n$に対して、サンプルを$f(X)=(X_1,\dots,X_m)$と$g(X)=(X_{m+1},\dots,X_n)$に分割することができる。
rasines and young (2022)は、付加ガウスノイズを使用する別のアプローチを提供する -- これはガウス分散データに対する有限サンプルでのポスト選択推論を可能にし、エラーがガウス的でない場合の漸近的推論を可能にする。
本稿では,ベイズ推論からアイデアを借用して,データ分割の連続的類似物と見なすことのできる(相対論的)解を得る,有限サンプルの分割を実現するためのより一般的な手法を提案する。
我々は、データ分割、データ彫刻、p値マスキングに代わる方法として、メソッドデータフィッションと呼ぶ。
トレンドフィルタリングやその他の回帰問題に対するポストセレクション推論など,いくつかのプロトタイプアプリケーション上での手法を例示する。
関連論文リスト
- Dimension-free Private Mean Estimation for Anisotropic Distributions [55.86374912608193]
以前の$mathRd上の分布に関する民間推定者は、次元性の呪いに苦しむ。
本稿では,サンプルの複雑さが次元依存性を改善したアルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-11-01T17:59:53Z) - Statistical-Computational Trade-offs for Density Estimation [60.81548752871115]
幅広い種類のデータ構造に対して、それらの境界は著しく改善されないことを示す。
これは密度推定のための新しい統計計算トレードオフである。
論文 参考訳(メタデータ) (2024-10-30T15:03:33Z) - Inverse Entropic Optimal Transport Solves Semi-supervised Learning via Data Likelihood Maximization [65.8915778873691]
条件分布は機械学習の中心的な問題です
ペアデータとペアデータの両方を統合する新しい学習パラダイムを提案する。
我々のアプローチはまた、興味深いことに逆エントロピー最適輸送(OT)と結びついている。
論文 参考訳(メタデータ) (2024-10-03T16:12:59Z) - Debiasing and a local analysis for population clustering using
semidefinite programming [1.9761774213809036]
サブガウス分布の混合から引き出された小さいデータサンプルを$n$で分割する問題を考察する。
この研究は、起源の個体数に応じた集団化の応用によって動機付けられている。
論文 参考訳(メタデータ) (2024-01-16T03:14:24Z) - Testing with Non-identically Distributed Samples [20.74768558932617]
本研究では,サンプルが独立に分布するが同一に分布しない設定に対して,サブ線形サンプル特性試験と推定が適用範囲について検討する。
それぞれのディストリビューションから$Theta(k/varepsilon2)$サンプルをサンプリングしても、$textbfp_mathrmavg$は、テレビ距離で$textbfp_mathrmavg$をエラー$varepsilon$内で学習するのに十分である。
論文 参考訳(メタデータ) (2023-11-19T01:25:50Z) - Replicable Clustering [57.19013971737493]
我々は,統計学的な$k$-medians,統計学的な$k$-means,統計学的な$k$-centers問題のアルゴリズムをブラックボックス方式で近似ルーチンを用いて提案する。
理論的結果を検証するブラックボックスとしてsklearnの$k$-means++実装を用いた2次元合成分布の実験も行っている。
論文 参考訳(メタデータ) (2023-02-20T23:29:43Z) - Tight Bounds on the Hardness of Learning Simple Nonparametric Mixtures [9.053430799456587]
有限混合系における非パラメトリック分布の学習問題について検討する。
このようなモデルにおける成分分布を学習するために、サンプルの複雑さに厳密な境界を定めている。
論文 参考訳(メタデータ) (2022-03-28T23:53:48Z) - Locally differentially private estimation of nonlinear functionals of
discrete distributions [9.028773906859541]
離散分布の非線形関数を局所的差分プライバシーの文脈で推定する問題について検討する。
alpha$-locally differentially private (LDP) サンプルのみが公開されているが、'local' という用語は、各$z_i$が1つの個々の$x_i$を使って生成されることを意味する。
パワー和関数 $F_gamma = sum_k=1K p_kgamma$, $gamma > 0$ を $K, n の関数として推定する二次リスクの挙動を記述する。
論文 参考訳(メタデータ) (2021-07-08T16:11:10Z) - Inductive Mutual Information Estimation: A Convex Maximum-Entropy Copula
Approach [0.5330240017302619]
我々は2つの順序ベクトルの相互情報をx$とy$で推定する新しい推定器を提案する。
我々は、制約が実現可能である限り、この問題は一意な解を認め、指数関数族であり、凸最適化問題を解くことによって学習できることを証明する。
提案手法は,偽試料のコプラのエントロピーを最大化することにより,ganのモード崩壊の軽減に有用であることを示す。
論文 参考訳(メタデータ) (2021-02-25T21:21:40Z) - A Randomized Algorithm to Reduce the Support of Discrete Measures [79.55586575988292]
離散確率測度が$N$原子と$n$実数値関数の集合で成り立つと、元の$N$原子の$n+1$の部分集合で支えられる確率測度が存在する。
我々は、負の円錐によるバリセンターの簡単な幾何学的特徴付けを与え、この新しい測度を「グリード幾何学的サンプリング」によって計算するランダム化アルゴリズムを導出する。
次に、その性質を研究し、それを合成および実世界のデータにベンチマークして、$Ngg n$ regimeにおいて非常に有益であることを示す。
論文 参考訳(メタデータ) (2020-06-02T16:38:36Z) - Locally Private Hypothesis Selection [96.06118559817057]
我々は、$mathcalQ$から$p$までの総変動距離が最良の分布に匹敵する分布を出力する。
局所的な差分プライバシーの制約は、コストの急激な増加を引き起こすことを示す。
提案アルゴリズムは,従来手法のラウンド複雑性を指数関数的に改善する。
論文 参考訳(メタデータ) (2020-02-21T18:30:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。