Fugu-MT 論文翻訳(概要): Data fission: splitting a single data point

論文の概要: Data fission: splitting a single data point

arxiv url: http://arxiv.org/abs/2112.11079v9
Date: Sun, 10 Dec 2023 19:04:32 GMT
ステータス: 翻訳完了
システム内更新日: 2023-12-13 03:43:45.047729
Title: Data fission: splitting a single data point
Title（参考訳）: データ分裂:単一のデータポイントを分割する
Authors: James Leiner, Boyan Duan, Larry Wasserman, Aaditya Ramdas
Abstract要約: 本稿では、このような有限サンプルの分割を実現するための、より一般的な方法論を提案する。我々は、データ分割、データ彫刻、p値マスキングに代わる方法として、メソッドデータフィッションと呼ぶ。トレンドフィルタリングやその他の回帰問題に対する選択後推論など,いくつかのアプリケーションでの手法を例示する。
参考スコア（独自算出の注目度）: 27.500860533521713
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Suppose we observe a random vector $X$ from some distribution $P$ in a known family with unknown parameters. We ask the following question: when is it possible to split $X$ into two parts $f(X)$ and $g(X)$ such that neither part is sufficient to reconstruct $X$ by itself, but both together can recover $X$ fully, and the joint distribution of $(f(X),g(X))$ is tractable? As one example, if $X=(X_1,\dots,X_n)$ and $P$ is a product distribution, then for any $m<n$, we can split the sample to define $f(X)=(X_1,\dots,X_m)$ and $g(X)=(X_{m+1},\dots,X_n)$. Rasines and Young (2022) offers an alternative approach that uses additive Gaussian noise -- this enables post-selection inference in finite samples for Gaussian distributed data and asymptotically when errors are non-Gaussian. In this paper, we offer a more general methodology for achieving such a split in finite samples by borrowing ideas from Bayesian inference to yield a (frequentist) solution that can be viewed as a continuous analog of data splitting. We call our method data fission, as an alternative to data splitting, data carving and p-value masking. We exemplify the method on a few prototypical applications, such as post-selection inference for trend filtering and other regression problems.
Abstract（参考訳）: 未知のパラメータを持つ既知の族において、ある分布からランダムベクトル $x$ を観測すると仮定する。いずれの場合、$x$を2つの部分に分けて$f(x)$と$g(x)$に分割することは可能で、どちらの部分も$x$をそれ自体で再構築するには十分ではありませんが、どちらも$x$を完全に回収することができ、$(f(x),g(x))$のジョイントディストリビューションは扱いやすいのでしょうか? 例えば、$X=(X_1,\dots,X_n)$と$P$が積分布であれば、任意の$m<n$に対して、サンプルを$f(X)=(X_1,\dots,X_m)$と$g(X)=(X_{m+1},\dots,X_n)$に分割することができる。 rasines and young (2022)は、付加ガウスノイズを使用する別のアプローチを提供する -- これはガウス分散データに対する有限サンプルでのポスト選択推論を可能にし、エラーがガウス的でない場合の漸近的推論を可能にする。本稿では,ベイズ推論からアイデアを借用して,データ分割の連続的類似物と見なすことのできる(相対論的)解を得る,有限サンプルの分割を実現するためのより一般的な手法を提案する。我々は、データ分割、データ彫刻、p値マスキングに代わる方法として、メソッドデータフィッションと呼ぶ。トレンドフィルタリングやその他の回帰問題に対するポストセレクション推論など,いくつかのプロトタイプアプリケーション上での手法を例示する。

関連論文リスト

Sample and Map from a Single Convex Potential: Generation using Conjugate Moment Measures [22.7776491836979]
生成的モデリングの一般的なアプローチは、モデルフィッティングを2つのブロックに分割することである。サンプリングとマッピングを行うこの代替ルートについて検討する。任意の測度 $mathbbRd$ に対して $rho=nabla u,sharp,e-u$ というユニークなポテンシャル $u$rho が存在するという結果である。
論文参考訳（メタデータ） (2025-03-13T17:28:44Z)
Computational bottlenecks for denoising diffusions [8.05574597775852]
拡散の認知は、プロセス$(hatboldsymbol x_t:tge 0)$ in $mathbb Rd$を構成することによって、確率分布$mu$ in $mathbbRd$からサンプルをサンプリングする一般的な戦略を提供する。我々は,任意の時間計算可能なドリフトを,スコアマッチングの目的を最小限に変化させる方法で修正できることを示す。
論文参考訳（メタデータ） (2025-03-11T04:21:01Z)
Outsourced diffusion sampling: Efficient posterior inference in latent spaces of generative models [65.71506381302815]
本稿では、$p(mathbfxmidmathbfy) propto p_theta(mathbfx)$ という形式の後続分布からサンプリングするコストを償却する。多くのモデルと関心の制約に対して、ノイズ空間の後方はデータ空間の後方よりも滑らかであり、そのような償却推論に対してより快適である。
論文参考訳（メタデータ） (2025-02-10T19:49:54Z)
Characterizing the Distinguishability of Product Distributions through Multicalibration [9.695176684285832]
我々は、$X_0otimes k$と$X_1otimes k$を効率的に区別するために必要となるサンプル数$k$の新しい厳密な特徴を証明した。私たちのフレームワークは、Halevi と Rabin (TCC 2008) と Geier (TCC 2022) の結果を導出するのに使用できます。
論文参考訳（メタデータ） (2024-12-04T18:56:19Z)
Dimension-free Private Mean Estimation for Anisotropic Distributions [55.86374912608193]
以前の$mathRd上の分布に関する民間推定者は、次元性の呪いに苦しむ。本稿では,サンプルの複雑さが次元依存性を改善したアルゴリズムを提案する。
論文参考訳（メタデータ） (2024-11-01T17:59:53Z)
Statistical-Computational Trade-offs for Density Estimation [60.81548752871115]
幅広い種類のデータ構造に対して、それらの境界は著しく改善されないことを示す。これは密度推定のための新しい統計計算トレードオフである。
論文参考訳（メタデータ） (2024-10-30T15:03:33Z)
Inverse Entropic Optimal Transport Solves Semi-supervised Learning via Data Likelihood Maximization [65.8915778873691]
条件分布は機械学習の中心的な問題ですペアデータとペアデータの両方を統合する新しい学習パラダイムを提案する。我々のアプローチはまた、興味深いことに逆エントロピー最適輸送(OT)と結びついている。
論文参考訳（メタデータ） (2024-10-03T16:12:59Z)
Debiasing and a local analysis for population clustering using semidefinite programming [1.9761774213809036]
サブガウス分布の混合から引き出された小さいデータサンプルを$n$で分割する問題を考察する。この研究は、起源の個体数に応じた集団化の応用によって動機付けられている。
論文参考訳（メタデータ） (2024-01-16T03:14:24Z)
Testing with Non-identically Distributed Samples [20.74768558932617]
本研究では,サンプルが独立に分布するが同一に分布しない設定に対して,サブ線形サンプル特性試験と推定が適用範囲について検討する。それぞれのディストリビューションから$Theta(k/varepsilon2)$サンプルをサンプリングしても、$textbfp_mathrmavg$は、テレビ距離で$textbfp_mathrmavg$をエラー$varepsilon$内で学習するのに十分である。
論文参考訳（メタデータ） (2023-11-19T01:25:50Z)
Distribution-Independent Regression for Generalized Linear Models with Oblivious Corruptions [49.69852011882769]
一般化線形モデル (GLMs) の重畳雑音の存在下での回帰問題に対する最初のアルゴリズムを示す。本稿では,この問題に最も一般的な分布非依存設定で対処するアルゴリズムを提案する。これは、サンプルの半分以上を任意に破損させる難聴ノイズを持つGLMレグレッションに対する最初の新しいアルゴリズムによる結果である。
論文参考訳（メタデータ） (2023-09-20T21:41:59Z)
Replicable Clustering [57.19013971737493]
我々は,統計学的な$k$-medians,統計学的な$k$-means,統計学的な$k$-centers問題のアルゴリズムをブラックボックス方式で近似ルーチンを用いて提案する。理論的結果を検証するブラックボックスとしてsklearnの$k$-means++実装を用いた2次元合成分布の実験も行っている。
論文参考訳（メタデータ） (2023-02-20T23:29:43Z)
Tight Bounds on the Hardness of Learning Simple Nonparametric Mixtures [9.053430799456587]
有限混合系における非パラメトリック分布の学習問題について検討する。このようなモデルにおける成分分布を学習するために、サンプルの複雑さに厳密な境界を定めている。
論文参考訳（メタデータ） (2022-03-28T23:53:48Z)
Locally differentially private estimation of nonlinear functionals of discrete distributions [9.028773906859541]
離散分布の非線形関数を局所的差分プライバシーの文脈で推定する問題について検討する。 alpha$-locally differentially private (LDP) サンプルのみが公開されているが、'local' という用語は、各$z_i$が1つの個々の$x_i$を使って生成されることを意味する。パワー和関数 $F_gamma = sum_k=1K p_kgamma$, $gamma > 0$ を $K, n の関数として推定する二次リスクの挙動を記述する。
論文参考訳（メタデータ） (2021-07-08T16:11:10Z)
Inductive Mutual Information Estimation: A Convex Maximum-Entropy Copula Approach [0.5330240017302619]
我々は2つの順序ベクトルの相互情報をx$とy$で推定する新しい推定器を提案する。我々は、制約が実現可能である限り、この問題は一意な解を認め、指数関数族であり、凸最適化問題を解くことによって学習できることを証明する。提案手法は,偽試料のコプラのエントロピーを最大化することにより,ganのモード崩壊の軽減に有用であることを示す。
論文参考訳（メタデータ） (2021-02-25T21:21:40Z)
A Randomized Algorithm to Reduce the Support of Discrete Measures [79.55586575988292]
離散確率測度が$N$原子と$n$実数値関数の集合で成り立つと、元の$N$原子の$n+1$の部分集合で支えられる確率測度が存在する。我々は、負の円錐によるバリセンターの簡単な幾何学的特徴付けを与え、この新しい測度を「グリード幾何学的サンプリング」によって計算するランダム化アルゴリズムを導出する。次に、その性質を研究し、それを合成および実世界のデータにベンチマークして、$Ngg n$ regimeにおいて非常に有益であることを示す。
論文参考訳（メタデータ） (2020-06-02T16:38:36Z)
Locally Private Hypothesis Selection [96.06118559817057]
我々は、$mathcalQ$から$p$までの総変動距離が最良の分布に匹敵する分布を出力する。局所的な差分プライバシーの制約は、コストの急激な増加を引き起こすことを示す。提案アルゴリズムは,従来手法のラウンド複雑性を指数関数的に改善する。
論文参考訳（メタデータ） (2020-02-21T18:30:48Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。