論文の概要: A parametric distribution for exact post-selection inference with data
carving
- arxiv url: http://arxiv.org/abs/2305.12581v1
- Date: Sun, 21 May 2023 22:29:55 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-23 19:25:42.425544
- Title: A parametric distribution for exact post-selection inference with data
carving
- Title(参考訳): データ彫刻による正確な選択後推測のためのパラメトリック分布
- Authors: Erik Drysdale
- Abstract要約: ポスト選択推論(PoSI)は、仮説の生成とテストで同じデータソースを使用するとき、有効な信頼区間とp値を得る技術である。
データ彫刻はPoSIの変種であり、保持されたデータの一部を推論時に仮説生成データと組み合わせる。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Post-selection inference (PoSI) is a statistical technique for obtaining
valid confidence intervals and p-values when hypothesis generation and testing
use the same source of data. PoSI can be used on a range of popular algorithms
including the Lasso. Data carving is a variant of PoSI in which a portion of
held out data is combined with the hypothesis generating data at inference
time. While data carving has attractive theoretical and empirical properties,
existing approaches rely on computationally expensive MCMC methods to carry out
inference. This paper's key contribution is to show that pivotal quantities can
be constructed for the data carving procedure based on a known parametric
distribution. Specifically, when the selection event is characterized by a set
of polyhedral constraints on a Gaussian response, data carving will follow the
sum of a normal and a truncated normal (SNTN), which is a variant of the
truncated bivariate normal distribution. The main impact of this insight is
that obtaining exact inference for data carving can be made computationally
trivial, since the CDF of the SNTN distribution can be found using the CDF of a
standard bivariate normal. A python package sntn has been released to further
facilitate the adoption of data carving with PoSI.
- Abstract(参考訳): ポスト選択推論(PoSI)は、仮説の生成とテストが同じデータソースを使用するときに有効な信頼区間とp値を得る統計手法である。
PoSIはLassoなど,さまざまな一般的なアルゴリズムで使用することができる。
データ彫りはposiの変種であり、保持されたデータの一部と推測時にデータを生成する仮説とを組み合わせる。
データ彫刻は魅力的な理論的および経験的特性を持つが、既存の手法は推論を行うのに計算に高価なMCMC法に依存している。
この論文の重要な貢献は、既知のパラメトリック分布に基づくデータ彫刻手順のために重要な量を構築することができることを示すことである。
具体的には、選択イベントがガウス応答に対する多面体制約の集合によって特徴づけられる場合、データの彫刻は、切断された二変量正規分布の変種である正規正規値と切断正規値(sntn)の和に従う。
この知見の主な影響は、SNTN分布のCDFは標準的な二変量正規のCDFを用いて見つけることができるので、正確なデータ彫刻の推測を計算的に簡単にすることができることである。
pythonパッケージのsntnがリリースされ、PoSIによるデータ彫刻の採用をさらに促進した。
関連論文リスト
- Inference in Randomized Least Squares and PCA via Normality of Quadratic Forms [19.616162116973637]
ランダムなスケッチや投影による統計的推測のための統一手法を開発した。
この手法は固定データセット(すなわちデータ条件)に適用され、ランダム性だけがランダム化アルゴリズムによるものである。
論文 参考訳(メタデータ) (2024-04-01T04:35:44Z) - Bayesian Renormalization [68.8204255655161]
ベイズ統計的推論にインスパイアされた再正規化に対する完全情報理論的アプローチを提案する。
ベイズ再正規化の主な洞察は、フィッシャー計量が創発的RGスケールの役割を担う相関長を定義することである。
本研究では,ベイズ正規化方式が既存のデータ圧縮法やデータ生成法とどのように関係しているかを考察する。
論文 参考訳(メタデータ) (2023-05-17T18:00:28Z) - On Calibrating Diffusion Probabilistic Models [78.75538484265292]
拡散確率モデル(DPM)は様々な生成タスクにおいて有望な結果を得た。
そこで本研究では,任意の事前学習DPMを校正する簡単な方法を提案する。
キャリブレーション法は1回だけ行い, 得られたモデルをサンプリングに繰り返し使用することができる。
論文 参考訳(メタデータ) (2023-02-21T14:14:40Z) - Data thinning for convolution-closed distributions [2.299914829977005]
本稿では,観測を2つ以上の独立した部分に分割する手法であるデータ薄型化を提案する。
教師なし学習手法の結果の検証には,データの薄化が有効であることを示す。
論文 参考訳(メタデータ) (2023-01-18T02:47:41Z) - FaDIn: Fast Discretized Inference for Hawkes Processes with General
Parametric Kernels [82.53569355337586]
この研究は、有限なサポートを持つ一般パラメトリックカーネルを用いた時間点プロセス推論の効率的な解を提供する。
脳磁図(MEG)により記録された脳信号からの刺激誘発パターンの発生をモデル化し,その有効性を評価する。
その結果,提案手法により,最先端技術よりもパターン遅延の推定精度が向上することが示唆された。
論文 参考訳(メタデータ) (2022-10-10T12:35:02Z) - Learning from aggregated data with a maximum entropy model [73.63512438583375]
我々は,観測されていない特徴分布を最大エントロピー仮説で近似することにより,ロジスティック回帰と類似した新しいモデルが,集約データからのみ学習されることを示す。
我々は、この方法で学習したモデルが、完全な非凝集データでトレーニングされたロジスティックモデルに匹敵するパフォーマンスを達成することができるという、いくつかの公開データセットに関する実証的な証拠を提示する。
論文 参考訳(メタデータ) (2022-10-05T09:17:27Z) - A Robust and Flexible EM Algorithm for Mixtures of Elliptical
Distributions with Missing Data [71.9573352891936]
本稿では、ノイズや非ガウス的なデータに対するデータ計算の欠如に対処する。
楕円分布と潜在的な欠落データを扱う特性を混合した新しいEMアルゴリズムについて検討した。
合成データの実験的結果は,提案アルゴリズムが外れ値に対して頑健であり,非ガウスデータで使用可能であることを示す。
論文 参考訳(メタデータ) (2022-01-28T10:01:37Z) - ECOD: Unsupervised Outlier Detection Using Empirical Cumulative
Distribution Functions [12.798256312657136]
外乱検出(英: Outlier detection)とは、一般的なデータ分布から逸脱するデータ点の同定である。
本稿では,ECOD(Empirical-Cumulative-Distribution-based Outlier Detection)について述べる。
論文 参考訳(メタデータ) (2022-01-02T17:28:35Z) - Optimal regularizations for data generation with probabilistic graphical
models [0.0]
経験的に、よく調和された正規化スキームは、推論されたモデルの品質を劇的に改善する。
生成的ペアワイドグラフィカルモデルの最大Aポストエリオーリ(MAP)推論におけるL2とL1の正規化について検討する。
論文 参考訳(メタデータ) (2021-12-02T14:45:16Z) - The UU-test for Statistical Modeling of Unimodal Data [0.20305676256390928]
一次元データセットの一様性を決定するUUテスト(Unimodal Uniform test)手法を提案する。
このアプローチのユニークな特徴は、一様性の場合、一様混合モデルという形でデータの統計モデルも提供することである。
論文 参考訳(メタデータ) (2020-08-28T08:34:28Z) - Asymptotic Analysis of an Ensemble of Randomly Projected Linear
Discriminants [94.46276668068327]
[1]では、ランダムに投影された線形判別式のアンサンブルを用いてデータセットを分類する。
我々は,計算コストのかかるクロスバリデーション推定器の代替として,誤分類確率の一貫した推定器を開発する。
また、実データと合成データの両方で投影次元を調整するための推定器の使用を実証する。
論文 参考訳(メタデータ) (2020-04-17T12:47:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。