論文の概要: Data thinning for convolution-closed distributions
- arxiv url: http://arxiv.org/abs/2301.07276v1
- Date: Wed, 18 Jan 2023 02:47:41 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-19 17:04:51.439559
- Title: Data thinning for convolution-closed distributions
- Title(参考訳): 畳み込み畳み込み分布のためのデータスライニング
- Authors: Anna Neufeld, Ameer Dharamshi, Lucy L. Gao, and Daniela Witten
- Abstract要約: 観察を2つ以上の独立した部分に分割する新しい手法であるデータ薄型化を提案する。
教師なし学習手法の結果の検証には,データの薄化が有効であることを示す。
- 参考スコア(独自算出の注目度): 1.4174475093445233
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We propose data thinning, a new approach for splitting an observation into
two or more independent parts that sum to the original observation, and that
follow the same distribution as the original observation, up to a (known)
scaling of a parameter. This proposal is very general, and can be applied to
any observation drawn from a "convolution closed" distribution, a class that
includes the Gaussian, Poisson, negative binomial, Gamma, and binomial
distributions, among others. It is similar in spirit to -- but distinct from,
and more easily applicable than -- a recent proposal known as data fission.
Data thinning has a number of applications to model selection, evaluation, and
inference. For instance, cross-validation via data thinning provides an
attractive alternative to the "usual" approach of cross-validation via sample
splitting, especially in unsupervised settings in which the latter is not
applicable. In simulations and in an application to single-cell RNA-sequencing
data, we show that data thinning can be used to validate the results of
unsupervised learning approaches, such as k-means clustering and principal
components analysis.
- Abstract(参考訳): 本稿では,観測を元の観測値に等しい2つ以上の独立した部分に分割し,パラメータの(既知の)スケーリングまで,元の観測値と同じ分布をたどる新しい手法であるデータスライニングを提案する。
この提案は非常に一般的であり、ガウス分布、ポアソン分布、負二項分布、ガンマ分布、二項分布を含む「畳み込み閉分布」から得られる任意の観察に適用することができる。
これはスピリットに似ていますが、データフィッション(data fission)として知られる最近の提案とは別物で、より簡単に適用できます。
データシンキングには、モデル選択、評価、推論のための多くのアプリケーションがある。
例えば、データスライニングによるクロスバリデーションは、サンプル分割によるクロスバリデーションの"使用"アプローチの、特に後者が適用できない教師なしの環境では、魅力的な代替手段を提供する。
シミュレーションおよび単一セルRNAシークエンシングデータへの応用において、k平均クラスタリングや主成分分析などの教師なし学習手法の結果を検証するために、データスライニングが利用可能であることを示す。
関連論文リスト
- Theory on Score-Mismatched Diffusion Models and Zero-Shot Conditional Samplers [49.97755400231656]
本報告では,明示的な次元の一般スコアミスマッチ拡散サンプリング器を用いた最初の性能保証について述べる。
その結果, スコアミスマッチは, 目標分布とサンプリング分布の分布バイアスとなり, 目標分布とトレーニング分布の累積ミスマッチに比例することがわかった。
この結果は、測定ノイズに関係なく、任意の条件モデルに対するゼロショット条件付きサンプリングに直接適用することができる。
論文 参考訳(メタデータ) (2024-10-17T16:42:12Z) - Anomaly Detection Under Uncertainty Using Distributionally Robust
Optimization Approach [0.9217021281095907]
異常検出は、大多数のパターンに従わないデータポイントを見つける問題として定義される。
1クラスのサポートベクトルマシン(SVM)メソッドは、通常のデータポイントと異常を区別するための決定境界を見つけることを目的としている。
誤分類の確率が低い分布的に頑健な確率制約モデルを提案する。
論文 参考訳(メタデータ) (2023-12-03T06:13:22Z) - Out-Of-Domain Unlabeled Data Improves Generalization [0.7589678255312519]
本稿では,ラベルなしデータを半教師付き分類問題に組み込む新しい枠組みを提案する。
ラベルのないサンプルは一般化ギャップを狭めるために利用できることを示す。
我々は、さまざまな合成および実世界のデータセットで実施された実験を通じて、我々の主張を検証する。
論文 参考訳(メタデータ) (2023-09-29T02:00:03Z) - Approximating Counterfactual Bounds while Fusing Observational, Biased
and Randomised Data Sources [64.96984404868411]
我々は、複数の、偏見のある、観察的、介入的な研究からのデータを統合するという問題に対処する。
利用可能なデータの可能性は局所的な最大値を持たないことを示す。
次に、同じアプローチが複数のデータセットの一般的なケースにどのように対処できるかを示す。
論文 参考訳(メタデータ) (2023-07-31T11:28:24Z) - Classification of Heavy-tailed Features in High Dimensions: a
Superstatistical Approach [1.4469725791865984]
我々は2つのデータポイントの雲と一般的なセントロイドの混合の学習を特徴付ける。
得られた推定器の一般化性能について検討し、正規化の役割を解析し、分離性遷移を解析した。
論文 参考訳(メタデータ) (2023-04-06T07:53:05Z) - A Robust and Flexible EM Algorithm for Mixtures of Elliptical
Distributions with Missing Data [71.9573352891936]
本稿では、ノイズや非ガウス的なデータに対するデータ計算の欠如に対処する。
楕円分布と潜在的な欠落データを扱う特性を混合した新しいEMアルゴリズムについて検討した。
合成データの実験的結果は,提案アルゴリズムが外れ値に対して頑健であり,非ガウスデータで使用可能であることを示す。
論文 参考訳(メタデータ) (2022-01-28T10:01:37Z) - Optimal regularizations for data generation with probabilistic graphical
models [0.0]
経験的に、よく調和された正規化スキームは、推論されたモデルの品質を劇的に改善する。
生成的ペアワイドグラフィカルモデルの最大Aポストエリオーリ(MAP)推論におけるL2とL1の正規化について検討する。
論文 参考訳(メタデータ) (2021-12-02T14:45:16Z) - Sampling from Arbitrary Functions via PSD Models [55.41644538483948]
まず確率分布をモデル化し,そのモデルからサンプリングする。
これらのモデルでは, 少数の評価値を用いて, 高精度に多数の密度を近似することが可能であることが示され, それらのモデルから効果的にサンプルする簡単なアルゴリズムが提示される。
論文 参考訳(メタデータ) (2021-10-20T12:25:22Z) - Decorrelated Clustering with Data Selection Bias [55.91842043124102]
本稿では,データ選択バイアスを伴うクラスタリングのためのデコリレーション正規化K-Meansアルゴリズム(DCKM)を提案する。
DCKMアルゴリズムは,選択バイアスによって生じる予期せぬ特徴相関を除去する必要があることを示す。
論文 参考訳(メタデータ) (2020-06-29T08:55:50Z) - Good Classifiers are Abundant in the Interpolating Regime [64.72044662855612]
補間分類器間のテストエラーの完全な分布を正確に計算する手法を開発した。
テストエラーは、最悪の補間モデルのテストエラーから大きく逸脱する、小さな典型的な$varepsilon*$に集中する傾向にある。
以上の結果から,統計的学習理論における通常の解析手法は,実際に観測された優れた一般化性能を捉えるのに十分な粒度にはならない可能性が示唆された。
論文 参考訳(メタデータ) (2020-06-22T21:12:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。