論文の概要: Data thinning for convolution-closed distributions
- arxiv url: http://arxiv.org/abs/2301.07276v3
- Date: Mon, 20 Nov 2023 23:57:48 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-23 05:38:27.454947
- Title: Data thinning for convolution-closed distributions
- Title(参考訳): 畳み込み畳み込み分布のためのデータスライニング
- Authors: Anna Neufeld, Ameer Dharamshi, Lucy L. Gao, and Daniela Witten
- Abstract要約: 本稿では,観測を2つ以上の独立した部分に分割する手法であるデータ薄型化を提案する。
教師なし学習手法の結果の検証には,データの薄化が有効であることを示す。
- 参考スコア(独自算出の注目度): 2.299914829977005
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We propose data thinning, an approach for splitting an observation into two
or more independent parts that sum to the original observation, and that follow
the same distribution as the original observation, up to a (known) scaling of a
parameter. This very general proposal is applicable to any convolution-closed
distribution, a class that includes the Gaussian, Poisson, negative binomial,
gamma, and binomial distributions, among others. Data thinning has a number of
applications to model selection, evaluation, and inference. For instance,
cross-validation via data thinning provides an attractive alternative to the
usual approach of cross-validation via sample splitting, especially in settings
in which the latter is not applicable. In simulations and in an application to
single-cell RNA-sequencing data, we show that data thinning can be used to
validate the results of unsupervised learning approaches, such as k-means
clustering and principal components analysis, for which traditional sample
splitting is unattractive or unavailable.
- Abstract(参考訳): 本稿では,観測を元の観測値に等しい2つ以上の独立した部分に分割する手法であるデータスライニングを提案し,パラメータの(既知の)スケーリングまで,元の観測値と同じ分布をたどる。
この非常に一般的な提案は、ガウス分布、ポアソン分布、負二項分布、ガンマ分布、二項分布などを含む任意の畳み込み閉分布に適用できる。
データシンキングには、モデル選択、評価、推論のための多くのアプリケーションがある。
例えば、データスライニングによるクロスバリデーションは、特に後者が適用できない環境では、サンプル分割によるクロスバリデーションの一般的なアプローチに代わる魅力的な代替手段となる。
シミュレーションおよび単一セルRNAシークエンシングデータへの応用において、k平均クラスタリングや主成分分析などの教師なし学習手法の結果を、従来のサンプル分割が難解であるか、利用不能であることを示す。
関連論文リスト
- Theory on Score-Mismatched Diffusion Models and Zero-Shot Conditional Samplers [49.97755400231656]
本報告では,明示的な次元の一般スコアミスマッチ拡散サンプリング器を用いた最初の性能保証について述べる。
その結果, スコアミスマッチは, 目標分布とサンプリング分布の分布バイアスとなり, 目標分布とトレーニング分布の累積ミスマッチに比例することがわかった。
この結果は、測定ノイズに関係なく、任意の条件モデルに対するゼロショット条件付きサンプリングに直接適用することができる。
論文 参考訳(メタデータ) (2024-10-17T16:42:12Z) - Anomaly Detection Under Uncertainty Using Distributionally Robust
Optimization Approach [0.9217021281095907]
異常検出は、大多数のパターンに従わないデータポイントを見つける問題として定義される。
1クラスのサポートベクトルマシン(SVM)メソッドは、通常のデータポイントと異常を区別するための決定境界を見つけることを目的としている。
誤分類の確率が低い分布的に頑健な確率制約モデルを提案する。
論文 参考訳(メタデータ) (2023-12-03T06:13:22Z) - Out-Of-Domain Unlabeled Data Improves Generalization [0.7589678255312519]
本稿では,ラベルなしデータを半教師付き分類問題に組み込む新しい枠組みを提案する。
ラベルのないサンプルは一般化ギャップを狭めるために利用できることを示す。
我々は、さまざまな合成および実世界のデータセットで実施された実験を通じて、我々の主張を検証する。
論文 参考訳(メタデータ) (2023-09-29T02:00:03Z) - Approximating Counterfactual Bounds while Fusing Observational, Biased
and Randomised Data Sources [64.96984404868411]
我々は、複数の、偏見のある、観察的、介入的な研究からのデータを統合するという問題に対処する。
利用可能なデータの可能性は局所的な最大値を持たないことを示す。
次に、同じアプローチが複数のデータセットの一般的なケースにどのように対処できるかを示す。
論文 参考訳(メタデータ) (2023-07-31T11:28:24Z) - Classification of Heavy-tailed Features in High Dimensions: a
Superstatistical Approach [1.4469725791865984]
我々は2つのデータポイントの雲と一般的なセントロイドの混合の学習を特徴付ける。
得られた推定器の一般化性能について検討し、正規化の役割を解析し、分離性遷移を解析した。
論文 参考訳(メタデータ) (2023-04-06T07:53:05Z) - A Robust and Flexible EM Algorithm for Mixtures of Elliptical
Distributions with Missing Data [71.9573352891936]
本稿では、ノイズや非ガウス的なデータに対するデータ計算の欠如に対処する。
楕円分布と潜在的な欠落データを扱う特性を混合した新しいEMアルゴリズムについて検討した。
合成データの実験的結果は,提案アルゴリズムが外れ値に対して頑健であり,非ガウスデータで使用可能であることを示す。
論文 参考訳(メタデータ) (2022-01-28T10:01:37Z) - Optimal regularizations for data generation with probabilistic graphical
models [0.0]
経験的に、よく調和された正規化スキームは、推論されたモデルの品質を劇的に改善する。
生成的ペアワイドグラフィカルモデルの最大Aポストエリオーリ(MAP)推論におけるL2とL1の正規化について検討する。
論文 参考訳(メタデータ) (2021-12-02T14:45:16Z) - Sampling from Arbitrary Functions via PSD Models [55.41644538483948]
まず確率分布をモデル化し,そのモデルからサンプリングする。
これらのモデルでは, 少数の評価値を用いて, 高精度に多数の密度を近似することが可能であることが示され, それらのモデルから効果的にサンプルする簡単なアルゴリズムが提示される。
論文 参考訳(メタデータ) (2021-10-20T12:25:22Z) - Decorrelated Clustering with Data Selection Bias [55.91842043124102]
本稿では,データ選択バイアスを伴うクラスタリングのためのデコリレーション正規化K-Meansアルゴリズム(DCKM)を提案する。
DCKMアルゴリズムは,選択バイアスによって生じる予期せぬ特徴相関を除去する必要があることを示す。
論文 参考訳(メタデータ) (2020-06-29T08:55:50Z) - Good Classifiers are Abundant in the Interpolating Regime [64.72044662855612]
補間分類器間のテストエラーの完全な分布を正確に計算する手法を開発した。
テストエラーは、最悪の補間モデルのテストエラーから大きく逸脱する、小さな典型的な$varepsilon*$に集中する傾向にある。
以上の結果から,統計的学習理論における通常の解析手法は,実際に観測された優れた一般化性能を捉えるのに十分な粒度にはならない可能性が示唆された。
論文 参考訳(メタデータ) (2020-06-22T21:12:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。