Fugu-MT 論文翻訳(概要): Data thinning for convolution-closed distributions

論文の概要: Data thinning for convolution-closed distributions

arxiv url: http://arxiv.org/abs/2301.07276v3
Date: Mon, 20 Nov 2023 23:57:48 GMT
ステータス: 翻訳完了
システム内更新日: 2023-11-23 05:38:27.454947
Title: Data thinning for convolution-closed distributions
Title（参考訳）: 畳み込み畳み込み分布のためのデータスライニング
Authors: Anna Neufeld, Ameer Dharamshi, Lucy L. Gao, and Daniela Witten
Abstract要約: 本稿では,観測を2つ以上の独立した部分に分割する手法であるデータ薄型化を提案する。教師なし学習手法の結果の検証には,データの薄化が有効であることを示す。
参考スコア（独自算出の注目度）: 2.299914829977005
License: http://creativecommons.org/licenses/by/4.0/
Abstract: We propose data thinning, an approach for splitting an observation into two or more independent parts that sum to the original observation, and that follow the same distribution as the original observation, up to a (known) scaling of a parameter. This very general proposal is applicable to any convolution-closed distribution, a class that includes the Gaussian, Poisson, negative binomial, gamma, and binomial distributions, among others. Data thinning has a number of applications to model selection, evaluation, and inference. For instance, cross-validation via data thinning provides an attractive alternative to the usual approach of cross-validation via sample splitting, especially in settings in which the latter is not applicable. In simulations and in an application to single-cell RNA-sequencing data, we show that data thinning can be used to validate the results of unsupervised learning approaches, such as k-means clustering and principal components analysis, for which traditional sample splitting is unattractive or unavailable.
Abstract（参考訳）: 本稿では,観測を元の観測値に等しい2つ以上の独立した部分に分割する手法であるデータスライニングを提案し,パラメータの(既知の)スケーリングまで,元の観測値と同じ分布をたどる。この非常に一般的な提案は、ガウス分布、ポアソン分布、負二項分布、ガンマ分布、二項分布などを含む任意の畳み込み閉分布に適用できる。データシンキングには、モデル選択、評価、推論のための多くのアプリケーションがある。例えば、データスライニングによるクロスバリデーションは、特に後者が適用できない環境では、サンプル分割によるクロスバリデーションの一般的なアプローチに代わる魅力的な代替手段となる。シミュレーションおよび単一セルRNAシークエンシングデータへの応用において、k平均クラスタリングや主成分分析などの教師なし学習手法の結果を、従来のサンプル分割が難解であるか、利用不能であることを示す。

関連論文リスト

Mixture models for data with unknown distributions [0.6345523830122168]
実数値多変量データに対する混合モデルの幅広いクラスを記述・解析する。データの分割と分布の推定の両方を返却し、クラスタリングと密度推定を各クラスタ内で同時に効果的に行う。提案手法を図解的アプリケーション選択で実証し,両アルゴリズムをコードで実装する。
論文参考訳（メタデータ） (2025-02-26T22:42:40Z)
Theory on Score-Mismatched Diffusion Models and Zero-Shot Conditional Samplers [49.97755400231656]
本報告では,明示的な次元の一般スコアミスマッチ拡散サンプリング器を用いた最初の性能保証について述べる。その結果, スコアミスマッチは, 目標分布とサンプリング分布の分布バイアスとなり, 目標分布とトレーニング分布の累積ミスマッチに比例することがわかった。この結果は、測定ノイズに関係なく、任意の条件モデルに対するゼロショット条件付きサンプリングに直接適用することができる。
論文参考訳（メタデータ） (2024-10-17T16:42:12Z)
Generative Assignment Flows for Representing and Learning Joint Distributions of Discrete Data [2.6499018693213316]
離散確率変数の結合確率分布の表現のための新しい生成モデルを提案する。このアプローチでは、分解分布の統計部分多様体上のランダム化代入フローによる測度輸送を用いる。
論文参考訳（メタデータ） (2024-06-06T21:58:33Z)
Anomaly Detection Under Uncertainty Using Distributionally Robust Optimization Approach [0.9217021281095907]
異常検出は、大多数のパターンに従わないデータポイントを見つける問題として定義される。 1クラスのサポートベクトルマシン(SVM)メソッドは、通常のデータポイントと異常を区別するための決定境界を見つけることを目的としている。誤分類の確率が低い分布的に頑健な確率制約モデルを提案する。
論文参考訳（メタデータ） (2023-12-03T06:13:22Z)
Out-Of-Domain Unlabeled Data Improves Generalization [0.7589678255312519]
本稿では,ラベルなしデータを半教師付き分類問題に組み込む新しい枠組みを提案する。ラベルのないサンプルは一般化ギャップを狭めるために利用できることを示す。我々は、さまざまな合成および実世界のデータセットで実施された実験を通じて、我々の主張を検証する。
論文参考訳（メタデータ） (2023-09-29T02:00:03Z)
Approximating Counterfactual Bounds while Fusing Observational, Biased and Randomised Data Sources [64.96984404868411]
我々は、複数の、偏見のある、観察的、介入的な研究からのデータを統合するという問題に対処する。利用可能なデータの可能性は局所的な最大値を持たないことを示す。次に、同じアプローチが複数のデータセットの一般的なケースにどのように対処できるかを示す。
論文参考訳（メタデータ） (2023-07-31T11:28:24Z)
Classification of Heavy-tailed Features in High Dimensions: a Superstatistical Approach [1.4469725791865984]
我々は2つのデータポイントの雲と一般的なセントロイドの混合の学習を特徴付ける。得られた推定器の一般化性能について検討し、正規化の役割を解析し、分離性遷移を解析した。
論文参考訳（メタデータ） (2023-04-06T07:53:05Z)
Rethinking Collaborative Metric Learning: Toward an Efficient Alternative without Negative Sampling [156.7248383178991]
コラボレーティブ・メトリック・ラーニング(CML)パラダイムはレコメンデーション・システム(RS)分野に広く関心を集めている。負のサンプリングが一般化誤差のバイアス付き推定に繋がることがわかった。そこで我々は,SFCML (textitSampling-Free Collaborative Metric Learning) という名前のCMLに対して,負のサンプリングを伴わない効率的な手法を提案する。
論文参考訳（メタデータ） (2022-06-23T08:50:22Z)
A Robust and Flexible EM Algorithm for Mixtures of Elliptical Distributions with Missing Data [71.9573352891936]
本稿では、ノイズや非ガウス的なデータに対するデータ計算の欠如に対処する。楕円分布と潜在的な欠落データを扱う特性を混合した新しいEMアルゴリズムについて検討した。合成データの実験的結果は,提案アルゴリズムが外れ値に対して頑健であり,非ガウスデータで使用可能であることを示す。
論文参考訳（メタデータ） (2022-01-28T10:01:37Z)
Optimal regularizations for data generation with probabilistic graphical models [0.0]
経験的に、よく調和された正規化スキームは、推論されたモデルの品質を劇的に改善する。生成的ペアワイドグラフィカルモデルの最大Aポストエリオーリ(MAP)推論におけるL2とL1の正規化について検討する。
論文参考訳（メタデータ） (2021-12-02T14:45:16Z)
Sampling from Arbitrary Functions via PSD Models [55.41644538483948]
まず確率分布をモデル化し,そのモデルからサンプリングする。これらのモデルでは, 少数の評価値を用いて, 高精度に多数の密度を近似することが可能であることが示され, それらのモデルから効果的にサンプルする簡単なアルゴリズムが提示される。
論文参考訳（メタデータ） (2021-10-20T12:25:22Z)
Decorrelated Clustering with Data Selection Bias [55.91842043124102]
本稿では,データ選択バイアスを伴うクラスタリングのためのデコリレーション正規化K-Meansアルゴリズム(DCKM)を提案する。 DCKMアルゴリズムは,選択バイアスによって生じる予期せぬ特徴相関を除去する必要があることを示す。
論文参考訳（メタデータ） (2020-06-29T08:55:50Z)
Good Classifiers are Abundant in the Interpolating Regime [64.72044662855612]
補間分類器間のテストエラーの完全な分布を正確に計算する手法を開発した。テストエラーは、最悪の補間モデルのテストエラーから大きく逸脱する、小さな典型的な$varepsilon*$に集中する傾向にある。以上の結果から,統計的学習理論における通常の解析手法は,実際に観測された優れた一般化性能を捉えるのに十分な粒度にはならない可能性が示唆された。
論文参考訳（メタデータ） (2020-06-22T21:12:31Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。