論文の概要: Zero-inflation in the Multivariate Poisson Lognormal Family
- arxiv url: http://arxiv.org/abs/2405.14711v1
- Date: Thu, 23 May 2024 15:45:21 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-24 14:16:19.440490
- Title: Zero-inflation in the Multivariate Poisson Lognormal Family
- Title(参考訳): 多変量ポアソン異常家系におけるゼロインフレーション
- Authors: Bastien Batardière, Julien Chiquet, François Gindraud, Mahendra Mariadassou,
- Abstract要約: 我々はZero-Inflated PLNモデルを導入し、さらにBernoulli潜在変数として多変量ゼロインフレート成分をモデルに追加する。
数千の変数を持つデータセットにスケールアップする変動推論を用いてモデルパラメータを推定する。
次に、ZIPLNとPLNの両方を、90.6%のゼロを含む牛のマイクロバイオームデータセットに適用する。
- 参考スコア(独自算出の注目度): 1.9374282535132377
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Analyzing high-dimensional count data is a challenge and statistical model-based approaches provide an adequate and efficient framework that preserves explainability. The (multivariate) Poisson-Log-Normal (PLN) model is one such model: it assumes count data are driven by an underlying structured latent Gaussian variable, so that the dependencies between counts solely stems from the latent dependencies. However PLN doesn't account for zero-inflation, a feature frequently observed in real-world datasets. Here we introduce the Zero-Inflated PLN (ZIPLN) model, adding a multivariate zero-inflated component to the model, as an additional Bernoulli latent variable. The Zero-Inflation can be fixed, site-specific, feature-specific or depends on covariates. We estimate model parameters using variational inference that scales up to datasets with a few thousands variables and compare two approximations: (i) independent Gaussian and Bernoulli variational distributions or (ii) Gaussian variational distribution conditioned on the Bernoulli one. The method is assessed on synthetic data and the efficiency of ZIPLN is established even when zero-inflation concerns up to $90\%$ of the observed counts. We then apply both ZIPLN and PLN to a cow microbiome dataset, containing $90.6\%$ of zeroes. Accounting for zero-inflation significantly increases log-likelihood and reduces dispersion in the latent space, thus leading to improved group discrimination.
- Abstract(参考訳): 高次元のカウントデータを解析することは困難であり、統計モデルに基づくアプローチは、説明可能性を維持するための適切かつ効率的なフレームワークを提供する。
多変数(multivariate)のPoisson-Log-Normal(PLN)モデルはそのようなモデルである: カウントデータは基盤となる構造化された潜在ガウス変数によって駆動されると仮定する。
しかしPLNは、実世界のデータセットでよく見られる機能であるゼロインフレーションを説明できない。
ここでは、Zero-Inflated PLN (ZIPLN) モデルを導入し、モデルに多変量ゼロ膨張成分を付加し、ベルヌーイ潜在変数を付加する。
Zero-Inflationは、固定、サイト固有、特徴特化、または共変量に依存する。
数千の変数を持つデータセットにスケールする変動推論を用いてモデルパラメータを推定し、2つの近似を比較する。
(i)独立ガウスおよびベルヌーイ変分分布
(ii)ベルヌーイに条件付きガウス変分分布。
本手法は合成データに基づいて評価し, ゼロインフレーションが最大90\%の場合にもZIPLNの効率性を確立する。
次に、ZIPLNとPLNの両方を牛のマイクロバイオームデータセットに適用し、90.6\%のゼロを含む。
ゼロインフレの会計はログの類似度を著しく増加させ、潜伏空間における分散を減少させ、グループ識別を改善する。
関連論文リスト
- Scaling Laws in Linear Regression: Compute, Parameters, and Data [86.48154162485712]
無限次元線形回帰セットアップにおけるスケーリング法則の理論について検討する。
テストエラーの再現可能な部分は$Theta(-(a-1) + N-(a-1)/a)$であることを示す。
我々の理論は経験的ニューラルスケーリング法則と一致し、数値シミュレーションによって検証される。
論文 参考訳(メタデータ) (2024-06-12T17:53:29Z) - Towards Faster Non-Asymptotic Convergence for Diffusion-Based Generative
Models [49.81937966106691]
我々は拡散モデルのデータ生成過程を理解するための非漸近理論のスイートを開発する。
従来の研究とは対照的に,本理論は基本的だが多目的な非漸近的アプローチに基づいて開発されている。
論文 参考訳(メタデータ) (2023-06-15T16:30:08Z) - Copula-Based Density Estimation Models for Multivariate Zero-Inflated
Continuous Data [0.0]
ゼロインフレート連続変数間の多変量相関に対処できる2つのコプラに基づく密度推定モデルを提案する。
ゼロインフレーションデータにおける結び付きデータ問題によるコプラの使用の難しさを克服するために,我々は新しいタイプのコプラ,補正されたガウスコプラを提案する。
論文 参考訳(メタデータ) (2023-04-02T13:43:37Z) - On counterfactual inference with unobserved confounding [36.18241676876348]
独立だが不均一な単位を持つ観測的研究を前提として、各単位の反実分布を学習することが目的である。
我々は、すべての$n$サンプルをプールして、すべての$n$パラメータベクトルを共同で学習する凸目的を導入する。
対数的ソボレフ不等式を満たすためにコンパクトに支持された分布に対して十分な条件を導出する。
論文 参考訳(メタデータ) (2022-11-14T04:14:37Z) - Break The Spell Of Total Correlation In betaTCVAE [4.38301148531795]
本稿では,全相関の反復的分解経路を提案し,VAEの非絡み合い表現能力について説明する。
新たなモデルにより、VAEはパラメータキャパシティを柔軟に分割し、依存データと独立データの特徴を分割することができる。
論文 参考訳(メタデータ) (2022-10-17T07:16:53Z) - Learning Multivariate CDFs and Copulas using Tensor Factorization [39.24470798045442]
データの多変量分布を学習することは、統計学と機械学習における中核的な課題である。
本研究では,多変量累積分布関数(CDF)を学習し,混合確率変数を扱えるようにすることを目的とする。
混合確率変数の合同CDFの任意のグリッドサンプリング版は、単純ベイズモデルとして普遍表現を許容することを示す。
提案モデルの性能を,回帰,サンプリング,データ計算を含むいくつかの合成および実データおよびアプリケーションで実証する。
論文 参考訳(メタデータ) (2022-10-13T16:18:46Z) - Learning from aggregated data with a maximum entropy model [73.63512438583375]
我々は,観測されていない特徴分布を最大エントロピー仮説で近似することにより,ロジスティック回帰と類似した新しいモデルが,集約データからのみ学習されることを示す。
我々は、この方法で学習したモデルが、完全な非凝集データでトレーニングされたロジスティックモデルに匹敵するパフォーマンスを達成することができるという、いくつかの公開データセットに関する実証的な証拠を提示する。
論文 参考訳(メタデータ) (2022-10-05T09:17:27Z) - Wasserstein Distributional Learning [5.830831796910439]
Wasserstein Distributional Learning (WDL)はフレキシブルな密度オンスカラー回帰モデリングフレームワークである。
WDLは, 条件密度の非線形依存性をよりよく特徴付け, 明らかにする。
シミュレーションと実世界の応用を通してWDLフレームワークの有効性を実証する。
論文 参考訳(メタデータ) (2022-09-12T02:32:17Z) - $p$-Generalized Probit Regression and Scalable Maximum Likelihood
Estimation via Sketching and Coresets [74.37849422071206]
本稿では, 2次応答に対する一般化線形モデルである,$p$一般化プロビット回帰モデルについて検討する。
p$の一般化されたプロビット回帰に対する最大可能性推定器は、大容量データ上で$(1+varepsilon)$の係数まで効率的に近似できることを示す。
論文 参考訳(メタデータ) (2022-03-25T10:54:41Z) - Understanding the Under-Coverage Bias in Uncertainty Estimation [58.03725169462616]
量子レグレッションは、現実の望ましいカバレッジレベルよりもアンファンダーカバー(enmphunder-cover)する傾向がある。
我々は、量子レグレッションが固有のアンダーカバーバイアスに悩まされていることを証明している。
我々の理論は、この過大被覆バイアスが特定の高次元パラメータ推定誤差に起因することを明らかにしている。
論文 参考訳(メタデータ) (2021-06-10T06:11:55Z) - Probabilistic Circuits for Variational Inference in Discrete Graphical
Models [101.28528515775842]
変分法による離散的グラフィカルモデルの推論は困難である。
エビデンス・ロウアーバウンド(ELBO)を推定するためのサンプリングに基づく多くの手法が提案されている。
Sum Product Networks (SPN) のような確率的回路モデルのトラクタビリティを活用する新しい手法を提案する。
選択的SPNが表現的変動分布として適していることを示し、対象モデルの対数密度が重み付けされた場合、対応するELBOを解析的に計算可能であることを示す。
論文 参考訳(メタデータ) (2020-10-22T05:04:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。