論文の概要: Estimating Unknown Population Sizes Using the Hypergeometric Distribution
- arxiv url: http://arxiv.org/abs/2402.14220v2
- Date: Sun, 9 Jun 2024 21:43:28 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-12 01:23:27.615086
- Title: Estimating Unknown Population Sizes Using the Hypergeometric Distribution
- Title(参考訳): 超幾何分布を用いた未知個体数の推定
- Authors: Liam Hodgson, Danilo Bzdok,
- Abstract要約: 総人口と構成カテゴリーの規模が不明な場合, 個別分布の推定に挑戦する。
本研究では,連続潜伏変数上での分布条件の混合となるデータ生成過程について考察する。
実験データシミュレーションにより,本手法は数値データをモデル化する他の可能性関数よりも優れていることが示された。
- 参考スコア(独自算出の注目度): 1.03590082373586
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The multivariate hypergeometric distribution describes sampling without replacement from a discrete population of elements divided into multiple categories. Addressing a gap in the literature, we tackle the challenge of estimating discrete distributions when both the total population size and the sizes of its constituent categories are unknown. Here, we propose a novel solution using the hypergeometric likelihood to solve this estimation challenge, even in the presence of severe under-sampling. We develop our approach to account for a data generating process where the ground-truth is a mixture of distributions conditional on a continuous latent variable, such as with collaborative filtering, using the variational autoencoder framework. Empirical data simulation demonstrates that our method outperforms other likelihood functions used to model count data, both in terms of accuracy of population size estimate and in its ability to learn an informative latent space. We demonstrate our method's versatility through applications in NLP, by inferring and estimating the complexity of latent vocabularies in text excerpts, and in biology, by accurately recovering the true number of gene transcripts from sparse single-cell genomics data.
- Abstract(参考訳): 多変量超幾何分布は、複数のカテゴリに分けられた個々の要素の集団から置き換えることなくサンプリングを記述する。
文献のギャップに対処するため、人口規模と構成カテゴリーの規模が不明な場合、個別分布を推定する課題に取り組む。
本稿では,重度のアンダーサンプリングが存在する場合でも,この推定課題を解決するために,超幾何的可能性を用いた新しい解を提案する。
本研究では,変動型オートエンコーダフレームワークを用いた協調フィルタリングなどの連続潜時変数上での分布条件の混合となるデータ生成プロセスについて検討する。
実験データシミュレーションにより,本手法は,人口規模推定の精度と情報潜在空間の学習能力の両面において,カウントデータをモデル化する他の可能性関数よりも優れていることが示された。
本手法は, テキスト抽出における潜伏語彙の複雑さを推定し, 推定し, 生物学において, スパース単細胞ゲノムデータから真数の遺伝子転写を正確に復元することにより, NLPの応用を通して, 本手法の汎用性を実証する。
関連論文リスト
- Generative modeling of density regression through tree flows [3.0262553206264893]
本稿では,表データの密度回帰タスクに適したフローベース生成モデルを提案する。
本稿では,木質変換を分割・対数戦略を用いて適合させる学習アルゴリズムを提案する。
本手法は, トレーニングおよびサンプリング予算のごく一部において, 同等あるいは優れた性能を継続的に達成する。
論文 参考訳(メタデータ) (2024-06-07T21:07:35Z) - Collaborative Heterogeneous Causal Inference Beyond Meta-analysis [68.4474531911361]
異種データを用いた因果推論のための協調的逆確率スコア推定器を提案する。
異質性の増加に伴うメタアナリシスに基づく手法に対して,本手法は有意な改善を示した。
論文 参考訳(メタデータ) (2024-04-24T09:04:36Z) - Deep Generative Sampling in the Dual Divergence Space: A Data-efficient & Interpretative Approach for Generative AI [29.13807697733638]
自然画像の生成的サンプリングにおける顕著な成果の上に構築する。
我々は、画像に似たサンプルを生成するという、画期的な挑戦を、潜在的に過度に野心的に提案する。
統計上の課題は、小さなサンプルサイズであり、時には数百人の被験者で構成されている。
論文 参考訳(メタデータ) (2024-04-10T22:35:06Z) - StyleGenes: Discrete and Efficient Latent Distributions for GANs [149.0290830305808]
GAN(Generative Adversarial Networks)のための離散潜在分布を提案する。
連続的な先行点から潜在ベクトルを描く代わりに、学習可能な潜在点の有限集合からサンプリングする。
私たちは生物の情報のエンコーディングからインスピレーションを得ます。
論文 参考訳(メタデータ) (2023-04-30T23:28:46Z) - Tailoring Language Generation Models under Total Variation Distance [55.89964205594829]
ニューラルネットワーク生成の標準パラダイムは、最適化方法として最大推定(MLE)を採用する。
言語生成に適用するための実践的境界を開発する。
本稿では,TVD推定のトレードオフのバランスをとるためのTaiLr の目標について紹介する。
論文 参考訳(メタデータ) (2023-02-26T16:32:52Z) - Equivariance Allows Handling Multiple Nuisance Variables When Analyzing
Pooled Neuroimaging Datasets [53.34152466646884]
本稿では,構造空間上でインスタンス化された同変表現学習における最近の結果と,因果推論における古典的結果の簡易な利用が,いかに効果的に実現されたかを示す。
いくつかの仮定の下で、我々のモデルが複数のニュアンス変数を扱えることを実証し、そうでなければサンプルの大部分を取り除く必要のあるシナリオにおいて、プールされた科学データセットの分析を可能にする。
論文 参考訳(メタデータ) (2022-03-29T04:54:06Z) - Marginalization in Bayesian Networks: Integrating Exact and Approximate
Inference [0.0]
欠落データと隠れ変数は、変数のサブセットの限界確率分布を計算する必要がある。
ベイジアンネットワークのグラフィカルな特性を利用した分割・コンカレント手法を開発した。
分類変数の限界確率分布を推定するための効率的でスケーラブルなアルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-12-16T21:49:52Z) - GENs: Generative Encoding Networks [4.269725092203672]
本稿では,未知のデータ分布と未知のターゲット分布を一致させるために,Jensen-Shannon分散を推定するための非パラメトリック密度法を提案し,解析する。
この分析法には、サンプル量のトレーニングが低いときのより良い振舞い、証明可能な収束特性、比較的少ないパラメータ、分析的に導出できるパラメータなど、いくつかの利点がある。
論文 参考訳(メタデータ) (2020-10-28T23:40:03Z) - GANs with Variational Entropy Regularizers: Applications in Mitigating
the Mode-Collapse Issue [95.23775347605923]
深層学習の成功に基づいて、GAN(Generative Adversarial Networks)は、観測されたサンプルから確率分布を学習するための現代的なアプローチを提供する。
GANはしばしば、ジェネレータが入力分布の既存のすべてのモードをキャプチャできないモード崩壊問題に悩まされる。
情報理論のアプローチを採り、生成したサンプルのエントロピーの変動的下限を最大化し、それらの多様性を増大させる。
論文 参考訳(メタデータ) (2020-09-24T19:34:37Z) - The Bures Metric for Generative Adversarial Networks [10.69910379275607]
GAN(Generative Adversarial Networks)は、高品質なサンプルを生成する高性能な生成手法である。
実バッチの多様性と偽バッチの多様性を一致させることを提案する。
多様性マッチングはモード崩壊を著しく低減し, サンプル品質に肯定的な影響を及ぼす。
論文 参考訳(メタデータ) (2020-06-16T12:04:41Z) - Generative Modeling with Denoising Auto-Encoders and Langevin Sampling [88.83704353627554]
DAEとDSMの両方がスムーズな人口密度のスコアを推定することを示した。
次に、この結果をarXiv:1907.05600のホモトピー法に適用し、その経験的成功を理論的に正当化する。
論文 参考訳(メタデータ) (2020-01-31T23:50:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。