論文の概要: Estimating Unknown Population Sizes Using the Hypergeometric
Distribution
- arxiv url: http://arxiv.org/abs/2402.14220v1
- Date: Thu, 22 Feb 2024 01:53:56 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-23 16:41:28.298045
- Title: Estimating Unknown Population Sizes Using the Hypergeometric
Distribution
- Title(参考訳): 超幾何分布を用いた未知個体数の推定
- Authors: Liam Hodgson and Danilo Bzdok
- Abstract要約: 総人口と構成カテゴリーの規模が不明な場合, 個別分布の推定に挑戦する。
本研究では,連続潜伏変数上での分布条件の混合となるデータ生成過程について考察する。
実験データシミュレーションにより,本手法は数値データをモデル化する他の可能性関数よりも優れていることが示された。
- 参考スコア(独自算出の注目度): 1.223779595809275
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The multivariate hypergeometric distribution describes sampling without
replacement from a discrete population of elements divided into multiple
categories. Addressing a gap in the literature, we tackle the challenge of
estimating discrete distributions when both the total population size and the
sizes of its constituent categories are unknown. Here, we propose a novel
solution using the hypergeometric likelihood to solve this estimation
challenge, even in the presence of severe under-sampling. We develop our
approach to account for a data generating process where the ground-truth is a
mixture of distributions conditional on a continuous latent variable, such as
with collaborative filtering, using the variational autoencoder framework.
Empirical data simulation demonstrates that our method outperforms other
likelihood functions used to model count data, both in terms of accuracy of
population size estimate and in its ability to learn an informative latent
space. We demonstrate our method's versatility through applications in NLP, by
inferring and estimating the complexity of latent vocabularies in text
excerpts, and in biology, by accurately recovering the true number of gene
transcripts from sparse single-cell genomics data.
- Abstract(参考訳): 多変量超幾何分布は、複数のカテゴリに分けられた個々の要素の集団から置き換えることなくサンプリングを記述する。
文献のギャップに対処するため、人口規模と構成カテゴリーの規模が不明な場合、個別分布を推定する課題に取り組む。
本稿では,重度のアンダーサンプリングが存在する場合でも,この推定課題を解決するために,超幾何的可能性を用いた新しい解を提案する。
本研究では,変動型オートエンコーダフレームワークを用いた協調フィルタリングなどの連続潜時変数上での分布条件の混合となるデータ生成プロセスについて検討する。
実験データシミュレーションにより,本手法は,人口規模推定の精度と情報潜在空間の学習能力の両面において,カウントデータをモデル化する他の可能性関数よりも優れていることが示された。
本手法は, テキスト抽出における潜伏語彙の複雑さを推定し, 推定し, 生物学において, スパース単細胞ゲノムデータから真数の遺伝子転写産物を正確に回収することにより, NLPの応用による汎用性を実証する。
関連論文リスト
- Combining propensity score methods with variational autoencoders for
generating synthetic data in presence of latent sub-groups [0.0]
ヘテロジニティは、例えば、サブグループラベルによって示されるように知られ、あるいは未知であり、双曲性や歪みのような分布の性質にのみ反映されるかもしれない。
本研究では,変分オートエンコーダ(VAE)から合成データを取得する際に,このような異種性をどのように保存し,制御するかを検討する。
論文 参考訳(メタデータ) (2023-12-12T22:49:24Z) - Guaranteed Optimal Generative Modeling with Maximum Deviation from the
Empirical Distribution [0.0]
ジェネレーティブ・モデリング(Generative Modeling)は、科学および産業分野で様々な用途に応用された機械学習手法である。
その主な目的は、トレーニングデータから得られた未知の分布から引き出された新しいサンプルをシミュレートし、多様性を確保し、トレーニングデータからのサンプルの複製を避けることである。
本稿では, 実データ生成分布を学習データ生成分布に置き換える誤差は, サンプルサイズが無限大に近づくにつれて, 最適に0に収束する必要があり, トレーニングデータ中の任意の分布複製例から, 学習データ生成分布が十分遠く離れるべきである,という2つの特性を持つ生成モデルのトレーニングに関する理論的知見を示す。
論文 参考訳(メタデータ) (2023-07-31T06:11:57Z) - StyleGenes: Discrete and Efficient Latent Distributions for GANs [149.0290830305808]
GAN(Generative Adversarial Networks)のための離散潜在分布を提案する。
連続的な先行点から潜在ベクトルを描く代わりに、学習可能な潜在点の有限集合からサンプリングする。
私たちは生物の情報のエンコーディングからインスピレーションを得ます。
論文 参考訳(メタデータ) (2023-04-30T23:28:46Z) - Tailoring Language Generation Models under Total Variation Distance [55.89964205594829]
ニューラルネットワーク生成の標準パラダイムは、最適化方法として最大推定(MLE)を採用する。
言語生成に適用するための実践的境界を開発する。
本稿では,TVD推定のトレードオフのバランスをとるためのTaiLr の目標について紹介する。
論文 参考訳(メタデータ) (2023-02-26T16:32:52Z) - Equivariance Allows Handling Multiple Nuisance Variables When Analyzing
Pooled Neuroimaging Datasets [53.34152466646884]
本稿では,構造空間上でインスタンス化された同変表現学習における最近の結果と,因果推論における古典的結果の簡易な利用が,いかに効果的に実現されたかを示す。
いくつかの仮定の下で、我々のモデルが複数のニュアンス変数を扱えることを実証し、そうでなければサンプルの大部分を取り除く必要のあるシナリオにおいて、プールされた科学データセットの分析を可能にする。
論文 参考訳(メタデータ) (2022-03-29T04:54:06Z) - A Robust and Flexible EM Algorithm for Mixtures of Elliptical
Distributions with Missing Data [71.9573352891936]
本稿では、ノイズや非ガウス的なデータに対するデータ計算の欠如に対処する。
楕円分布と潜在的な欠落データを扱う特性を混合した新しいEMアルゴリズムについて検討した。
合成データの実験的結果は,提案アルゴリズムが外れ値に対して頑健であり,非ガウスデータで使用可能であることを示す。
論文 参考訳(メタデータ) (2022-01-28T10:01:37Z) - Marginalization in Bayesian Networks: Integrating Exact and Approximate
Inference [0.0]
欠落データと隠れ変数は、変数のサブセットの限界確率分布を計算する必要がある。
ベイジアンネットワークのグラフィカルな特性を利用した分割・コンカレント手法を開発した。
分類変数の限界確率分布を推定するための効率的でスケーラブルなアルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-12-16T21:49:52Z) - GENs: Generative Encoding Networks [4.269725092203672]
本稿では,未知のデータ分布と未知のターゲット分布を一致させるために,Jensen-Shannon分散を推定するための非パラメトリック密度法を提案し,解析する。
この分析法には、サンプル量のトレーニングが低いときのより良い振舞い、証明可能な収束特性、比較的少ないパラメータ、分析的に導出できるパラメータなど、いくつかの利点がある。
論文 参考訳(メタデータ) (2020-10-28T23:40:03Z) - GANs with Variational Entropy Regularizers: Applications in Mitigating
the Mode-Collapse Issue [95.23775347605923]
深層学習の成功に基づいて、GAN(Generative Adversarial Networks)は、観測されたサンプルから確率分布を学習するための現代的なアプローチを提供する。
GANはしばしば、ジェネレータが入力分布の既存のすべてのモードをキャプチャできないモード崩壊問題に悩まされる。
情報理論のアプローチを採り、生成したサンプルのエントロピーの変動的下限を最大化し、それらの多様性を増大させる。
論文 参考訳(メタデータ) (2020-09-24T19:34:37Z) - The Bures Metric for Generative Adversarial Networks [10.69910379275607]
GAN(Generative Adversarial Networks)は、高品質なサンプルを生成する高性能な生成手法である。
実バッチの多様性と偽バッチの多様性を一致させることを提案する。
多様性マッチングはモード崩壊を著しく低減し, サンプル品質に肯定的な影響を及ぼす。
論文 参考訳(メタデータ) (2020-06-16T12:04:41Z) - Generative Modeling with Denoising Auto-Encoders and Langevin Sampling [88.83704353627554]
DAEとDSMの両方がスムーズな人口密度のスコアを推定することを示した。
次に、この結果をarXiv:1907.05600のホモトピー法に適用し、その経験的成功を理論的に正当化する。
論文 参考訳(メタデータ) (2020-01-31T23:50:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。