論文の概要: Learning Multivariate CDFs and Copulas using Tensor Factorization
- arxiv url: http://arxiv.org/abs/2210.07132v1
- Date: Thu, 13 Oct 2022 16:18:46 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-14 15:15:19.394654
- Title: Learning Multivariate CDFs and Copulas using Tensor Factorization
- Title(参考訳): テンソル因子化を用いた多変量CDFとコプラの学習
- Authors: Magda Amiridi, Nicholas D. Sidiropoulos
- Abstract要約: データの多変量分布を学習することは、統計学と機械学習における中核的な課題である。
本研究では,多変量累積分布関数(CDF)を学習し,混合確率変数を扱えるようにすることを目的とする。
混合確率変数の合同CDFの任意のグリッドサンプリング版は、単純ベイズモデルとして普遍表現を許容することを示す。
提案モデルの性能を,回帰,サンプリング,データ計算を含むいくつかの合成および実データおよびアプリケーションで実証する。
- 参考スコア(独自算出の注目度): 39.24470798045442
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Learning the multivariate distribution of data is a core challenge in
statistics and machine learning. Traditional methods aim for the probability
density function (PDF) and are limited by the curse of dimensionality. Modern
neural methods are mostly based on black-box models, lacking identifiability
guarantees. In this work, we aim to learn multivariate cumulative distribution
functions (CDFs), as they can handle mixed random variables, allow efficient
box probability evaluation, and have the potential to overcome local sample
scarcity owing to their cumulative nature. We show that any grid sampled
version of a joint CDF of mixed random variables admits a universal
representation as a naive Bayes model via the Canonical Polyadic (tensor-rank)
decomposition. By introducing a low-rank model, either directly in the raw data
domain, or indirectly in a transformed (Copula) domain, the resulting model
affords efficient sampling, closed form inference and uncertainty
quantification, and comes with uniqueness guarantees under relatively mild
conditions. We demonstrate the superior performance of the proposed model in
several synthetic and real datasets and applications including regression,
sampling and data imputation. Interestingly, our experiments with real data
show that it is possible to obtain better density/mass estimates indirectly via
a low-rank CDF model, than a low-rank PDF/PMF model.
- Abstract(参考訳): データの多変量分布を学ぶことは、統計学と機械学習において重要な課題である。
伝統的な手法は確率密度関数(pdf)を目標とし、次元の呪いによって制限される。
現代のニューラルメソッドは主にブラックボックスモデルに基づいており、識別可能性の保証がない。
本研究では,多変量累積分布関数(CDF)を学習し,混合確率変数を扱えるようにし,ボックス確率を効率的に評価できるとともに,その累積性質により局所的なサンプル不足を克服する可能性を持つ。
混合確率変数の合同CDFの任意のグリッドサンプリング版は、カノニカルポリアディック分解(テンソルランク)を介して、ネーブベイズモデルとして普遍的な表現を持つことを示す。
生データドメインに直接、あるいは変換された(コプラ)ドメインに間接的にローランクモデルを導入することにより、得られたモデルは効率的なサンプリング、クローズドフォーム推論、不確実性定量化が可能となり、比較的穏やかな条件下で一意性を保証する。
提案モデルの性能を,回帰,サンプリング,データ計算を含むいくつかの合成および実データおよびアプリケーションで実証する。
興味深いことに、実データを用いた実験は、低ランクのpdf/pmfモデルよりも、低ランクのcdfモデルを介して間接的により良い密度/質量推定が得られることを示している。
関連論文リスト
- Robust training of implicit generative models for multivariate and heavy-tailed distributions with an invariant statistical loss [0.4249842620609682]
我々は、引用2024トレーニングで導入されたISL(textitinvariant statistics loss)法に基づいて構築する。
重み付きおよび多変量データ分散を扱うように拡張する。
ジェネレーティブ・ジェネレーティブ・モデリングにおけるその性能を評価し、ジェネレーティブ・ディバイサル・ネットワーク(GAN)の事前学習技術としての可能性を探る。
論文 参考訳(メタデータ) (2024-10-29T10:27:50Z) - Diffusion models for probabilistic programming [56.47577824219207]
拡散モデル変分推論(DMVI)は確率型プログラミング言語(PPL)における自動近似推論手法である
DMVIは実装が容易で、例えば正規化フローを用いた変分推論の欠点を伴わずに、PPLでヘイズルフリー推論が可能であり、基礎となるニューラルネットワークモデルに制約を課さない。
論文 参考訳(メタデータ) (2023-11-01T12:17:05Z) - Uncertainty quantification and out-of-distribution detection using
surjective normalizing flows [46.51077762143714]
本稿では,深層ニューラルネットワークモデルにおける分布外データセットの探索的正規化フローを用いた簡単なアプローチを提案する。
本手法は, 流通外データと流通内データとを確実に識別できることを示す。
論文 参考訳(メタデータ) (2023-11-01T09:08:35Z) - Discrete Diffusion Modeling by Estimating the Ratios of the Data Distribution [67.9215891673174]
離散空間に対するスコアマッチングを自然に拡張する新たな損失として,スコアエントロピーを提案する。
標準言語モデリングタスク上で,Score Entropy Discrete Diffusionモデルをテストする。
論文 参考訳(メタデータ) (2023-10-25T17:59:12Z) - Tailoring Language Generation Models under Total Variation Distance [55.89964205594829]
ニューラルネットワーク生成の標準パラダイムは、最適化方法として最大推定(MLE)を採用する。
言語生成に適用するための実践的境界を開発する。
本稿では,TVD推定のトレードオフのバランスをとるためのTaiLr の目標について紹介する。
論文 参考訳(メタデータ) (2023-02-26T16:32:52Z) - Learning from aggregated data with a maximum entropy model [73.63512438583375]
我々は,観測されていない特徴分布を最大エントロピー仮説で近似することにより,ロジスティック回帰と類似した新しいモデルが,集約データからのみ学習されることを示す。
我々は、この方法で学習したモデルが、完全な非凝集データでトレーニングされたロジスティックモデルに匹敵するパフォーマンスを達成することができるという、いくつかの公開データセットに関する実証的な証拠を提示する。
論文 参考訳(メタデータ) (2022-10-05T09:17:27Z) - Sampling from Arbitrary Functions via PSD Models [55.41644538483948]
まず確率分布をモデル化し,そのモデルからサンプリングする。
これらのモデルでは, 少数の評価値を用いて, 高精度に多数の密度を近似することが可能であることが示され, それらのモデルから効果的にサンプルする簡単なアルゴリズムが提示される。
論文 参考訳(メタデータ) (2021-10-20T12:25:22Z) - Marginalizable Density Models [14.50261153230204]
本稿では,変数の任意の部分集合の確率,限界,条件に対するクローズドフォーム表現を提供する,新しいディープネットワークアーキテクチャを提案する。
このモデルはまた、変数数に時間複雑性の対数依存しか依存しない並列サンプリングを可能にする。
論文 参考訳(メタデータ) (2021-06-08T23:54:48Z) - Variational Mixture of Normalizing Flows [0.0]
生成逆数ネットワークオートサイトGAN、変分オートエンコーダオートサイトベイペーパー、およびそれらの変種などの深い生成モデルは、複雑なデータ分布をモデル化するタスクに広く採用されている。
正規化フローはこの制限を克服し、確率密度関数にそのような公式の変更を利用する。
本研究は,混合モデルのコンポーネントとして正規化フローを用い,そのようなモデルのエンドツーエンドトレーニング手順を考案することによって,この問題を克服する。
論文 参考訳(メタデータ) (2020-09-01T17:20:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。