論文の概要: Generalized Matrix Factorization: efficient algorithms for fitting
generalized linear latent variable models to large data arrays
- arxiv url: http://arxiv.org/abs/2010.02469v3
- Date: Thu, 27 Jan 2022 18:12:12 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-10 06:10:55.510958
- Title: Generalized Matrix Factorization: efficient algorithms for fitting
generalized linear latent variable models to large data arrays
- Title(参考訳): 一般化行列分解:一般化線形潜在変数モデルを大規模データアレイに適合させるための効率的なアルゴリズム
- Authors: {\L}ukasz Kidzi\'nski, Francis K.C. Hui, David I. Warton, and Trevor
Hastie
- Abstract要約: 一般化線形潜在変数モデル(GLLVM)は、そのような因子モデルを非ガウス応答に一般化する。
GLLVMのモデルパラメータを推定する現在のアルゴリズムは、集約的な計算を必要とし、大規模なデータセットにスケールしない。
本稿では,GLLVMを高次元データセットに適用するための新しい手法を提案する。
- 参考スコア(独自算出の注目度): 62.997667081978825
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Unmeasured or latent variables are often the cause of correlations between
multivariate measurements, which are studied in a variety of fields such as
psychology, ecology, and medicine. For Gaussian measurements, there are
classical tools such as factor analysis or principal component analysis with a
well-established theory and fast algorithms. Generalized Linear Latent Variable
models (GLLVMs) generalize such factor models to non-Gaussian responses.
However, current algorithms for estimating model parameters in GLLVMs require
intensive computation and do not scale to large datasets with thousands of
observational units or responses.
In this article, we propose a new approach for fitting GLLVMs to
high-dimensional datasets, based on approximating the model using penalized
quasi-likelihood and then using a Newton method and Fisher scoring to learn the
model parameters. Computationally, our method is noticeably faster and more
stable, enabling GLLVM fits to much larger matrices than previously possible.
We apply our method on a dataset of 48,000 observational units with over 2,000
observed species in each unit and find that most of the variability can be
explained with a handful of factors. We publish an easy-to-use implementation
of our proposed fitting algorithm.
- Abstract(参考訳): 非測定変数や潜在変数はしばしば多変量測定の相関の原因となり、心理学、生態学、医学など様々な分野で研究されている。
ガウスの測定には、よく確立された理論と高速なアルゴリズムを持つ因子分析や主成分分析のような古典的ツールがある。
一般化線形潜在変数モデル(GLLVM)は、そのような因子モデルを非ガウス応答に一般化する。
しかし、GLLVMのモデルパラメータを推定する現在のアルゴリズムは、集中的な計算を必要とし、数千の観測単位や応答を持つ大規模なデータセットにスケールしない。
本稿では,Pentalized quasi-likelihood を用いてモデルを近似し,Newton 法と Fisher score を用いてモデルパラメータを学習し,GLLVM を高次元データセットに適合させる手法を提案する。
計算上,本手法は明らかに高速かつ安定であり,GLLVMを従来よりもはるかに大きな行列に適合させることができる。
本手法は,各単位に2,000種以上の観測種を持つ48,000個の観測単位のデータセットに適用し,変数のほとんどをいくつかの要因で説明できることを示した。
提案する適合アルゴリズムの実装を簡易に公開する。
関連論文リスト
- Computation-Aware Gaussian Processes: Model Selection And Linear-Time Inference [55.150117654242706]
我々は、1.8万のデータポイントでトレーニングされた計算対応GPのモデル選択が、1つのGPU上で数時間以内に可能であることを示す。
この研究の結果、ガウス過程は、不確実性を定量化する能力を著しく妥協することなく、大規模なデータセットで訓練することができる。
論文 参考訳(メタデータ) (2024-11-01T21:11:48Z) - Scaling and renormalization in high-dimensional regression [72.59731158970894]
本稿では,様々な高次元リッジ回帰モデルの訓練および一般化性能の簡潔な導出について述べる。
本稿では,物理と深層学習の背景を持つ読者を対象に,これらのトピックに関する最近の研究成果の紹介とレビューを行う。
論文 参考訳(メタデータ) (2024-05-01T15:59:00Z) - Probabilistic Unrolling: Scalable, Inverse-Free Maximum Likelihood
Estimation for Latent Gaussian Models [69.22568644711113]
我々は,モンテカルロサンプリングと反復線形解法を組み合わせた確率的アンローリングを導入し,行列逆転を回避した。
理論的解析により,解法の繰り返しによる解法の解法と逆転が最大値推定の勾配推定を高速化することを示した。
シミュレーションおよび実データ実験において、確率的アンロールは、モデル性能の損失を最小限に抑えながら、勾配EMよりも桁違いに高速な潜在ガウスモデルを学習することを示した。
論文 参考訳(メタデータ) (2023-06-05T21:08:34Z) - Approximate Gibbs Sampler for Efficient Inference of Hierarchical Bayesian Models for Grouped Count Data [0.0]
本研究は、推定精度を維持しつつ、HBPRMを効率的に学習するための近似ギブスサンプリング器(AGS)を開発した。
実データと合成データを用いた数値実験により,AGSの優れた性能を示した。
論文 参考訳(メタデータ) (2022-11-28T21:00:55Z) - High-Dimensional Undirected Graphical Models for Arbitrary Mixed Data [2.2871867623460207]
多くのアプリケーションでは、データは異なるタイプの変数にまたがる。
最近の進歩は、バイナリ連続ケースにどのように取り組めるかを示しているが、一般的な混合変数型構造は依然として困難である。
完全混合型の変数を持つデータに対して,フレキシブルでスケーラブルな手法を提案する。
論文 参考訳(メタデータ) (2022-11-21T18:21:31Z) - Inference of Multiscale Gaussian Graphical Model [0.0]
階層的なクラスタリング構造と階層のそれぞれのレベルでの独立性構造を記述するグラフを同時に推論する新しい手法を提案する。
実データと合成データの結果が提示される。
論文 参考訳(メタデータ) (2022-02-11T17:11:20Z) - Scalable mixed-domain Gaussian process modeling and model reduction for longitudinal data [5.00301731167245]
混合領域共分散関数に対する基底関数近似スキームを導出する。
我々は,GPモデルの精度をランタイムのごく一部で正確に近似できることを示す。
また、より小さく、より解釈可能なモデルを得るためのスケーラブルなモデルリダクションワークフローを実証する。
論文 参考訳(メタデータ) (2021-11-03T04:47:37Z) - Multimodal Data Fusion in High-Dimensional Heterogeneous Datasets via
Generative Models [16.436293069942312]
我々は、教師なしの方法で高次元異種データから確率的生成モデルを学習することに興味がある。
本稿では,指数関数的な分布系を通じて異なるデータ型を結合する一般的なフレームワークを提案する。
提案アルゴリズムは、実数値(ガウス)とカテゴリー(マルチノミカル)の特徴を持つ、よく遭遇する異種データセットについて詳細に述べる。
論文 参考訳(メタデータ) (2021-08-27T18:10:31Z) - Post-mortem on a deep learning contest: a Simpson's paradox and the
complementary roles of scale metrics versus shape metrics [61.49826776409194]
我々は、ニューラルネットワーク(NN)モデルの一般化精度を予測するために、コンテストで公に利用可能にされたモデルのコーパスを分析する。
メトリクスが全体としてよく機能するが、データのサブパーティションではあまり機能しない。
本稿では,データに依存しない2つの新しい形状指標と,一連のNNのテスト精度の傾向を予測できるデータ依存指標を提案する。
論文 参考訳(メタデータ) (2021-06-01T19:19:49Z) - Cauchy-Schwarz Regularized Autoencoder [68.80569889599434]
変分オートエンコーダ(VAE)は、強力で広く使われている生成モデルのクラスである。
GMMに対して解析的に計算できるCauchy-Schwarz分散に基づく新しい制約対象を導入する。
本研究の目的は,密度推定,教師なしクラスタリング,半教師なし学習,顔分析における変分自動エンコーディングモデルの改善である。
論文 参考訳(メタデータ) (2021-01-06T17:36:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。