論文の概要: A new LDA formulation with covariates
- arxiv url: http://arxiv.org/abs/2202.11527v1
- Date: Fri, 18 Feb 2022 19:58:24 GMT
- ステータス: 処理完了
- システム内更新日: 2022-02-27 17:44:55.606198
- Title: A new LDA formulation with covariates
- Title(参考訳): 共変量を持つ新しいLDA定式化
- Authors: Gilson Shimizu, Rafael Izbicki and Denis Valle
- Abstract要約: ラテント・ディリクレ・アロケーション・モデルは混合メンバーシップ・クラスタを作成する一般的な方法である。
共変量を含むLDAモデルの新たな定式化を提案する。
モデルパラメータを推定するためにギブスサンプリングアルゴリズムを用いてスライスサンプリングを行う。
このモデルは,コロナウイルスのテキストマイニング,雑貨買い物かごの分析,バロコロラド島(パナマ)の樹木種の生態という,3つの異なる領域の実際のデータセットを用いて説明されている。
- 参考スコア(独自算出の注目度): 3.1690891866882236
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The Latent Dirichlet Allocation (LDA) model is a popular method for creating
mixed-membership clusters. Despite having been originally developed for text
analysis, LDA has been used for a wide range of other applications. We propose
a new formulation for the LDA model which incorporates covariates. In this
model, a negative binomial regression is embedded within LDA, enabling
straight-forward interpretation of the regression coefficients and the analysis
of the quantity of cluster-specific elements in each sampling units (instead of
the analysis being focused on modeling the proportion of each cluster, as in
Structural Topic Models). We use slice sampling within a Gibbs sampling
algorithm to estimate model parameters. We rely on simulations to show how our
algorithm is able to successfully retrieve the true parameter values and the
ability to make predictions for the abundance matrix using the information
given by the covariates. The model is illustrated using real data sets from
three different areas: text-mining of Coronavirus articles, analysis of grocery
shopping baskets, and ecology of tree species on Barro Colorado Island
(Panama). This model allows the identification of mixed-membership clusters in
discrete data and provides inference on the relationship between covariates and
the abundance of these clusters.
- Abstract(参考訳): Latent Dirichlet Allocation (LDA)モデルは、混合メンバーシップクラスタを作成する一般的な方法である。
もともとはテキスト分析のために開発されたが、LDAは他の幅広い用途に使われてきた。
共変量を含むLDAモデルの新たな定式化を提案する。
このモデルでは、LDA内に負の二項回帰が組み込まれ、各サンプリング単位における回帰係数の直進的解釈とクラスタ固有の要素の量の解析が可能となる(構造トピックモデルのように、各クラスタの比率をモデル化することに焦点を当てた分析の代わりに)。
モデルパラメータを推定するためにgibbsサンプリングアルゴリズム内のスライスサンプリングを用いる。
我々は,アルゴリズムが真のパラメータ値の取得に成功し,共変量による情報を用いて存在量行列の予測を行う能力を示すため,シミュレーションに頼っている。
このモデルは、コロナウイルスのテキストマイニング、食料品の買い物かごの分析、バロコロラド島(パナマ)の樹木種の生態の3つの分野の実際のデータセットを用いて説明されている。
このモデルは、離散データ内の混合メンバクラスタの識別を可能にし、共変量とこれらのクラスタの存在量の関係を推論する。
関連論文リスト
- Induced Covariance for Causal Discovery in Linear Sparse Structures [55.2480439325792]
因果モデルでは、観測データから変数間の因果関係を解き明かそうとしている。
本稿では,変数が線形に疎結合な関係を示す設定のための新しい因果探索アルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-10-02T04:01:38Z) - Finite Mixtures of Multivariate Poisson-Log Normal Factor Analyzers for
Clustering Count Data [0.8499685241219366]
因子分析モデルの混合に基づく8種類の擬似混合モデルについて紹介する。
提案モデルはRNAシークエンシング研究から得られた離散的なデータをクラスタリングする文脈において探索される。
論文 参考訳(メタデータ) (2023-11-13T21:23:15Z) - Learning from aggregated data with a maximum entropy model [73.63512438583375]
我々は,観測されていない特徴分布を最大エントロピー仮説で近似することにより,ロジスティック回帰と類似した新しいモデルが,集約データからのみ学習されることを示す。
我々は、この方法で学習したモデルが、完全な非凝集データでトレーニングされたロジスティックモデルに匹敵するパフォーマンスを達成することができるという、いくつかの公開データセットに関する実証的な証拠を提示する。
論文 参考訳(メタデータ) (2022-10-05T09:17:27Z) - Gaussian Process Koopman Mode Decomposition [5.888646114353371]
教師なしガウス過程に基づくクープマンモード分解の非線形確率的生成モデルを提案する。
提案手法を合成データと実世界の疫学的データセットの両方に適用することにより, 推定パラメータを用いて様々な分析が可能であることを示す。
論文 参考訳(メタデータ) (2022-09-09T03:57:07Z) - Personalized Federated Learning via Convex Clustering [72.15857783681658]
本稿では,局所凸型ユーザコストを用いた個人化フェデレーション学習のためのアルゴリズム群を提案する。
提案するフレームワークは,異なるユーザのモデルの違いをペナル化する凸クラスタリングの一般化に基づいている。
論文 参考訳(メタデータ) (2022-02-01T19:25:31Z) - Inverting brain grey matter models with likelihood-free inference: a
tool for trustable cytoarchitecture measurements [62.997667081978825]
脳の灰白質細胞構造の特徴は、体密度と体積に定量的に敏感であり、dMRIでは未解決の課題である。
我々は新しいフォワードモデル、特に新しい方程式系を提案し、比較的スパースなb殻を必要とする。
次に,提案手法を逆転させるため,確率自由推論 (LFI) として知られるベイズ解析から最新のツールを適用した。
論文 参考訳(メタデータ) (2021-11-15T09:08:27Z) - Microbiome subcommunity learning with logistic-tree normal latent
Dirichlet allocation [3.960875974762257]
混合メンバーシップモデル(MM)は微生物種の潜伏サブコミュニティを特定するために微生物組成データに適用されている。
本稿では,あるセントロイドの組成の周辺における各サブコミュニティの組成の変動を許容する新しいMMモデルを提案する。
論文 参考訳(メタデータ) (2021-09-11T22:52:12Z) - Robust Finite Mixture Regression for Heterogeneous Targets [70.19798470463378]
本稿では,サンプルクラスタの探索と,複数の不完全な混合型ターゲットを同時にモデル化するFMRモデルを提案する。
我々は、高次元の学習フレームワークの下で、無症状のオラクルのパフォーマンス境界をモデルに提供します。
その結果,我々のモデルは最先端の性能を達成できることがわかった。
論文 参考訳(メタデータ) (2020-10-12T03:27:07Z) - Model Fusion with Kullback--Leibler Divergence [58.20269014662046]
異種データセットから学習した後続分布を融合する手法を提案する。
我々のアルゴリズムは、融合モデルと個々のデータセット後部の両方に対する平均場仮定に依存している。
論文 参考訳(メタデータ) (2020-07-13T03:27:45Z) - Blocked Clusterwise Regression [0.0]
我々は、各ユニットが複数の潜伏変数を持つことを可能にすることで、離散的非観測的不均一性に対する以前のアプローチを一般化する。
我々は,クラスタの過剰な数のクラスタリングの理論に寄与し,この設定に対する新たな収束率を導出する。
論文 参考訳(メタデータ) (2020-01-29T23:29:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。