論文の概要: A Gamma-Poisson Mixture Topic Model for Short Text
- arxiv url: http://arxiv.org/abs/2004.11464v1
- Date: Thu, 23 Apr 2020 21:13:53 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-10 08:43:56.889376
- Title: A Gamma-Poisson Mixture Topic Model for Short Text
- Title(参考訳): 短文のためのガンマ・ポアソン混合話題モデル
- Authors: Jocelyn Mazarura, Alta de Waal and Pieter de Villiers
- Abstract要約: ほとんどのトピックモデルは、文書が多項分布に従うという仮定のもとに構築される。
トピックモデリングでは、ポアソン分布は一定長さの文書中の単語の発生回数を記述する。
文学における数少ないPoissonトピックモデルは、アドミクチャーモデルであり、ドキュメントがトピックの混合から生成されると仮定する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Most topic models are constructed under the assumption that documents follow
a multinomial distribution. The Poisson distribution is an alternative
distribution to describe the probability of count data. For topic modelling,
the Poisson distribution describes the number of occurrences of a word in
documents of fixed length. The Poisson distribution has been successfully
applied in text classification, but its application to topic modelling is not
well documented, specifically in the context of a generative probabilistic
model. Furthermore, the few Poisson topic models in literature are admixture
models, making the assumption that a document is generated from a mixture of
topics. In this study, we focus on short text. Many studies have shown that the
simpler assumption of a mixture model fits short text better. With mixture
models, as opposed to admixture models, the generative assumption is that a
document is generated from a single topic. One topic model, which makes this
one-topic-per-document assumption, is the Dirichlet-multinomial mixture model.
The main contributions of this work are a new Gamma-Poisson mixture model, as
well as a collapsed Gibbs sampler for the model. The benefit of the collapsed
Gibbs sampler derivation is that the model is able to automatically select the
number of topics contained in the corpus. The results show that the
Gamma-Poisson mixture model performs better than the Dirichlet-multinomial
mixture model at selecting the number of topics in labelled corpora.
Furthermore, the Gamma-Poisson mixture produces better topic coherence scores
than the Dirichlet-multinomial mixture model, thus making it a viable option
for the challenging task of topic modelling of short text.
- Abstract(参考訳): ほとんどのトピックモデルは、文書が多項分布に従うという仮定のもとに構築される。
ポアソン分布は、カウントデータの確率を記述するための代替分布である。
トピックモデリングでは、ポアソン分布は一定長さの文書中の単語の発生回数を記述する。
poisson分布はテキスト分類にうまく適用されているが、そのトピックモデリングへの応用は、特に生成確率モデルの文脈において、十分に文書化されていない。
さらに、文学における数少ないPoissonトピックモデルは混合モデルであり、ドキュメントがトピックの混合から生成されると仮定する。
本研究では,短文に焦点をあてる。
多くの研究は、混合モデルの単純な仮定が短いテキストに適合することが示されている。
混合モデルでは、混合モデルとは対照的に、生成的前提は文書が単一のトピックから生成されることである。
この文書ごとに1つのトピックを仮定する1つのトピックモデルは、dirichlet-multinomial mixed modelである。
この研究の主な貢献は、新しいガンマ・ポアソン混合モデルと、モデルのための崩壊したギブス・サンプラーである。
崩壊したgibbs samplerの利点は、モデルがコーパスに含まれるトピックの数を自動的に選択できることである。
その結果,Gamma-Poisson混合モデルはラベル付きコーパスのトピック数を選択する際に,Dirichlet-multinomial混合モデルよりも優れていた。
さらに、ガンマ-ポアソン混合はディリクレ-多項混合モデルよりも優れたトピックコヒーレンススコアを生成するので、短いテキストのトピックモデリングの課題に対して有効な選択肢となる。
関連論文リスト
- BayesBlend: Easy Model Blending using Pseudo-Bayesian Model Averaging, Stacking and Hierarchical Stacking in Python [0.0]
重みを推定し、複数の(ベイジアン)モデルの予測分布をブレンドするために、BayesBlend Pythonパッケージを導入する。
ベイズブレンドは、モデルウェイトを推定するために擬ベイズモデルの平均化、積み重ね、一意的に階層的ベイズ積み重ねを実装している。
ベイズブレンドの保険損失モデリングの例を例に紹介する。
論文 参考訳(メタデータ) (2024-04-30T19:15:33Z) - Self-Evolution Learning for Mixup: Enhance Data Augmentation on Few-Shot
Text Classification Tasks [75.42002070547267]
テキスト分類におけるデータ拡張のための自己進化学習(SE)に基づくミックスアップ手法を提案する。
モデル出力と原サンプルの1つのホットラベルを線形に補間して,新しい軟質なラベル混在を生成する,新しいインスタンス固有ラベル平滑化手法を提案する。
論文 参考訳(メタデータ) (2023-05-22T23:43:23Z) - Topic Analysis for Text with Side Data [18.939336393665553]
本稿では,ニューラルネットワークと潜在トピックモデルを組み合わせたハイブリッド生成確率モデルを提案する。
モデルでは、各文書は、基礎となるトピックの集合上の有限混合としてモデル化される。
各トピックは、基礎となるトピック確率の集合上の無限混合としてモデル化される。
論文 参考訳(メタデータ) (2022-03-01T22:06:30Z) - Sampling from Arbitrary Functions via PSD Models [55.41644538483948]
まず確率分布をモデル化し,そのモデルからサンプリングする。
これらのモデルでは, 少数の評価値を用いて, 高精度に多数の密度を近似することが可能であることが示され, それらのモデルから効果的にサンプルする簡単なアルゴリズムが提示される。
論文 参考訳(メタデータ) (2021-10-20T12:25:22Z) - On the Generative Utility of Cyclic Conditionals [103.1624347008042]
2つの条件付きモデル$p(x|z)$を用いて、共同分布$p(x,z)$をモデル化できるかどうか、また、どのようにしてサイクルを形成するかを検討する。
本稿では,周期条件生成モデリングのためのCyGenフレームワークを提案する。
論文 参考訳(メタデータ) (2021-06-30T10:23:45Z) - Argmax Flows and Multinomial Diffusion: Towards Non-Autoregressive
Language Models [76.22217735434661]
本稿では,Argmax FlowsとMultinomial Diffusionの2種類の分類モデルを提案する。
画像分割マップの言語モデリングとモデリングにおいて,我々のモデルが競合的に機能することを実証する。
論文 参考訳(メタデータ) (2021-02-10T11:04:17Z) - Variational Mixture of Normalizing Flows [0.0]
生成逆数ネットワークオートサイトGAN、変分オートエンコーダオートサイトベイペーパー、およびそれらの変種などの深い生成モデルは、複雑なデータ分布をモデル化するタスクに広く採用されている。
正規化フローはこの制限を克服し、確率密度関数にそのような公式の変更を利用する。
本研究は,混合モデルのコンポーネントとして正規化フローを用い,そのようなモデルのエンドツーエンドトレーニング手順を考案することによって,この問題を克服する。
論文 参考訳(メタデータ) (2020-09-01T17:20:08Z) - Probability Link Models with Symmetric Information Divergence [1.5749416770494706]
リンクモデルの2つの一般的なクラスが提案されている。
最初のモデルは2つの生存関数を結び、比例奇数や変化点のようなモデルに適用できる。
2つ目のモデルは2つの累積確率分布関数をリンクする。
論文 参考訳(メタデータ) (2020-08-10T19:49:51Z) - Contextuality scenarios arising from networks of stochastic processes [68.8204255655161]
経験的モデルは、その分布が X 上の合同分布を極小化することができなければ文脈的と言える。
我々は、多くのプロセス間の相互作用という、文脈的経験的モデルの異なる古典的な源泉を示す。
長期にわたるネットワークの統計的挙動は、経験的モデルを一般的な文脈的かつ強い文脈的にする。
論文 参考訳(メタデータ) (2020-06-22T16:57:52Z) - On the Discrepancy between Density Estimation and Sequence Generation [92.70116082182076]
log-likelihoodは、同じファミリー内のモデルを考えるとき、BLEUと非常に相関している。
異なる家族間でのモデルランキングの相関はみられない。
論文 参考訳(メタデータ) (2020-02-17T20:13:35Z) - Review of Probability Distributions for Modeling Count Data [0.0]
一般化線形モデルは回帰文脈におけるカウントの直接モデリングを可能にする。
カウントが相対情報のみを含む場合、マルチノミアルまたはディリクレ・マルチノミカルモデルの方が適切である。
論文 参考訳(メタデータ) (2020-01-10T18:28:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。