論文の概要: Multivariate Gaussian Topic Modelling: A novel approach to discover topics with greater semantic coherence
- arxiv url: http://arxiv.org/abs/2503.15036v1
- Date: Wed, 19 Mar 2025 09:25:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-20 15:22:45.932040
- Title: Multivariate Gaussian Topic Modelling: A novel approach to discover topics with greater semantic coherence
- Title(参考訳): 多変量ガウス的トピックモデリング:より深いセマンティックコヒーレンスを持つトピックを発見するための新しいアプローチ
- Authors: Satyajeet Sahoo, Jhareswar Maiti, Virendra Kumar Tewari,
- Abstract要約: 本稿では,新しい多変量ガウス的トピックモデリング(MGD)手法を提案する。
この手法は、まず合成データセットに応用され、vis-a-vis LDAの解釈可能性の利点を示す。
このモデルは LDA に対して 0.436 vis-a-vis 0.294 の平均トピックコヒーレンスを達成する。
- 参考スコア(独自算出の注目度): 3.360457684855856
- License:
- Abstract: An important aspect of text mining involves information retrieval in form of discovery of semantic themes (topics) from documents using topic modelling. While generative topic models like Latent Dirichlet Allocation (LDA) elegantly model topics as probability distributions and are useful in identifying latent topics from large document corpora with minimal supervision, they suffer from difficulty in topic interpretability and reduced performance in shorter texts. Here we propose a novel Multivariate Gaussian Topic modelling (MGD) approach. In this approach topics are presented as Multivariate Gaussian Distributions and documents as Gaussian Mixture Models. Using EM algorithm, the various constituent Multivariate Gaussian Distributions and their corresponding parameters are identified. Analysis of the parameters helps identify the keywords having the highest variance and mean contributions to the topic, and from these key-words topic annotations are carried out. This approach is first applied on a synthetic dataset to demonstrate the interpretability benefits vis-\`a-vis LDA. A real-world application of this topic model is demonstrated in analysis of risks and hazards at a petrochemical plant by applying the model on safety incident reports to identify the major latent hazards plaguing the plant. This model achieves a higher mean topic coherence of 0.436 vis-\`a-vis 0.294 for LDA.
- Abstract(参考訳): テキストマイニングの重要な側面は、トピックモデリングを用いた文書から意味テーマ(トピック)を発見するための情報検索である。
Latent Dirichlet Allocation (LDA)のような生成的トピックモデルは、トピックを確率分布としてエレガントにモデル化し、最小限の監督で巨大なドキュメントコーパスから潜在トピックを特定するのに有用であるが、トピックの解釈可能性の難しさと短いテキストのパフォーマンスの低下に悩まされている。
本稿では,多変量ガウス的トピックモデリング(MGD)手法を提案する。
このアプローチでは、多変量ガウス分布と文書をガウス混合モデルとして提示する。
EMアルゴリズムを用いて,多変量ガウス分布とその対応するパラメータを同定する。
パラメータの分析は、最も分散度が高く、トピックへの平均貢献度が高いキーワードを識別するのに役立ち、これらのキーワードのトピックアノテーションが実行される。
このアプローチは、まず合成データセットに応用され、vis-\`a-vis LDAの解釈可能性の利点を示す。
本研究は, 石油化学プラントにおけるリスク・ハザード分析において, 安全事故報告にモデルを適用し, プラントに潜伏する主要なハザードを特定することで実世界の応用を実証するものである。
このモデルは LDA に対して 0.436 vis-\`a-vis 0.294 の平均トピックコヒーレンスを達成する。
関連論文リスト
- Reliability of Topic Modeling [0.3759936323189418]
トピックモデルの信頼性を定量化する標準的な手法は,2つの広く使用されているトピックモデルにおいて,その変動の本質的な側面を捉えるのに失敗することを示す。
合成データと実世界のデータから、マクドナルドの$omega$は信頼性の最高のカプセル化を提供することを示している。
論文 参考訳(メタデータ) (2024-10-30T16:42:04Z) - Investigating the Impact of Text Summarization on Topic Modeling [13.581341206178525]
本稿では,事前学習型大言語モデル(LLM)を用いてトピックモデリング性能をさらに向上する手法を提案する。
トピックモデリングへの影響を比較するために、異なる長さの要約を生成するために、ショットプロンプトはほとんど使われない。
提案手法は,従来のモデルと比較して,トピックの多様性とコヒーレンス値に比較して優れている。
論文 参考訳(メタデータ) (2024-09-28T19:45:45Z) - SMILE: Zero-Shot Sparse Mixture of Low-Rank Experts Construction From Pre-Trained Foundation Models [85.67096251281191]
我々は、ゼロショットスパースミクチャー(SMILE)と呼ばれるモデル融合に対する革新的なアプローチを提案する。
SMILEは、余分なデータやさらなるトレーニングなしに、ソースモデルをMoEモデルにアップスケーリングできる。
画像分類やテキスト生成タスクなど,さまざまなシナリオに対して,フル微調整とLoRA微調整を用いて広範な実験を行う。
論文 参考訳(メタデータ) (2024-08-19T17:32:15Z) - Heterogeneous Multi-Task Gaussian Cox Processes [61.67344039414193]
異種相関タスクを共同でモデル化するためのマルチタスクガウスコックスプロセスの新たな拡張を提案する。
MOGPは、分類、回帰、ポイントプロセスタスクの専用可能性のパラメータに先行して、異種タスク間の情報の共有を容易にする。
モデルパラメータを推定するための閉形式反復更新を実現する平均場近似を導出する。
論文 参考訳(メタデータ) (2023-08-29T15:01:01Z) - A Data-driven Latent Semantic Analysis for Automatic Text Summarization
using LDA Topic Modelling [0.0]
本研究では、トピックモデリングを行うために使用されるLDA(Latent Dirichlet Allocation)アプローチを提案する。
可視化は主要なトピックを概観し、個々のトピックに対する深い意味を許容し、帰結させる。
その結果,処理文書中の話題の出現確率を考慮し,純粋にランク付けされた用語が示唆された。
論文 参考訳(メタデータ) (2022-07-23T11:04:03Z) - ER: Equivariance Regularizer for Knowledge Graph Completion [107.51609402963072]
我々は、新しい正規化器、すなわち等分散正規化器(ER)を提案する。
ERは、頭と尾のエンティティ間の意味的等価性を利用することで、モデルの一般化能力を高めることができる。
実験結果から,最先端関係予測法よりも明確かつ実質的な改善が示された。
論文 参考訳(メタデータ) (2022-06-24T08:18:05Z) - Topic Analysis for Text with Side Data [18.939336393665553]
本稿では,ニューラルネットワークと潜在トピックモデルを組み合わせたハイブリッド生成確率モデルを提案する。
モデルでは、各文書は、基礎となるトピックの集合上の有限混合としてモデル化される。
各トピックは、基礎となるトピック確率の集合上の無限混合としてモデル化される。
論文 参考訳(メタデータ) (2022-03-01T22:06:30Z) - Topic Discovery via Latent Space Clustering of Pretrained Language Model
Representations [35.74225306947918]
本研究では, PLM 埋め込みを基盤とした空間学習とクラスタリングの連携フレームワークを提案する。
提案モデルでは,トピック発見のためにPLMがもたらす強力な表現力と言語的特徴を効果的に活用する。
論文 参考訳(メタデータ) (2022-02-09T17:26:08Z) - Understanding Overparameterization in Generative Adversarial Networks [56.57403335510056]
generative adversarial network (gans) は、非凹型ミニマックス最適化問題を訓練するために用いられる。
ある理論は、グローバル最適解に対する勾配降下 (gd) の重要性を示している。
ニューラルネットワークジェネレータと線形判別器を併用した多層GANにおいて、GDAは、基礎となる非凹面min-max問題の大域的なサドル点に収束することを示す。
論文 参考訳(メタデータ) (2021-04-12T16:23:37Z) - Deep Autoencoding Topic Model with Scalable Hybrid Bayesian Inference [55.35176938713946]
我々は、ガンマ分布の階層構造を用いて、その多確率層生成ネットワークを構築するディープ・オートエンコーディング・トピック・モデル(DATM)を開発した。
Weibull上向き変分エンコーダを提案する。このエンコーダは深層ニューラルネットワークを介して情報を上向きに伝播し,次いで下向き生成モデルを提案する。
大規模コーパス上での教師なしおよび教師なしの学習タスクにおいて,モデルの有効性とスケーラビリティを実証した。
論文 参考訳(メタデータ) (2020-06-15T22:22:56Z) - Bayesian Sparse Factor Analysis with Kernelized Observations [67.60224656603823]
多視点問題は潜在変数モデルに直面することができる。
高次元問題と非線形問題は伝統的にカーネルメソッドによって扱われる。
両アプローチを単一モデルにマージすることを提案する。
論文 参考訳(メタデータ) (2020-06-01T14:25:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。