論文の概要: Improving the Inference of Topic Models via Infinite Latent State
Replications
- arxiv url: http://arxiv.org/abs/2301.12974v1
- Date: Wed, 25 Jan 2023 17:07:25 GMT
- ステータス: 処理完了
- システム内更新日: 2023-02-05 04:27:25.228920
- Title: Improving the Inference of Topic Models via Infinite Latent State
Replications
- Title(参考訳): Infinite Latent State Replicationsによるトピックモデルの推論の改善
- Authors: Daniel Rugeles and Zhen Hai and Juan Felipe Carmona and Manoranjan
Dash and Gao Cong
- Abstract要約: トピックモデルに対する最も一般的な推論手法の1つは、おそらく崩壊したギブスサンプリング(CGS)である。
本稿では, トピックサンプル数を無限大に最大化することで, 状態拡張技術を活用することを提案する。
そこで我々は,各文書と単語のペアごとに頑健なソフトトピック代入を生成するために,無限潜在状態複製 (ILR) と呼ばれる新しい推論手法を開発した。
- 参考スコア(独自算出の注目度): 18.632435007093594
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In text mining, topic models are a type of probabilistic generative models
for inferring latent semantic topics from text corpus. One of the most popular
inference approaches to topic models is perhaps collapsed Gibbs sampling (CGS),
which typically samples one single topic label for each observed document-word
pair. In this paper, we aim at improving the inference of CGS for topic models.
We propose to leverage state augmentation technique by maximizing the number of
topic samples to infinity, and then develop a new inference approach, called
infinite latent state replication (ILR), to generate robust soft topic
assignment for each given document-word pair. Experimental results on the
publicly available datasets show that ILR outperforms CGS for inference of
existing established topic models.
- Abstract(参考訳): テキストマイニングにおいて、トピックモデルはテキストコーパスから潜在意味トピックを推測するための確率的生成モデルの一種である。
トピックモデルに対する最も一般的な推論アプローチの1つは、おそらく崩壊したgibbsサンプリング(cgs)である。
本稿では,トピックモデルに対するCGSの推論を改善することを目的とする。
そこで本稿では,トピックサンプル数を無限に最大化し,無限潜在状態レプリケーション(ilr)と呼ばれる新しい推論手法を開発し,各文書と単語のペアに対して頑健なソフトトピック割り当てを生成することを提案する。
公開データセットによる実験結果から, ILR は既存のトピックモデルの推定において CGS よりも優れていた。
関連論文リスト
- Enhancing Short-Text Topic Modeling with LLM-Driven Context Expansion and Prefix-Tuned VAEs [25.915607750636333]
本稿では,大規模言語モデル(LLM)を利用して,トピックモデリングを適用する前に,短いテキストをより詳細なシーケンスに拡張する手法を提案する。
提案手法は,データ空間が極端である実世界のデータセットに対する広範な実験により,短文のトピックモデリング性能を著しく向上させる。
論文 参考訳(メタデータ) (2024-10-04T01:28:56Z) - Explaining Datasets in Words: Statistical Models with Natural Language Parameters [66.69456696878842]
本稿では, クラスタリング, 時系列, 分類モデルなど, 自然言語の述語によってパラメータ化される統計モデル群を紹介する。
当社のフレームワークは、ユーザチャット対話の分類、時間の経過とともにどのように進化するかの特徴付け、一方の言語モデルが他方よりも優れているカテゴリを見つけることなど、幅広い問題に適用しています。
論文 参考訳(メタデータ) (2024-09-13T01:40:20Z) - Let the Pretrained Language Models "Imagine" for Short Texts Topic
Modeling [29.87929724277381]
短いテキストでは、共起情報は最小限であり、結果として文書表現の特徴が分散する。
既存のトピックモデル(確率的あるいは神経的)は、ほとんどの場合、一貫性のあるトピックを生成するためにパターンのマイニングに失敗します。
既存の事前学習言語モデル(PLM)を用いて、短いテキストを長いシーケンスに拡張する。
論文 参考訳(メタデータ) (2023-10-24T00:23:30Z) - Visually-Prompted Language Model for Fine-Grained Scene Graph Generation
in an Open World [67.03968403301143]
SGG(Scene Graph Generation)は、視覚理解のための画像中の主観的、述語的、対象的な関係を抽出することを目的としている。
既存の再バランス戦略は、以前のルールを通じてそれを処理しようとするが、まだ事前に定義された条件に制限されている。
そこで我々は,多種多様な粒度の述語を生成するために,視覚的にプロンプトされた言語モデルを学習するクロスモーダルプレディケイトブースティング(CaCao)フレームワークを提案する。
論文 参考訳(メタデータ) (2023-03-23T13:06:38Z) - Neural Dynamic Focused Topic Model [2.9005223064604078]
ニューラル変動推論の最近の進歩を活用し、ダイナミックフォーカストピックモデルに代替的なニューラルアプローチを提案する。
本稿では,Bernoulli確率変数の列を利用してトピックの出現を追跡するトピック進化のためのニューラルモデルを開発する。
論文 参考訳(メタデータ) (2023-01-26T08:37:34Z) - Knowledge-Aware Bayesian Deep Topic Model [50.58975785318575]
本稿では,事前知識を階層型トピックモデリングに組み込むベイズ生成モデルを提案する。
提案モデルでは,事前知識を効率的に統合し,階層的なトピック発見と文書表現の両面を改善する。
論文 参考訳(メタデータ) (2022-09-20T09:16:05Z) - Topic Discovery via Latent Space Clustering of Pretrained Language Model
Representations [35.74225306947918]
本研究では, PLM 埋め込みを基盤とした空間学習とクラスタリングの連携フレームワークを提案する。
提案モデルでは,トピック発見のためにPLMがもたらす強力な表現力と言語的特徴を効果的に活用する。
論文 参考訳(メタデータ) (2022-02-09T17:26:08Z) - Unsupervised Summarization with Customized Granularities [76.26899748972423]
本稿では,最初の教師なし多粒度要約フレームワークであるGranuSumを提案する。
異なる数のイベントを入力することで、GranuSumは教師なしの方法で複数の粒度のサマリーを生成することができる。
論文 参考訳(メタデータ) (2022-01-29T05:56:35Z) - Author Clustering and Topic Estimation for Short Texts [69.54017251622211]
同じ文書中の単語間の強い依存をモデル化することにより、遅延ディリクレ割当を拡張できる新しいモデルを提案する。
同時にユーザをクラスタ化し、ホック後のクラスタ推定の必要性を排除しています。
我々の手法は、短文で生じる問題に対する従来のアプローチよりも、-または----------- で機能する。
論文 参考訳(メタデータ) (2021-06-15T20:55:55Z) - Unsupervised Graph-based Topic Modeling from Video Transcriptions [5.210353244951637]
ニューラルワード埋め込みとグラフベースのクラスタリング手法を用いて,映像の書き起こしに関するトピック抽出器を開発した。
実生活マルチモーダルデータセット MuSe-CaR の実験結果から,本手法は一貫性と意味のあるトピックを抽出することを示した。
論文 参考訳(メタデータ) (2021-05-04T12:48:17Z) - Topic Adaptation and Prototype Encoding for Few-Shot Visual Storytelling [81.33107307509718]
トピック間一般化の能力をモデル化するためのトピック適応型ストーリーテラを提案する。
また,アトピー内導出能力のモデル化を目的とした符号化手法の試作も提案する。
実験結果から,トピック適応とプロトタイプ符号化構造が相互に利益をもたらすことが明らかとなった。
論文 参考訳(メタデータ) (2020-08-11T03:55:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。