論文の概要: Topic Analysis for Text with Side Data
- arxiv url: http://arxiv.org/abs/2203.00762v1
- Date: Tue, 1 Mar 2022 22:06:30 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-03 14:21:24.527351
- Title: Topic Analysis for Text with Side Data
- Title(参考訳): サイドデータを用いたテキストの話題分析
- Authors: Biyi Fang, Kripa Rajshekhar, Diego Klabjan
- Abstract要約: 本稿では,ニューラルネットワークと潜在トピックモデルを組み合わせたハイブリッド生成確率モデルを提案する。
モデルでは、各文書は、基礎となるトピックの集合上の有限混合としてモデル化される。
各トピックは、基礎となるトピック確率の集合上の無限混合としてモデル化される。
- 参考スコア(独自算出の注目度): 18.939336393665553
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Although latent factor models (e.g., matrix factorization) obtain good
performance in predictions, they suffer from several problems including
cold-start, non-transparency, and suboptimal recommendations. In this paper, we
employ text with side data to tackle these limitations. We introduce a hybrid
generative probabilistic model that combines a neural network with a latent
topic model, which is a four-level hierarchical Bayesian model. In the model,
each document is modeled as a finite mixture over an underlying set of topics
and each topic is modeled as an infinite mixture over an underlying set of
topic probabilities. Furthermore, each topic probability is modeled as a finite
mixture over side data. In the context of text, the neural network provides an
overview distribution about side data for the corresponding text, which is the
prior distribution in LDA to help perform topic grouping. The approach is
evaluated on several different datasets, where the model is shown to outperform
standard LDA and Dirichlet-multinomial regression (DMR) in terms of topic
grouping, model perplexity, classification and comment generation.
- Abstract(参考訳): 潜在因子モデル(行列分解など)は予測において優れた性能を得るが、コールドスタート、非透過性、準最適推奨などいくつかの問題に悩まされる。
本稿では,これらの制約に対処するために,サイドデータ付きテキストを用いる。
本稿では,ニューラルネットワークと4階層階層ベイズモデルである潜在トピックモデルを組み合わせたハイブリッド生成確率モデルを提案する。
モデルでは、各文書は下位のトピックセット上の有限混合としてモデル化され、各トピックは下位のトピック確率のセット上の無限混合としてモデル化される。
さらに、各話題確率は、側面データ上の有限混合としてモデル化される。
テキストの文脈において、ニューラルネットワークは、トピックグループ化を行うのに役立つldaの事前分布である対応するテキストのサイドデータに関する概要分布を提供する。
このアプローチは、いくつかの異なるデータセットで評価され、モデルがトピックグルーピング、モデルパープレキシティ、分類、コメント生成の点で標準のldaおよびdirichlet-multinomial regression(dmr)を上回ることが示されている。
関連論文リスト
- Sub-graph Based Diffusion Model for Link Prediction [43.15741675617231]
拡散確率モデル(Denoising Diffusion Probabilistic Models, DDPM)は、例外的な品質を持つ同時代の生成モデルである。
本研究では,ベイズ式による確率推定過程を分解するために,専用設計を用いたリンク予測のための新しい生成モデルを構築した。
提案手法は,(1)再トレーニングを伴わないデータセット間の転送可能性,(2)限られたトレーニングデータに対する有望な一般化,(3)グラフ敵攻撃に対する堅牢性など,多くの利点を示す。
論文 参考訳(メタデータ) (2024-09-13T02:23:55Z) - Promises and Pitfalls of Generative Masked Language Modeling: Theoretical Framework and Practical Guidelines [74.42485647685272]
GMLM(Generative Masked Language Models)に焦点を当てる。
我々は,マルコフ連鎖の入力として使用されるマスキングにより,データ分布の条件付き確率に適合するモデルを訓練し,モデルからサンプルを抽出する。
我々は,T5モデルを並列デコーディングに適応させ,最小品質の犠牲を伴って機械翻訳における2~3倍の高速化を実現した。
論文 参考訳(メタデータ) (2024-07-22T18:00:00Z) - Latent Semantic Consensus For Deterministic Geometric Model Fitting [109.44565542031384]
我々はLSC(Latent Semantic Consensus)と呼ばれる効果的な方法を提案する。
LSCは、モデルフィッティング問題をデータポイントとモデル仮説に基づく2つの潜在意味空間に定式化する。
LSCは、一般的な多構造モデルフィッティングのために、数ミリ秒以内で一貫した、信頼性の高いソリューションを提供することができる。
論文 参考訳(メタデータ) (2024-03-11T05:35:38Z) - Let the Pretrained Language Models "Imagine" for Short Texts Topic
Modeling [29.87929724277381]
短いテキストでは、共起情報は最小限であり、結果として文書表現の特徴が分散する。
既存のトピックモデル(確率的あるいは神経的)は、ほとんどの場合、一貫性のあるトピックを生成するためにパターンのマイニングに失敗します。
既存の事前学習言語モデル(PLM)を用いて、短いテキストを長いシーケンスに拡張する。
論文 参考訳(メタデータ) (2023-10-24T00:23:30Z) - Neural Dynamic Focused Topic Model [2.9005223064604078]
ニューラル変動推論の最近の進歩を活用し、ダイナミックフォーカストピックモデルに代替的なニューラルアプローチを提案する。
本稿では,Bernoulli確率変数の列を利用してトピックの出現を追跡するトピック進化のためのニューラルモデルを開発する。
論文 参考訳(メタデータ) (2023-01-26T08:37:34Z) - Data-IQ: Characterizing subgroups with heterogeneous outcomes in tabular
data [81.43750358586072]
本稿では,サンプルをサブグループに体系的に階層化するフレームワークであるData-IQを提案する。
実世界の4つの医療データセットに対するData-IQの利点を実験的に実証した。
論文 参考訳(メタデータ) (2022-10-24T08:57:55Z) - Robust Finite Mixture Regression for Heterogeneous Targets [70.19798470463378]
本稿では,サンプルクラスタの探索と,複数の不完全な混合型ターゲットを同時にモデル化するFMRモデルを提案する。
我々は、高次元の学習フレームワークの下で、無症状のオラクルのパフォーマンス境界をモデルに提供します。
その結果,我々のモデルは最先端の性能を達成できることがわかった。
論文 参考訳(メタデータ) (2020-10-12T03:27:07Z) - Context Reinforced Neural Topic Modeling over Short Texts [15.487822291146689]
文脈強化ニューラルトピックモデル(CRNTM)を提案する。
CRNTMは各単語のトピックを狭い範囲で推測し、各短いテキストがわずかにまとまったトピックだけをカバーしていると仮定する。
2つのベンチマークデータセットの実験は、トピック発見とテキスト分類の両方において提案モデルの有効性を検証する。
論文 参考訳(メタデータ) (2020-08-11T06:41:53Z) - Topic Adaptation and Prototype Encoding for Few-Shot Visual Storytelling [81.33107307509718]
トピック間一般化の能力をモデル化するためのトピック適応型ストーリーテラを提案する。
また,アトピー内導出能力のモデル化を目的とした符号化手法の試作も提案する。
実験結果から,トピック適応とプロトタイプ符号化構造が相互に利益をもたらすことが明らかとなった。
論文 参考訳(メタデータ) (2020-08-11T03:55:11Z) - Model Fusion with Kullback--Leibler Divergence [58.20269014662046]
異種データセットから学習した後続分布を融合する手法を提案する。
我々のアルゴリズムは、融合モデルと個々のデータセット後部の両方に対する平均場仮定に依存している。
論文 参考訳(メタデータ) (2020-07-13T03:27:45Z) - A Gamma-Poisson Mixture Topic Model for Short Text [0.0]
ほとんどのトピックモデルは、文書が多項分布に従うという仮定のもとに構築される。
トピックモデリングでは、ポアソン分布は一定長さの文書中の単語の発生回数を記述する。
文学における数少ないPoissonトピックモデルは、アドミクチャーモデルであり、ドキュメントがトピックの混合から生成されると仮定する。
論文 参考訳(メタデータ) (2020-04-23T21:13:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。