論文の概要: Context Reinforced Neural Topic Modeling over Short Texts
- arxiv url: http://arxiv.org/abs/2008.04545v1
- Date: Tue, 11 Aug 2020 06:41:53 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-31 12:03:34.259621
- Title: Context Reinforced Neural Topic Modeling over Short Texts
- Title(参考訳): 短文による文脈強化型ニューラルトピックモデリング
- Authors: Jiachun Feng, Zusheng Zhang, Cheng Ding, Yanghui Rao and Haoran Xie
- Abstract要約: 文脈強化ニューラルトピックモデル(CRNTM)を提案する。
CRNTMは各単語のトピックを狭い範囲で推測し、各短いテキストがわずかにまとまったトピックだけをカバーしていると仮定する。
2つのベンチマークデータセットの実験は、トピック発見とテキスト分類の両方において提案モデルの有効性を検証する。
- 参考スコア(独自算出の注目度): 15.487822291146689
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: As one of the prevalent topic mining tools, neural topic modeling has
attracted a lot of interests for the advantages of high efficiency in training
and strong generalisation abilities. However, due to the lack of context in
each short text, the existing neural topic models may suffer from feature
sparsity on such documents. To alleviate this issue, we propose a Context
Reinforced Neural Topic Model (CRNTM), whose characteristics can be summarized
as follows. Firstly, by assuming that each short text covers only a few salient
topics, CRNTM infers the topic for each word in a narrow range. Secondly, our
model exploits pre-trained word embeddings by treating topics as multivariate
Gaussian distributions or Gaussian mixture distributions in the embedding
space. Extensive experiments on two benchmark datasets validate the
effectiveness of the proposed model on both topic discovery and text
classification.
- Abstract(参考訳): 話題マイニングツールとして、ニューラルネットワークのトピックモデリングは、高い効率のトレーニングと強力な一般化能力の利点のために多くの関心を集めている。
しかし、各短いテキストにコンテキストが欠如しているため、既存のニューラルトピックモデルはそのような文書の特徴的疎結合に悩まされる可能性がある。
この問題を軽減するために, 以下の特徴を要約できるコンテキスト強化ニューラルトピックモデル(CRNTM)を提案する。
第一に、各短文が少数の有意なトピックのみをカバーしていると仮定することで、CRNTMは各単語のトピックを狭い範囲で推測する。
次に,学習済みの単語埋め込みを多変量ガウス分布やガウス混合分布として扱うことにより活用する。
2つのベンチマークデータセットの大規模な実験は、トピック発見とテキスト分類の両方において提案モデルの有効性を検証する。
関連論文リスト
- Let the Pretrained Language Models "Imagine" for Short Texts Topic
Modeling [29.87929724277381]
短いテキストでは、共起情報は最小限であり、結果として文書表現の特徴が分散する。
既存のトピックモデル(確率的あるいは神経的)は、ほとんどの場合、一貫性のあるトピックを生成するためにパターンのマイニングに失敗します。
既存の事前学習言語モデル(PLM)を用いて、短いテキストを長いシーケンスに拡張する。
論文 参考訳(メタデータ) (2023-10-24T00:23:30Z) - Effective Neural Topic Modeling with Embedding Clustering Regularization [21.692088899479934]
新しいニューラルトピックモデルであるクラスタリング規則化トピックモデル(ECRTM)を提案する。
ECRTMは各トピックの埋め込みを、セマンティック空間内の個別に集約されたワード埋め込みクラスタの中心に強制する。
我々のECRTMは文書の質の高いトピック分布とともに多様で一貫性のあるトピックを生成する。
論文 参考訳(メタデータ) (2023-06-07T07:45:38Z) - Is Neural Topic Modelling Better than Clustering? An Empirical Study on
Clustering with Contextual Embeddings for Topics [28.13990734234436]
最近の研究は、学習済み単語埋め込みをニューラルトピックモデル(NTM)に組み込んでいる。
本稿では,高品質な文の埋め込みを適切な単語選択手法で直接クラスタリングすることで,NTMよりも一貫性と多種多様なトピックを生成できることを示す。
論文 参考訳(メタデータ) (2022-04-21T04:26:51Z) - Author Clustering and Topic Estimation for Short Texts [69.54017251622211]
同じ文書中の単語間の強い依存をモデル化することにより、遅延ディリクレ割当を拡張できる新しいモデルを提案する。
同時にユーザをクラスタ化し、ホック後のクラスタ推定の必要性を排除しています。
我々の手法は、短文で生じる問題に対する従来のアプローチよりも、-または----------- で機能する。
論文 参考訳(メタデータ) (2021-06-15T20:55:55Z) - Be More with Less: Hypergraph Attention Networks for Inductive Text
Classification [56.98218530073927]
グラフニューラルネットワーク(GNN)は、研究コミュニティで注目され、この標準タスクで有望な結果を実証している。
成功にもかかわらず、それらのパフォーマンスは、単語間の高次相互作用をキャプチャできないため、実際は大部分が危険に晒される可能性がある。
本稿では,テキスト表現学習において,少ない計算量でより表現力の高いハイパーグラフアテンションネットワーク(HyperGAT)を提案する。
論文 参考訳(メタデータ) (2020-11-01T00:21:59Z) - Improving Neural Topic Models using Knowledge Distillation [84.66983329587073]
我々は,確率論的トピックモデルと事前学習されたトランスフォーマーの最適属性を組み合わせるために,知識蒸留を用いる。
我々のモジュラー手法は、どのニューラルトピックモデルでも簡単に適用でき、トピックの品質を向上させることができる。
論文 参考訳(メタデータ) (2020-10-05T22:49:16Z) - Modeling Topical Relevance for Multi-Turn Dialogue Generation [61.87165077442267]
マルチターン対話におけるトピックドリフト問題に対処する新しいモデルSTAR-BTMを提案する。
バイラルトピックモデルは、トレーニングデータセット全体に基づいて事前トレーニングされ、各コンテキストのトピック表現に基づいてトピックレベルの注意重みが計算される。
中国における顧客サービスデータと英語Ubuntuの対話データの両方の実験結果から、STAR-BTMは最先端の手法を著しく上回っていることがわかった。
論文 参考訳(メタデータ) (2020-09-27T03:33:22Z) - Neural Topic Model via Optimal Transport [24.15046280736009]
最適輸送理論(OT)を用いたニューラルトピックモデルを提案する。
具体的には、文書の単語分布に対するOT距離を直接最小化し、文書の話題分布を学習することを提案する。
提案手法は, 異なる損失を伴って効率的に学習することができる。
論文 参考訳(メタデータ) (2020-08-12T06:37:09Z) - Topic Adaptation and Prototype Encoding for Few-Shot Visual Storytelling [81.33107307509718]
トピック間一般化の能力をモデル化するためのトピック適応型ストーリーテラを提案する。
また,アトピー内導出能力のモデル化を目的とした符号化手法の試作も提案する。
実験結果から,トピック適応とプロトタイプ符号化構造が相互に利益をもたらすことが明らかとなった。
論文 参考訳(メタデータ) (2020-08-11T03:55:11Z) - Neural Data-to-Text Generation via Jointly Learning the Segmentation and
Correspondence [48.765579605145454]
対象のテキストを断片単位に明示的に分割し,それらのデータ対応と整合させることを提案する。
結果として生じるアーキテクチャは、ニューラルアテンションモデルと同じ表現力を維持している。
E2EとWebNLGのベンチマークでは、提案モデルがニューラルアテンションよりも一貫して優れていることを示す。
論文 参考訳(メタデータ) (2020-05-03T14:28:28Z) - Neural Topic Modeling with Bidirectional Adversarial Training [37.71988156164695]
本稿では,BATモデル(Bidirectional Adversarial Topic)と呼ばれるニューラルトピックモデリング手法を提案する。
BATは、文書トピック分布と文書ワード分布との間に双方向のプロジェクションを構築する。
単語関連性情報を組み込むため、ガウス語(ガウス語-BAT)を用いた双方向逆トピックモデルを拡張する。
論文 参考訳(メタデータ) (2020-04-26T09:41:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。