論文の概要: Neural Topic Model via Optimal Transport
- arxiv url: http://arxiv.org/abs/2008.13537v3
- Date: Tue, 31 May 2022 05:19:47 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-31 04:28:48.911529
- Title: Neural Topic Model via Optimal Transport
- Title(参考訳): 最適輸送によるニューラルトピックモデル
- Authors: He Zhao, Dinh Phung, Viet Huynh, Trung Le, Wray Buntine
- Abstract要約: 最適輸送理論(OT)を用いたニューラルトピックモデルを提案する。
具体的には、文書の単語分布に対するOT距離を直接最小化し、文書の話題分布を学習することを提案する。
提案手法は, 異なる損失を伴って効率的に学習することができる。
- 参考スコア(独自算出の注目度): 24.15046280736009
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Recently, Neural Topic Models (NTMs) inspired by variational autoencoders
have obtained increasingly research interest due to their promising results on
text analysis. However, it is usually hard for existing NTMs to achieve good
document representation and coherent/diverse topics at the same time. Moreover,
they often degrade their performance severely on short documents. The
requirement of reparameterisation could also comprise their training quality
and model flexibility. To address these shortcomings, we present a new neural
topic model via the theory of optimal transport (OT). Specifically, we propose
to learn the topic distribution of a document by directly minimising its OT
distance to the document's word distributions. Importantly, the cost matrix of
the OT distance models the weights between topics and words, which is
constructed by the distances between topics and words in an embedding space.
Our proposed model can be trained efficiently with a differentiable loss.
Extensive experiments show that our framework significantly outperforms the
state-of-the-art NTMs on discovering more coherent and diverse topics and
deriving better document representations for both regular and short texts.
- Abstract(参考訳): 近年,変分オートエンコーダにインスパイアされたニューラルトピックモデル (NTM) は,テキスト解析における有望な結果により研究の関心が高まっている。
しかし、既存のNTMでは文書表現やコヒーレント/多元的トピックを同時に達成することは困難である。
また、短い文書ではしばしばパフォーマンスを著しく低下させる。
再パラメータ化の要件は、トレーニング品質とモデルの柔軟性も含み得る。
これらの欠点に対処するため、最適輸送理論(OT)を用いたニューラルトピックモデルを提案する。
具体的には、文書の単語分布に対するOT距離を直接最小化し、文書の話題分布を学習することを提案する。
重要なことに、ot距離のコスト行列は、埋め込み空間におけるトピックとワード間の距離によって構築されるトピックとワードの間の重みをモデル化する。
提案モデルは,可微分損失で効率的に訓練することができる。
大規模な実験により、我々のフレームワークは、より一貫性のある多種多様なトピックを発見し、正規テキストと短テキストの両方により良い文書表現を導出することで、最先端のNTMを著しく上回ります。
関連論文リスト
- Let the Pretrained Language Models "Imagine" for Short Texts Topic
Modeling [29.87929724277381]
短いテキストでは、共起情報は最小限であり、結果として文書表現の特徴が分散する。
既存のトピックモデル(確率的あるいは神経的)は、ほとんどの場合、一貫性のあるトピックを生成するためにパターンのマイニングに失敗します。
既存の事前学習言語モデル(PLM)を用いて、短いテキストを長いシーケンスに拡張する。
論文 参考訳(メタデータ) (2023-10-24T00:23:30Z) - Towards Generalising Neural Topical Representations [12.942999695613508]
本研究では,コーパス間のニューラルトピック表現に関する一般化能力を大幅に向上することを示す。
我々のフレームワークは、ほとんどのNTMにプラグイン・アンド・プレイモジュールとして簡単に適用できます。
論文 参考訳(メタデータ) (2023-07-24T07:17:33Z) - Unified Model Learning for Various Neural Machine Translation [63.320005222549646]
既存の機械翻訳(NMT)研究は主にデータセット固有のモデルの開発に焦点を当てている。
我々は,NMT(UMLNMT)のための統一モデル学習モデル(Unified Model Learning for NMT)を提案する。
OurNMTは、データセット固有のモデルよりも大幅に改善され、モデルデプロイメントコストが大幅に削減される。
論文 参考訳(メタデータ) (2023-05-04T12:21:52Z) - Knowledge-Aware Bayesian Deep Topic Model [50.58975785318575]
本稿では,事前知識を階層型トピックモデリングに組み込むベイズ生成モデルを提案する。
提案モデルでは,事前知識を効率的に統合し,階層的なトピック発見と文書表現の両面を改善する。
論文 参考訳(メタデータ) (2022-09-20T09:16:05Z) - Topic Discovery via Latent Space Clustering of Pretrained Language Model
Representations [35.74225306947918]
本研究では, PLM 埋め込みを基盤とした空間学習とクラスタリングの連携フレームワークを提案する。
提案モデルでは,トピック発見のためにPLMがもたらす強力な表現力と言語的特徴を効果的に活用する。
論文 参考訳(メタデータ) (2022-02-09T17:26:08Z) - HETFORMER: Heterogeneous Transformer with Sparse Attention for Long-Text
Extractive Summarization [57.798070356553936]
HETFORMERはトランスフォーマーをベースとした事前学習モデルであり、抽出要約のための多粒度スパースアテンションを持つ。
単一文書と複数文書の要約タスクの実験から,HETFORMERがルージュF1の最先端性能を達成することが示された。
論文 参考訳(メタデータ) (2021-10-12T22:42:31Z) - Efficient Nearest Neighbor Language Models [114.40866461741795]
非パラメトリックニューラルネットワークモデル(NLM)は、外部データストアを用いてテキストの予測分布を学習する。
比較性能を維持しながら、推論速度の最大6倍の高速化を実現する方法を示す。
論文 参考訳(メタデータ) (2021-09-09T12:32:28Z) - Enhancing Extractive Text Summarization with Topic-Aware Graph Neural
Networks [21.379555672973975]
本稿では,グラフニューラルネットワーク(GNN)に基づく抽出要約モデルを提案する。
本モデルでは,文章選択のための文書レベルの特徴を提供する潜在トピックを発見するために,共同ニューラルトピックモデル(NTM)を統合している。
実験結果から,CNN/DMおよびNYTデータセットにおいて,本モデルがほぼ最先端の結果が得られることが示された。
論文 参考訳(メタデータ) (2020-10-13T09:30:04Z) - Improving Neural Topic Models using Knowledge Distillation [84.66983329587073]
我々は,確率論的トピックモデルと事前学習されたトランスフォーマーの最適属性を組み合わせるために,知識蒸留を用いる。
我々のモジュラー手法は、どのニューラルトピックモデルでも簡単に適用でき、トピックの品質を向上させることができる。
論文 参考訳(メタデータ) (2020-10-05T22:49:16Z) - Context Reinforced Neural Topic Modeling over Short Texts [15.487822291146689]
文脈強化ニューラルトピックモデル(CRNTM)を提案する。
CRNTMは各単語のトピックを狭い範囲で推測し、各短いテキストがわずかにまとまったトピックだけをカバーしていると仮定する。
2つのベンチマークデータセットの実験は、トピック発見とテキスト分類の両方において提案モデルの有効性を検証する。
論文 参考訳(メタデータ) (2020-08-11T06:41:53Z) - Topic Adaptation and Prototype Encoding for Few-Shot Visual Storytelling [81.33107307509718]
トピック間一般化の能力をモデル化するためのトピック適応型ストーリーテラを提案する。
また,アトピー内導出能力のモデル化を目的とした符号化手法の試作も提案する。
実験結果から,トピック適応とプロトタイプ符号化構造が相互に利益をもたらすことが明らかとなった。
論文 参考訳(メタデータ) (2020-08-11T03:55:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。