論文の概要: Neural Attention-Aware Hierarchical Topic Model
- arxiv url: http://arxiv.org/abs/2110.07161v1
- Date: Thu, 14 Oct 2021 05:42:32 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-15 12:54:17.729589
- Title: Neural Attention-Aware Hierarchical Topic Model
- Title(参考訳): 神経注意認識階層的話題モデル
- Authors: Yuan Jin, He Zhao, Ming Liu, Lan Du, Wray Buntine
- Abstract要約: 文と文書語数を共同で再構成する変分自動エンコーダ(VAE)NTMモデルを提案する。
我々のモデルは、各文書の埋め込みを利用して文の正規化を行う階層的なKL分岐も特徴としている。
定量的および定性的な実験は,1) 文レベルと文書レベルの再現誤りを低減し,2) 実世界のデータセットからより一貫性のあるトピックを発見できる。
- 参考スコア(独自算出の注目度): 25.721713066830404
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Neural topic models (NTMs) apply deep neural networks to topic modelling.
Despite their success, NTMs generally ignore two important aspects: (1) only
document-level word count information is utilized for the training, while more
fine-grained sentence-level information is ignored, and (2) external semantic
knowledge regarding documents, sentences and words are not exploited for the
training. To address these issues, we propose a variational autoencoder (VAE)
NTM model that jointly reconstructs the sentence and document word counts using
combinations of bag-of-words (BoW) topical embeddings and pre-trained semantic
embeddings. The pre-trained embeddings are first transformed into a common
latent topical space to align their semantics with the BoW embeddings. Our
model also features hierarchical KL divergence to leverage embeddings of each
document to regularize those of their sentences, thereby paying more attention
to semantically relevant sentences. Both quantitative and qualitative
experiments have shown the efficacy of our model in 1) lowering the
reconstruction errors at both the sentence and document levels, and 2)
discovering more coherent topics from real-world datasets.
- Abstract(参考訳): ニューラルトピックモデル(NTM)は、ディープニューラルネットワークをトピックモデリングに適用する。
その成功にもかかわらず、NTMは一般に2つの重要な側面を無視する:(1)文書レベルの単語カウント情報のみを訓練に利用し、(2)よりきめ細かい文レベルの情報を無視し、(2)文書、文、単語に関する外部意味知識を訓練に利用しない。
これらの問題に対処するために,文と文書語数を共同で再構成する変分自動エンコーダ(VAE)NTMモデルを提案する。
事前訓練された埋め込みは、まず共通の潜在トピック空間に変換され、それらの意味をBoW埋め込みと整合させる。
このモデルでは階層的kl分岐も特徴とし,各文書の埋め込みを利用して文を規則化し,意味的に関連する文に注意を払う。
定量的および質的実験により, モデルの有効性が示された。
1)文及び文書レベルでの復元誤差の低減、及び
2) 現実世界のデータセットからより一貫性のあるトピックを見つける。
関連論文リスト
- CWTM: Leveraging Contextualized Word Embeddings from BERT for Neural
Topic Modeling [23.323587005085564]
CWTM(Contextlized Word Topic Model)と呼ばれる新しいニューラルトピックモデルを導入する。
CWTMは、BERTからコンテキスト化された単語の埋め込みを統合する。
BOW情報なしで文書のトピックベクトルを学習することができる。
また、文脈化された単語の埋め込みに基づいて、文書内の個々の単語のトピックベクトルを導出することもできる。
論文 参考訳(メタデータ) (2023-05-16T10:07:33Z) - Topics in the Haystack: Extracting and Evaluating Topics beyond
Coherence [0.0]
本稿では,文と文書のテーマを深く理解する手法を提案する。
これにより、一般的な単語やネオロジズムを含む潜在トピックを検出することができる。
本稿では, 侵入者の単語の人間識別と相関係数を示し, 単語侵入作業において, ほぼ人間レベルの結果を得る。
論文 参考訳(メタデータ) (2023-03-30T12:24:25Z) - Large Language Models with Controllable Working Memory [64.71038763708161]
大規模言語モデル(LLM)は、自然言語処理(NLP)の一連のブレークスルーをもたらした。
これらのモデルをさらに切り離すのは、事前訓練中に内在する膨大な量の世界的知識だ。
モデルの世界知識が、文脈で提示された事実情報とどのように相互作用するかは、まだ解明されていない。
論文 参考訳(メタデータ) (2022-11-09T18:58:29Z) - Multi-source Neural Topic Modeling in Multi-view Embedding Spaces [21.506835768643466]
本研究は,マルチビュー埋め込み空間を用いたニューラルトピックモデリングフレームワークを提案する。
まず、事前訓練されたトピック(TopicPool)とワード埋め込み(WordPool)の各プールを構築します。
次に、1つ以上の関連するソースドメインを特定し、スパースターゲットドメインで意味のある学習をガイドするために知識を伝達する。
論文 参考訳(メタデータ) (2021-04-17T14:08:00Z) - Syntax-Enhanced Pre-trained Model [49.1659635460369]
BERTやRoBERTaなどの学習済みモデルを強化するために、テキストの構文構造を活用するという問題を研究する。
既存の手法では、事前学習段階または微調整段階のいずれかでテキストの構文を利用しており、両者の区別に苦しむ。
事前学習と微調整の両方の段階でテキストのシンタックスを利用するモデルを提示する。
論文 参考訳(メタデータ) (2020-12-28T06:48:04Z) - SLM: Learning a Discourse Language Representation with Sentence
Unshuffling [53.42814722621715]
談話言語表現を学習するための新しい事前学習目的である文レベル言語モデリングを導入する。
本モデルでは,この特徴により,従来のBERTの性能が大幅に向上することを示す。
論文 参考訳(メタデータ) (2020-10-30T13:33:41Z) - Abstractive Summarization of Spoken and Written Instructions with BERT [66.14755043607776]
本稿では,BERTSumモデルの最初の対話型言語への応用について述べる。
我々は多種多様な話題にまたがるナレーションビデオの抽象要約を生成する。
我々は、これをインテリジェントな仮想アシスタントの機能として統合し、要求に応じて文字と音声の両方の指導内容の要約を可能にすることを想定する。
論文 参考訳(メタデータ) (2020-08-21T20:59:34Z) - A Neural Generative Model for Joint Learning Topics and Topic-Specific
Word Embeddings [42.87769996249732]
共同学習トピックとトピック固有の単語埋め込みのための局所的・グローバル的文脈を探索する新しい生成モデルを提案する。
訓練されたモデルは、単語を話題に依存した埋め込みにマッピングする。
論文 参考訳(メタデータ) (2020-08-11T13:54:11Z) - Context Reinforced Neural Topic Modeling over Short Texts [15.487822291146689]
文脈強化ニューラルトピックモデル(CRNTM)を提案する。
CRNTMは各単語のトピックを狭い範囲で推測し、各短いテキストがわずかにまとまったトピックだけをカバーしていると仮定する。
2つのベンチマークデータセットの実験は、トピック発見とテキスト分類の両方において提案モデルの有効性を検証する。
論文 参考訳(メタデータ) (2020-08-11T06:41:53Z) - BURT: BERT-inspired Universal Representation from Twin Structure [89.82415322763475]
BURT (BERT inspired Universal Representation from Twin Structure) は任意の粒度の入力シーケンスに対して普遍的で固定サイズの表現を生成することができる。
提案するBURTは,Siameseネットワークを採用し,自然言語推論データセットから文レベル表現を学習し,パラフレーズ化データセットから単語/フレーズレベル表現を学習する。
我々は,STSタスク,SemEval2013 Task 5(a) など,テキスト類似性タスクの粒度によってBURTを評価する。
論文 参考訳(メタデータ) (2020-04-29T04:01:52Z) - Towards Making the Most of Context in Neural Machine Translation [112.9845226123306]
我々は、これまでの研究がグローバルな文脈をはっきりと利用しなかったと論じている。
本研究では,各文の局所的文脈を意図的にモデル化する文書レベルNMTフレームワークを提案する。
論文 参考訳(メタデータ) (2020-02-19T03:30:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。