論文の概要: BERTTM: Leveraging Contextualized Word Embeddings from Pre-trained
Language Models for Neural Topic Modeling
- arxiv url: http://arxiv.org/abs/2305.09329v1
- Date: Tue, 16 May 2023 10:07:33 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-17 15:29:06.948685
- Title: BERTTM: Leveraging Contextualized Word Embeddings from Pre-trained
Language Models for Neural Topic Modeling
- Title(参考訳): BERTTM:ニューラルネットワークモデリングのための事前学習言語モデルからの文脈付き単語埋め込みの活用
- Authors: Zheng Fang, Yulan He and Rob Procter
- Abstract要約: 我々は,事前学習された言語モデルBERTの文脈的単語埋め込みを組み合わせた,新しいニューラルトピックモデルを開発した。
モデルは、BoW情報を使わずに文書のトピック分布を推測することができる。
本モデルは,文書分類とトピックコヒーレンス指標の両方の観点から,既存のトピックモデルより優れている。
- 参考スコア(独自算出の注目度): 39.529668500183014
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: With the development of neural topic models in recent years, topic modelling
is playing an increasingly important role in natural language understanding.
However, most existing topic models still rely on bag-of-words (BoW)
information, either as training input or training target. This limits their
ability to capture word order information in documents and causes them to
suffer from the out-of-vocabulary (OOV) issue, i.e. they cannot handle
unobserved words in new documents. Contextualized word embeddings from
pre-trained language models show superiority in the ability of word sense
disambiguation and prove to be effective in dealing with OOV words. In this
work, we developed a novel neural topic model combining contextualized word
embeddings from the pre-trained language model BERT. The model can infer the
topic distribution of a document without using any BoW information. In
addition, the model can infer the topic distribution of each word in a document
directly from the contextualized word embeddings. Experiments on several
datasets show that our model outperforms existing topic models in terms of both
document classification and topic coherence metrics and can accommodate unseen
words from newly arrived documents. Experiments on the NER dataset also show
that our model can produce high-quality word topic representations.
- Abstract(参考訳): 近年のニューラルトピックモデルの発展に伴い、トピックモデリングは自然言語理解においてますます重要な役割を担っている。
しかしながら、既存のトピックモデルのほとんどは、トレーニング入力やトレーニングターゲットとして、Backer-of-words (BoW)情報に依存している。
これにより、文書内の単語の順序情報をキャプチャする能力が制限され、語彙外問題(OOV)に悩まされる。
事前学習された言語モデルからの文脈的単語埋め込みは、単語感覚の曖昧さの能力において優位性を示し、OOV語を扱うのに有効であることを示す。
本研究では,事前学習した言語モデルBERTの文脈的単語埋め込みを組み合わせたニューラルトピックモデルを開発した。
モデルは、BoW情報を使わずに文書のトピック分布を推測することができる。
さらに、文脈化された単語埋め込みから直接文書内の各単語の話題分布を推測することができる。
いくつかのデータセットに対する実験により,本モデルは文書分類とトピックコヒーレンス指標の両方の観点から既存のトピックモデルよりも優れており,新たに到着した文書から目に見えない単語を収容できることがわかった。
また,NERデータセットを用いた実験により,高品質な単語トピック表現を生成できることを示した。
関連論文リスト
- TopicGPT: A Prompt-based Topic Modeling Framework [77.72072691307811]
TopicGPTは,大規模言語モデルを用いてテキストコレクション内の潜在トピックを明らかにするプロンプトベースのフレームワークである。
競合する手法と比較して、人間の分類とよく一致したトピックを生成する。
そのトピックもまた解釈可能であり、自然言語ラベルと関連する自由形式の記述を含むトピックを好んで、曖昧な言葉の袋を除いた。
論文 参考訳(メタデータ) (2023-11-02T17:57:10Z) - Knowledge-Aware Bayesian Deep Topic Model [50.58975785318575]
本稿では,事前知識を階層型トピックモデリングに組み込むベイズ生成モデルを提案する。
提案モデルでは,事前知識を効率的に統合し,階層的なトピック発見と文書表現の両面を改善する。
論文 参考訳(メタデータ) (2022-09-20T09:16:05Z) - Keyword Assisted Embedded Topic Model [1.9000421840914223]
確率論的トピックモデルは、文書内の単語がトピックと呼ばれる潜在分布の集合を通してどのように生成されるかを記述する。
近年,組込みトピックモデル (ETM) がLDAを拡張して,単語埋め込みにおける意味情報を利用して意味的にリッチなトピックを導出している。
本稿では,ユーザ知識を情報的トピックレベルの先行情報に組み込む機能を備えたKeyETM(Keyword Assisted Embedded Topic Model)を提案する。
論文 参考訳(メタデータ) (2021-11-22T07:27:17Z) - Keyphrase Extraction Using Neighborhood Knowledge Based on Word
Embeddings [17.198907789163123]
我々は、単語埋め込みを背景知識として活用して、単語間グラフに意味情報を加えることにより、グラフベースのランキングモデルを強化する。
提案手法は,確立されたベンチマークデータセットを用いて評価し,単語の埋め込み近傍情報によりモデル性能が向上することを示す。
論文 参考訳(メタデータ) (2021-11-13T21:48:18Z) - Neural Attention-Aware Hierarchical Topic Model [25.721713066830404]
文と文書語数を共同で再構成する変分自動エンコーダ(VAE)NTMモデルを提案する。
我々のモデルは、各文書の埋め込みを利用して文の正規化を行う階層的なKL分岐も特徴としている。
定量的および定性的な実験は,1) 文レベルと文書レベルの再現誤りを低減し,2) 実世界のデータセットからより一貫性のあるトピックを発見できる。
論文 参考訳(メタデータ) (2021-10-14T05:42:32Z) - More Than Words: Collocation Tokenization for Latent Dirichlet
Allocation Models [71.42030830910227]
モデルが異なる環境でクラスタリングの品質を測定するための新しい指標を提案する。
マージトークンでトレーニングされたトピックは、マージされていないモデルよりも、より明確で、一貫性があり、トピックを区別する効果が高いトピックキーをもたらすことを示す。
論文 参考訳(メタデータ) (2021-08-24T14:08:19Z) - Accurate Word Representations with Universal Visual Guidance [55.71425503859685]
本稿では,視覚指導から従来の単語埋め込みを視覚的に強調する視覚的表現法を提案する。
各単語が多様な関連画像に対応するマルチモーダルシードデータセットから,小型の単語画像辞書を構築する。
12の自然言語理解および機械翻訳タスクの実験により,提案手法の有効性と一般化能力がさらに検証された。
論文 参考訳(メタデータ) (2020-12-30T09:11:50Z) - TAN-NTM: Topic Attention Networks for Neural Topic Modeling [8.631228373008478]
本稿では,入力層におけるBoWの代わりに,文書をトークンのシーケンスとしてモデル化する新しいフレームワークであるTAN-NTMを提案する。
我々はLSTM出力に注意を払って、トピックに関連する手がかりを伝達する関連単語への参加をモデルに与える。
TAN-NTMは、NPMIコヒーレンスメトリックにおける既存のSOTAトピックモデルのスコアよりも9~15パーセント向上した最先端結果を達成する。
論文 参考訳(メタデータ) (2020-12-02T20:58:04Z) - A Neural Generative Model for Joint Learning Topics and Topic-Specific
Word Embeddings [42.87769996249732]
共同学習トピックとトピック固有の単語埋め込みのための局所的・グローバル的文脈を探索する新しい生成モデルを提案する。
訓練されたモデルは、単語を話題に依存した埋め込みにマッピングする。
論文 参考訳(メタデータ) (2020-08-11T13:54:11Z) - A Survey on Contextual Embeddings [48.04732268018772]
文脈埋め込みは、各単語を文脈に基づく表現として割り当て、様々な文脈にまたがる単語の使用を捉え、言語間で伝達される知識を符号化する。
本稿では,既存の文脈埋め込みモデル,言語間多言語事前学習,下流タスクへの文脈埋め込みの適用,モデル圧縮,モデル解析についてレビューする。
論文 参考訳(メタデータ) (2020-03-16T15:22:22Z) - Learning to Select Bi-Aspect Information for Document-Scale Text Content
Manipulation [50.01708049531156]
我々は、テキストスタイルの転送とは逆の文書スケールのテキストコンテンツ操作という、新しい実践的なタスクに焦点を当てる。
詳細は、入力は構造化されたレコードと、別のレコードセットを記述するための参照テキストのセットである。
出力は、ソースレコードセットの部分的内容と参照の書き込みスタイルを正確に記述した要約である。
論文 参考訳(メタデータ) (2020-02-24T12:52:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。