論文の概要: Pre-training is a Hot Topic: Contextualized Document Embeddings Improve
Topic Coherence
- arxiv url: http://arxiv.org/abs/2004.03974v2
- Date: Thu, 17 Jun 2021 11:06:11 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-15 08:56:05.381819
- Title: Pre-training is a Hot Topic: Contextualized Document Embeddings Improve
Topic Coherence
- Title(参考訳): 事前トレーニングはホットトピック: コンテキスト化されたドキュメント埋め込みによるトピックの一貫性向上
- Authors: Federico Bianchi, Silvia Terragni, and Dirk Hovy
- Abstract要約: 提案手法は,従来のbag-of-wordsトピックモデルや最近のニューラルモデルよりも有意義で一貫性のあるトピックを生成する。
以上の結果から,言語モデルの今後の改良は,より優れたトピックモデルに変換されることが示唆された。
- 参考スコア(独自算出の注目度): 29.874072827824627
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Topic models extract groups of words from documents, whose interpretation as
a topic hopefully allows for a better understanding of the data. However, the
resulting word groups are often not coherent, making them harder to interpret.
Recently, neural topic models have shown improvements in overall coherence.
Concurrently, contextual embeddings have advanced the state of the art of
neural models in general. In this paper, we combine contextualized
representations with neural topic models. We find that our approach produces
more meaningful and coherent topics than traditional bag-of-words topic models
and recent neural models. Our results indicate that future improvements in
language models will translate into better topic models.
- Abstract(参考訳): トピックモデルは文書から単語のグループを抽出し、トピックとしての解釈によってデータをよりよく理解することが期待できる。
しかし、結果として得られる単語群はしばしば一貫性がなく、解釈が困難である。
最近のニューラルトピックモデルでは、全体的なコヒーレンスが改善されている。
同時に、文脈埋め込みは、一般にニューラルモデルの技術の進歩を遂げた。
本稿では,文脈化表現とニューラルトピックモデルを組み合わせる。
提案手法は,従来のbag-of-wordsトピックモデルや最近のニューラルモデルよりも有意義で一貫性のあるトピックを生成する。
以上の結果から,言語モデルの改善が話題モデルの改善につながることが示唆された。
関連論文リスト
- $S^3$ -- Semantic Signal Separation [0.16492989697868893]
ニューラル埋め込み空間における理論駆動型トピックモデリング手法を提案する。
S3$は、トピックを意味空間の独立した軸として概念化し、これらをブラインドソース分離で明らかにする。
我々のアプローチは、最も多種多様な、高度に一貫性のあるトピックを提供し、事前処理を必要とせず、これまでで最速の文脈に敏感なトピックモデルであることが示されている。
論文 参考訳(メタデータ) (2024-06-13T19:43:38Z) - Enhanced Short Text Modeling: Leveraging Large Language Models for Topic Refinement [7.6115889231452964]
トピックリファインメント(Topic Refinement)と呼ばれる新しいアプローチを導入する。
このアプローチは、トピックの初期のモデリングに直接関係せず、採掘後にトピックを改善することに重点を置いています。
素早いエンジニアリングを駆使して、所与のトピック内での話題外単語を排除し、文脈的に関係のある単語だけが、よりセマンティックに適合した単語で保存または置換されることを保証する。
論文 参考訳(メタデータ) (2024-03-26T13:50:34Z) - TopicGPT: A Prompt-based Topic Modeling Framework [77.72072691307811]
TopicGPTは,大規模言語モデルを用いてテキストコレクション内の潜在トピックを明らかにするプロンプトベースのフレームワークである。
競合する手法と比較して、人間の分類とよく一致したトピックを生成する。
そのトピックもまた解釈可能であり、自然言語ラベルと関連する自由形式の記述を含むトピックを好んで、曖昧な言葉の袋を除いた。
論文 参考訳(メタデータ) (2023-11-02T17:57:10Z) - Let the Pretrained Language Models "Imagine" for Short Texts Topic
Modeling [29.87929724277381]
短いテキストでは、共起情報は最小限であり、結果として文書表現の特徴が分散する。
既存のトピックモデル(確率的あるいは神経的)は、ほとんどの場合、一貫性のあるトピックを生成するためにパターンのマイニングに失敗します。
既存の事前学習言語モデル(PLM)を用いて、短いテキストを長いシーケンスに拡張する。
論文 参考訳(メタデータ) (2023-10-24T00:23:30Z) - Topics in the Haystack: Extracting and Evaluating Topics beyond
Coherence [0.0]
本稿では,文と文書のテーマを深く理解する手法を提案する。
これにより、一般的な単語やネオロジズムを含む潜在トピックを検出することができる。
本稿では, 侵入者の単語の人間識別と相関係数を示し, 単語侵入作業において, ほぼ人間レベルの結果を得る。
論文 参考訳(メタデータ) (2023-03-30T12:24:25Z) - Topics as Entity Clusters: Entity-based Topics from Language Models and
Graph Neural Networks [0.7734726150561089]
本稿では,概念的エンティティを用いたクラスタベースのトピックモデリング手法を提案する。
エンティティは、リレーショナル情報に富んだ実世界の概念の言語に依存しない表現である。
当社のアプローチは、コヒーレンシメトリクス全体で、他の最先端トピックモデルよりも一貫して優れています。
論文 参考訳(メタデータ) (2023-01-06T10:54:54Z) - HyperMiner: Topic Taxonomy Mining with Hyperbolic Embedding [54.52651110749165]
本稿では,単語や話題を表現するために,メタボリック埋め込みを導入した新しいフレームワークを提案する。
双曲空間のツリー様性により、下層のセマンティック階層はより解釈可能なトピックをマイニングするためによりうまく利用することができる。
論文 参考訳(メタデータ) (2022-10-16T02:54:17Z) - Improving Neural Topic Models using Knowledge Distillation [84.66983329587073]
我々は,確率論的トピックモデルと事前学習されたトランスフォーマーの最適属性を組み合わせるために,知識蒸留を用いる。
我々のモジュラー手法は、どのニューラルトピックモデルでも簡単に適用でき、トピックの品質を向上させることができる。
論文 参考訳(メタデータ) (2020-10-05T22:49:16Z) - Topic Adaptation and Prototype Encoding for Few-Shot Visual Storytelling [81.33107307509718]
トピック間一般化の能力をモデル化するためのトピック適応型ストーリーテラを提案する。
また,アトピー内導出能力のモデル化を目的とした符号化手法の試作も提案する。
実験結果から,トピック適応とプロトタイプ符号化構造が相互に利益をもたらすことが明らかとなった。
論文 参考訳(メタデータ) (2020-08-11T03:55:11Z) - How Far are We from Effective Context Modeling? An Exploratory Study on
Semantic Parsing in Context [59.13515950353125]
文法に基づく意味解析を行い,その上に典型的な文脈モデリング手法を適用する。
我々は,2つの大きなクロスドメインデータセットに対して,13のコンテキストモデリング手法を評価した。
論文 参考訳(メタデータ) (2020-02-03T11:28:10Z) - A Simple Joint Model for Improved Contextual Neural Lemmatization [60.802451210656805]
本稿では,20言語で最先端の成果を得られる,単純結合型ニューラルモデルを提案する。
本論文では,トレーニングと復号化に加えて,本モデルについて述べる。
論文 参考訳(メタデータ) (2019-04-04T02:03:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。