論文の概要: Keyword Assisted Embedded Topic Model
- arxiv url: http://arxiv.org/abs/2112.03101v1
- Date: Mon, 22 Nov 2021 07:27:17 GMT
- ステータス: 処理完了
- システム内更新日: 2021-12-12 15:17:51.725881
- Title: Keyword Assisted Embedded Topic Model
- Title(参考訳): キーワード支援組込みトピックモデル
- Authors: Bahareh Harandizadeh, J. Hunter Priniski, Fred Morstatter
- Abstract要約: 確率論的トピックモデルは、文書内の単語がトピックと呼ばれる潜在分布の集合を通してどのように生成されるかを記述する。
近年,組込みトピックモデル (ETM) がLDAを拡張して,単語埋め込みにおける意味情報を利用して意味的にリッチなトピックを導出している。
本稿では,ユーザ知識を情報的トピックレベルの先行情報に組み込む機能を備えたKeyETM(Keyword Assisted Embedded Topic Model)を提案する。
- 参考スコア(独自算出の注目度): 1.9000421840914223
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: By illuminating latent structures in a corpus of text, topic models are an
essential tool for categorizing, summarizing, and exploring large collections
of documents. Probabilistic topic models, such as latent Dirichlet allocation
(LDA), describe how words in documents are generated via a set of latent
distributions called topics. Recently, the Embedded Topic Model (ETM) has
extended LDA to utilize the semantic information in word embeddings to derive
semantically richer topics. As LDA and its extensions are unsupervised models,
they aren't defined to make efficient use of a user's prior knowledge of the
domain. To this end, we propose the Keyword Assisted Embedded Topic Model
(KeyETM), which equips ETM with the ability to incorporate user knowledge in
the form of informative topic-level priors over the vocabulary. Using both
quantitative metrics and human responses on a topic intrusion task, we
demonstrate that KeyETM produces better topics than other guided, generative
models in the literature.
- Abstract(参考訳): テキストコーパス内の潜在構造を照らすことによって、トピックモデルはドキュメントの大規模なコレクションを分類、要約、探索するための必須のツールとなる。
潜在ディリクレ割り当て(LDA)のような確率論的トピックモデルでは、文書内の単語がトピックと呼ばれる潜在分布の集合を通してどのように生成されるかを記述する。
近年,組込みトピックモデル (ETM) がLDAを拡張して,単語埋め込みにおける意味情報を利用して意味的にリッチなトピックを導出している。
LDAとその拡張は教師なしのモデルであるため、ユーザのドメインに関する以前の知識を効率的に利用するように定義されていない。
この目的のために,キーワード支援組込みトピックモデル(KeyETM, Keyword Assisted Embedded Topic Model)を提案する。
トピック侵入タスクにおける定量的指標と人的応答の両方を用いて、KeyETMは文献における他のガイド付き生成モデルよりも優れたトピックを生成することを示した。
関連論文リスト
- Interactive Topic Models with Optimal Transport [75.26555710661908]
ラベル名監視型トピックモデリングのためのアプローチとして,EdTMを提案する。
EdTMは、LM/LLMベースのドキュメントトピック親和性を活用しながら、代入問題としてのトピックモデリングをモデル化する。
論文 参考訳(メタデータ) (2024-06-28T13:57:27Z) - Large Language Models Offer an Alternative to the Traditional Approach of Topic Modelling [0.9095496510579351]
広範テキストコーパス内の話題を明らかにする代替手段として,大規模言語モデル (LLM) の未解決の可能性について検討する。
本研究は, 適切なプロンプトを持つLCMが, トピックのタイトルを生成でき, トピックを洗練, マージするためのガイドラインに固執する上で, 有効な代替手段として目立たせることを示唆している。
論文 参考訳(メタデータ) (2024-03-24T17:39:51Z) - Improving Retrieval in Theme-specific Applications using a Corpus
Topical Taxonomy [52.426623750562335]
ToTER (Topical Taxonomy Enhanced Retrieval) フレームワークを紹介する。
ToTERは、クエリとドキュメントの中心的なトピックを分類学のガイダンスで識別し、そのトピックの関連性を利用して、欠落したコンテキストを補う。
プラグイン・アンド・プレイのフレームワークとして、ToTERは様々なPLMベースのレトリバーを強化するために柔軟に使用できる。
論文 参考訳(メタデータ) (2024-03-07T02:34:54Z) - Prompting Large Language Models for Topic Modeling [10.31712610860913]
大規模言語モデル(LLM)の高度な言語理解を活用する新しいトピックモデリング手法であるPromptTopicを提案する。
個々の文書から文章レベルでトピックを抽出し、これらのトピックを事前定義された量に集約して凝縮し、最終的に様々な長さのテキストに対して一貫性のあるトピックを提供する。
PromptTopicを3つの非常に多様なデータセットの最先端のベースラインに対してベンチマークし、意味のあるトピックを発見する能力を確立しました。
論文 参考訳(メタデータ) (2023-12-15T11:15:05Z) - TopicGPT: A Prompt-based Topic Modeling Framework [77.72072691307811]
TopicGPTは,大規模言語モデルを用いてテキストコレクション内の潜在トピックを明らかにするプロンプトベースのフレームワークである。
競合する手法と比較して、人間の分類とよく一致したトピックを生成する。
そのトピックもまた解釈可能であり、自然言語ラベルと関連する自由形式の記述を含むトピックを好んで、曖昧な言葉の袋を除いた。
論文 参考訳(メタデータ) (2023-11-02T17:57:10Z) - Moving beyond word lists: towards abstractive topic labels for
human-like topics of scientific documents [0.0]
抽象的多文書要約(MDS)を用いたヒューマンライクなトピックラベル生成手法を提案する。
我々は、トピックラベリングのためのMDSを完全に運用するために、どのような研究が必要なのかを理解するために、引用文でトピックをモデル化する。
論文 参考訳(メタデータ) (2022-10-28T17:47:12Z) - HyperMiner: Topic Taxonomy Mining with Hyperbolic Embedding [54.52651110749165]
本稿では,単語や話題を表現するために,メタボリック埋め込みを導入した新しいフレームワークを提案する。
双曲空間のツリー様性により、下層のセマンティック階層はより解釈可能なトピックをマイニングするためによりうまく利用することができる。
論文 参考訳(メタデータ) (2022-10-16T02:54:17Z) - Knowledge-Aware Bayesian Deep Topic Model [50.58975785318575]
本稿では,事前知識を階層型トピックモデリングに組み込むベイズ生成モデルを提案する。
提案モデルでは,事前知識を効率的に統合し,階層的なトピック発見と文書表現の両面を改善する。
論文 参考訳(メタデータ) (2022-09-20T09:16:05Z) - Topic Discovery via Latent Space Clustering of Pretrained Language Model
Representations [35.74225306947918]
本研究では, PLM 埋め込みを基盤とした空間学習とクラスタリングの連携フレームワークを提案する。
提案モデルでは,トピック発見のためにPLMがもたらす強力な表現力と言語的特徴を効果的に活用する。
論文 参考訳(メタデータ) (2022-02-09T17:26:08Z) - TopicNet: Semantic Graph-Guided Topic Discovery [51.71374479354178]
既存の階層的なトピックモデルでは、教師なしの方法でテキストコーパスから意味論的意味のあるトピックを抽出することができる。
TopicNetを階層的なトピックモデルとして導入し、学習に影響を与えるための帰納的バイアスとして、事前構造知識を注入する。
論文 参考訳(メタデータ) (2021-10-27T09:07:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。