論文の概要: Keyword-based Topic Modeling and Keyword Selection
- arxiv url: http://arxiv.org/abs/2001.07866v1
- Date: Wed, 22 Jan 2020 03:41:10 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-07 18:12:26.518452
- Title: Keyword-based Topic Modeling and Keyword Selection
- Title(参考訳): キーワードに基づくトピックモデリングとキーワード選択
- Authors: Xingyu Wang, Lida Zhang, Diego Klabjan
- Abstract要約: 将来的な文書の収集に使用されるキーワードのサブセットを選択するキーワードベースのトピックモデルを開発する。
モデルは変分下界と勾配の最適化を用いて訓練される。
トピックモデルと組み合わせたツイートのバイラル予測を用いて,キーワードトピックモデルとベンチマークモデルを比較した。
- 参考スコア(独自算出の注目度): 21.686391911424355
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Certain type of documents such as tweets are collected by specifying a set of
keywords. As topics of interest change with time it is beneficial to adjust
keywords dynamically. The challenge is that these need to be specified ahead of
knowing the forthcoming documents and the underlying topics. The future topics
should mimic past topics of interest yet there should be some novelty in them.
We develop a keyword-based topic model that dynamically selects a subset of
keywords to be used to collect future documents. The generative process first
selects keywords and then the underlying documents based on the specified
keywords. The model is trained by using a variational lower bound and
stochastic gradient optimization. The inference consists of finding a subset of
keywords where given a subset the model predicts the underlying topic-word
matrix for the unknown forthcoming documents. We compare the keyword topic
model against a benchmark model using viral predictions of tweets combined with
a topic model. The keyword-based topic model outperforms this sophisticated
baseline model by 67%.
- Abstract(参考訳): ツイートのような特定の種類の文書は、キーワードのセットを指定することで収集される。
時間とともに話題が変わるため、キーワードを動的に調整することは有益である。
課題は、今後のドキュメントと基盤となるトピックを知る前に、これらを指定する必要があることです。
将来的なトピックは過去の関心事のトピックを模倣するべきです。
将来文書の収集に使用するキーワードのサブセットを動的に選択するキーワードベースのトピックモデルを開発した。
生成プロセスは、まずキーワードを選択し、次に指定されたキーワードに基づいて基礎となるドキュメントを選択する。
このモデルは変分下界と確率的勾配最適化を用いて訓練される。
推論は、サブセットが与えられた場合、モデルが未知のドキュメントのトピックワード行列を予測するキーワードのサブセットを見つけることで構成される。
トピックモデルと組み合わせたツイートのバイラル予測を用いて,キーワードトピックモデルをベンチマークモデルと比較する。
キーワードベースのトピックモデルは、この洗練されたベースラインモデルを67%上回っている。
関連論文リスト
- CAST: Corpus-Aware Self-similarity Enhanced Topic modelling [16.562349140796115]
CAST: Corpus-Aware Self-similarity Enhanced Topic modelling, a novel topic modelling methodを紹介する。
機能的単語が候補話題語として振る舞うのを防ぐための効果的な指標として自己相似性を見出した。
提案手法は,生成したトピックの一貫性と多様性,およびノイズの多いデータを扱うトピックモデルの能力を大幅に向上させる。
論文 参考訳(メタデータ) (2024-10-19T15:27:11Z) - LIST: Learning to Index Spatio-Textual Data for Embedding based Spatial Keyword Queries [53.843367588870585]
リスト K-kNN 空間キーワードクエリ (TkQ) は、空間的およびテキスト的関連性の両方を考慮したランキング関数に基づくオブジェクトのリストを返す。
効率的かつ効率的な指標、すなわち高品質なラベルの欠如とバランスの取れない結果を構築する上で、大きな課題が2つある。
この2つの課題に対処する新しい擬似ラベル生成手法を開発した。
論文 参考訳(メタデータ) (2024-03-12T05:32:33Z) - Retrieval is Accurate Generation [99.24267226311157]
本稿では,支援文書の集合からコンテキスト認識句を選択する新しい手法を提案する。
本モデルでは,検索対象のベースラインの中で,最高の性能と低レイテンシを実現する。
論文 参考訳(メタデータ) (2024-02-27T14:16:19Z) - Revisiting Automated Topic Model Evaluation with Large Language Models [82.93251466435208]
より大きな言語モデルは、結果のトピックを適切に評価する。
次に,大規模言語モデルを用いてトピックの最適な数を自動的に決定できるかどうかを検討する。
論文 参考訳(メタデータ) (2023-05-20T09:42:00Z) - CWTM: Leveraging Contextualized Word Embeddings from BERT for Neural
Topic Modeling [23.323587005085564]
CWTM(Contextlized Word Topic Model)と呼ばれる新しいニューラルトピックモデルを導入する。
CWTMは、BERTからコンテキスト化された単語の埋め込みを統合する。
BOW情報なしで文書のトピックベクトルを学習することができる。
また、文脈化された単語の埋め込みに基づいて、文書内の個々の単語のトピックベクトルを導出することもできる。
論文 参考訳(メタデータ) (2023-05-16T10:07:33Z) - Query Expansion Using Contextual Clue Sampling with Language Models [69.51976926838232]
本稿では,実効的なフィルタリング戦略と検索した文書の融合の組み合わせを,各文脈の生成確率に基づいて提案する。
我々の語彙マッチングに基づくアプローチは、よく確立された高密度検索モデルDPRと比較して、同様のトップ5/トップ20検索精度と上位100検索精度を実現する。
エンド・ツー・エンドのQAでは、読者モデルも我々の手法の恩恵を受けており、いくつかの競争基準に対してエクサクト・マッチのスコアが最も高い。
論文 参考訳(メタデータ) (2022-10-13T15:18:04Z) - Knowledge-Aware Bayesian Deep Topic Model [50.58975785318575]
本稿では,事前知識を階層型トピックモデリングに組み込むベイズ生成モデルを提案する。
提案モデルでは,事前知識を効率的に統合し,階層的なトピック発見と文書表現の両面を改善する。
論文 参考訳(メタデータ) (2022-09-20T09:16:05Z) - More Than Words: Collocation Tokenization for Latent Dirichlet
Allocation Models [71.42030830910227]
モデルが異なる環境でクラスタリングの品質を測定するための新しい指標を提案する。
マージトークンでトレーニングされたトピックは、マージされていないモデルよりも、より明確で、一貫性があり、トピックを区別する効果が高いトピックキーをもたらすことを示す。
論文 参考訳(メタデータ) (2021-08-24T14:08:19Z) - Tired of Topic Models? Clusters of Pretrained Word Embeddings Make for
Fast and Good Topics too! [5.819224524813161]
事前学習した単語の埋め込みをクラスタリングし、重み付けされたクラスタリングと上位単語の再ランク付けのための文書情報を組み込んだ別の方法を提案する。
このアプローチの最も優れた組み合わせは、従来のトピックモデルと同様に機能するが、ランタイムと計算の複雑さは低い。
論文 参考訳(メタデータ) (2020-04-30T16:18:18Z) - Keyword Assisted Topic Models [0.0]
少数のキーワードを提供することで,話題モデルの計測性能を大幅に向上させることができることを示す。
KeyATMは、より解釈可能な結果を提供し、文書分類性能が向上し、標準トピックモデルよりもトピックの数に敏感でない。
論文 参考訳(メタデータ) (2020-04-13T14:35:28Z) - VSEC-LDA: Boosting Topic Modeling with Embedded Vocabulary Selection [20.921010767231923]
VSEC-LDA(Vocabulary-Embedded Correspondence-LDA)と呼ばれるトピックモデリングの新しいアプローチを提案する。
VSEC-LDAは、最も関連性の高い単語を同時に選択しながら、潜在モデルを学習する。
単語の選択は、下層のモデルに対する単語の相対的寄与を測定するエントロピーに基づく計量によって駆動される。
論文 参考訳(メタデータ) (2020-01-15T22:16:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。