論文の概要: Keyword Assisted Topic Models
- arxiv url: http://arxiv.org/abs/2004.05964v2
- Date: Wed, 10 Mar 2021 15:24:52 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-14 00:18:11.490566
- Title: Keyword Assisted Topic Models
- Title(参考訳): キーワード支援トピックモデル
- Authors: Shusei Eshima, Kosuke Imai and Tomoya Sasaki
- Abstract要約: 少数のキーワードを提供することで,話題モデルの計測性能を大幅に向上させることができることを示す。
KeyATMは、より解釈可能な結果を提供し、文書分類性能が向上し、標準トピックモデルよりもトピックの数に敏感でない。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In recent years, fully automated content analysis based on probabilistic
topic models has become popular among social scientists because of their
scalability. The unsupervised nature of the models makes them suitable for
exploring topics in a corpus without prior knowledge. However, researchers find
that these models often fail to measure specific concepts of substantive
interest by inadvertently creating multiple topics with similar content and
combining distinct themes into a single topic. In this paper, we empirically
demonstrate that providing a small number of keywords can substantially enhance
the measurement performance of topic models. An important advantage of the
proposed keyword assisted topic model (keyATM) is that the specification of
keywords requires researchers to label topics prior to fitting a model to the
data. This contrasts with a widespread practice of post-hoc topic
interpretation and adjustments that compromises the objectivity of empirical
findings. In our application, we find that keyATM provides more interpretable
results, has better document classification performance, and is less sensitive
to the number of topics than the standard topic models. Finally, we show that
keyATM can also incorporate covariates and model time trends. An open-source
software package is available for implementing the proposed methodology.
- Abstract(参考訳): 近年,その拡張性から,確率論的トピックモデルに基づく完全自動コンテンツ分析が社会科学者の間で普及している。
モデルの教師なしの性質は、事前の知識なしにコーパス内のトピックを探索するのに適している。
しかし、研究者は、これらのモデルは、しばしば不注意に類似したコンテンツを持つ複数のトピックを作成し、異なるテーマを一つのトピックに組み合わせることで、副次的関心の特定の概念を計測できないことを発見した。
本稿では,少数のキーワードを提供することで,トピックモデルの計測性能が大幅に向上することを示す。
提案したキーワードアシストトピックモデル(keyATM)の重要な利点は、キーワードの仕様が、データにモデルを適用する前にトピックをラベル付けする必要があることである。
これは、経験的発見の客観性を損なうポストホックなトピック解釈と調整の広範な実践とは対照的である。
我々のアプリケーションでは、KeyATMはより解釈可能な結果を提供し、文書分類性能が良く、標準トピックモデルよりもトピックの数に敏感でないことがわかった。
最後に、キーATMは共変量とモデル時間トレンドを組み込むこともできることを示す。
提案手法の実装にはオープンソースソフトウェアパッケージが利用できる。
関連論文リスト
- Investigating the Impact of Text Summarization on Topic Modeling [13.581341206178525]
本稿では,事前学習型大言語モデル(LLM)を用いてトピックモデリング性能をさらに向上する手法を提案する。
トピックモデリングへの影響を比較するために、異なる長さの要約を生成するために、ショットプロンプトはほとんど使われない。
提案手法は,従来のモデルと比較して,トピックの多様性とコヒーレンス値に比較して優れている。
論文 参考訳(メタデータ) (2024-09-28T19:45:45Z) - Interactive Topic Models with Optimal Transport [75.26555710661908]
ラベル名監視型トピックモデリングのためのアプローチとして,EdTMを提案する。
EdTMは、LM/LLMベースのドキュメントトピック親和性を活用しながら、代入問題としてのトピックモデリングをモデル化する。
論文 参考訳(メタデータ) (2024-06-28T13:57:27Z) - Topics in the Haystack: Extracting and Evaluating Topics beyond
Coherence [0.0]
本稿では,文と文書のテーマを深く理解する手法を提案する。
これにより、一般的な単語やネオロジズムを含む潜在トピックを検出することができる。
本稿では, 侵入者の単語の人間識別と相関係数を示し, 単語侵入作業において, ほぼ人間レベルの結果を得る。
論文 参考訳(メタデータ) (2023-03-30T12:24:25Z) - Knowledge-Aware Bayesian Deep Topic Model [50.58975785318575]
本稿では,事前知識を階層型トピックモデリングに組み込むベイズ生成モデルを提案する。
提案モデルでは,事前知識を効率的に統合し,階層的なトピック発見と文書表現の両面を改善する。
論文 参考訳(メタデータ) (2022-09-20T09:16:05Z) - Enhance Topics Analysis based on Keywords Properties [0.0]
本稿では,最も情報性の高いトピックを選択可能なキーワード特性に基づく特異度スコアを示す。
実験では,最近の文献におけるコヒーレンススコアに基づいて,様々な要因のトピックモデリング結果を,解よりもはるかに低い情報損失で圧縮できることを示した。
論文 参考訳(メタデータ) (2022-03-09T15:10:12Z) - Topic Discovery via Latent Space Clustering of Pretrained Language Model
Representations [35.74225306947918]
本研究では, PLM 埋め込みを基盤とした空間学習とクラスタリングの連携フレームワークを提案する。
提案モデルでは,トピック発見のためにPLMがもたらす強力な表現力と言語的特徴を効果的に活用する。
論文 参考訳(メタデータ) (2022-02-09T17:26:08Z) - TopicNet: Semantic Graph-Guided Topic Discovery [51.71374479354178]
既存の階層的なトピックモデルでは、教師なしの方法でテキストコーパスから意味論的意味のあるトピックを抽出することができる。
TopicNetを階層的なトピックモデルとして導入し、学習に影響を与えるための帰納的バイアスとして、事前構造知識を注入する。
論文 参考訳(メタデータ) (2021-10-27T09:07:14Z) - Author Clustering and Topic Estimation for Short Texts [69.54017251622211]
同じ文書中の単語間の強い依存をモデル化することにより、遅延ディリクレ割当を拡張できる新しいモデルを提案する。
同時にユーザをクラスタ化し、ホック後のクラスタ推定の必要性を排除しています。
我々の手法は、短文で生じる問題に対する従来のアプローチよりも、-または----------- で機能する。
論文 参考訳(メタデータ) (2021-06-15T20:55:55Z) - ConvoSumm: Conversation Summarization Benchmark and Improved Abstractive
Summarization with Argument Mining [61.82562838486632]
我々は、さまざまなオンライン会話形式のニュースコメント、ディスカッションフォーラム、コミュニティ質問応答フォーラム、電子メールスレッドに関する4つの新しいデータセットをクラウドソースする。
我々は、データセットの最先端モデルをベンチマークし、データに関連する特徴を分析します。
論文 参考訳(メタデータ) (2021-06-01T22:17:13Z) - Query-Driven Topic Model [23.07260625816975]
トピックモデルの望ましい特性の1つは、ユーザーがコーパスの特定の側面を記述するトピックを見つけることを可能にすることである。
本稿では,単語やフレーズで簡単なクエリを指定し,クエリ関連トピックを返却する,新しいクエリ駆動トピックモデルを提案する。
論文 参考訳(メタデータ) (2021-05-28T22:49:42Z) - Improving Neural Topic Models using Knowledge Distillation [84.66983329587073]
我々は,確率論的トピックモデルと事前学習されたトランスフォーマーの最適属性を組み合わせるために,知識蒸留を用いる。
我々のモジュラー手法は、どのニューラルトピックモデルでも簡単に適用でき、トピックの品質を向上させることができる。
論文 参考訳(メタデータ) (2020-10-05T22:49:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。