論文の概要: Topic Scaling: A Joint Document Scaling -- Topic Model Approach To Learn
Time-Specific Topics
- arxiv url: http://arxiv.org/abs/2104.01117v1
- Date: Wed, 31 Mar 2021 12:35:36 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-06 03:31:12.852499
- Title: Topic Scaling: A Joint Document Scaling -- Topic Model Approach To Learn
Time-Specific Topics
- Title(参考訳): トピックスケーリング: 共同ドキュメントスケーリング - 時間特有のトピックを学ぶためのトピックモデルアプローチ
- Authors: Sami Diaf and Ulrich Fritsche
- Abstract要約: 本稿では,文書位置の尺度から時間に基づくトピックを学習する2段階アルゴリズムを実装し,シーケンシャルコーパスを研究する新しい手法を提案する。
最初の段階はWordfishを使用してドキュメントをランク付けし、関連するトピックを学ぶために依存変数として機能する文書の位置を推定します。
第二段階は、コーパス内のそれらの発生と一致するように文書スケール上の推論されたトピックをランク付けし、それらの進化を追跡します。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper proposes a new methodology to study sequential corpora by
implementing a two-stage algorithm that learns time-based topics with respect
to a scale of document positions and introduces the concept of Topic Scaling
which ranks learned topics within the same document scale. The first stage
ranks documents using Wordfish, a Poisson-based document scaling method, to
estimate document positions that serve, in the second stage, as a dependent
variable to learn relevant topics via a supervised Latent Dirichlet Allocation.
This novelty brings two innovations in text mining as it explains document
positions, whose scale is a latent variable, and ranks the inferred topics on
the document scale to match their occurrences within the corpus and track their
evolution. Tested on the U.S. State Of The Union two-party addresses, this
inductive approach reveals that each party dominates one end of the learned
scale with interchangeable transitions that follow the parties' term of office.
Besides a demonstrated high accuracy in predicting in-sample documents'
positions from topic scores, this method reveals further hidden topics that
differentiate similar documents by increasing the number of learned topics to
unfold potential nested hierarchical topic structures. Compared to other
popular topic models, Topic Scaling learns topics with respect to document
similarities without specifying a time frequency to learn topic evolution, thus
capturing broader topic patterns than dynamic topic models and yielding more
interpretable outputs than a plain latent Dirichlet allocation.
- Abstract(参考訳): 本稿では,文書位置の尺度に関して時間に基づくトピックを学習する2段階アルゴリズムを導入し,学習トピックを同じ文書スケールでランク付けするトピックスケーリングの概念を導入することによって,シーケンシャルコーパスを研究する新しい手法を提案する。
第1段階では、poissonベースのドキュメントスケーリング手法であるwordfishを使用してドキュメントを分類し、第2段階では依存変数としてドキュメントの位置を推定し、教師付き潜在ディリクレ割り当てを通じて関連するトピックを学習する。
このノベルティはテキストマイニングの2つの革新をもたらし、そのスケールが潜在変数である文書の位置を説明し、推定されたトピックをコーパス内で発生し、その進化を追跡するために文書スケールでランク付けする。
この帰納的アプローチは、各政党が学習規模の一端を占めることを明らかにし、その政党の任期に従う交換可能な移行が行われる。
本手法は,サンプル内文書の位置をトピックスコアから推定する上で高い精度を示すとともに,学習したトピックの数を増やし,潜在的にネストした階層的なトピック構造を広げることで,類似文書を区別する隠れトピックを明らかにする。
Topic Scalingは、他の人気のあるトピックモデルと比較して、トピックの進化を学ぶための時間周波数を指定せずに、ドキュメントの類似性に関するトピックを学習し、ダイナミックなトピックモデルよりも広範なトピックパターンをキャプチャし、普通のディリクレの割り当てよりも解釈可能なアウトプットを得る。
関連論文リスト
- Visualizing Temporal Topic Embeddings with a Compass [1.5184974790808403]
本稿では,コンパス整列時相Word2Vec手法を動的トピックモデリングに拡張することを提案する。
このような手法により、動的トピックにおける時間にわたって単語と文書の埋め込みを直接比較することができる。
論文 参考訳(メタデータ) (2024-09-16T18:29:19Z) - Topics in the Haystack: Extracting and Evaluating Topics beyond
Coherence [0.0]
本稿では,文と文書のテーマを深く理解する手法を提案する。
これにより、一般的な単語やネオロジズムを含む潜在トピックを検出することができる。
本稿では, 侵入者の単語の人間識別と相関係数を示し, 単語侵入作業において, ほぼ人間レベルの結果を得る。
論文 参考訳(メタデータ) (2023-03-30T12:24:25Z) - Topic Taxonomy Expansion via Hierarchy-Aware Topic Phrase Generation [58.3921103230647]
TopicExpanというトピック分類拡張のための新しいフレームワークを提案する。
TopicExpanは、新しいトピックに属するトピック関連用語を直接生成する。
2つの実世界のテキストコーパスの実験結果から、TopicExpanは出力の質という点で他のベースライン手法よりも優れていた。
論文 参考訳(メタデータ) (2022-10-18T22:38:49Z) - Knowledge-Aware Bayesian Deep Topic Model [50.58975785318575]
本稿では,事前知識を階層型トピックモデリングに組み込むベイズ生成モデルを提案する。
提案モデルでは,事前知識を効率的に統合し,階層的なトピック発見と文書表現の両面を改善する。
論文 参考訳(メタデータ) (2022-09-20T09:16:05Z) - Distant finetuning with discourse relations for stance classification [55.131676584455306]
そこで本研究では,定位分類のモデルとして,原文から銀ラベルでデータを抽出し,微調整する手法を提案する。
また,様々な段階において微調整に用いるデータのノイズレベルが減少する3段階のトレーニングフレームワークを提案する。
NLPCC 2021共有タスクArgumentative Text Understanding for AI Debaterでは,26の競合チームの中で1位にランクインした。
論文 参考訳(メタデータ) (2022-04-27T04:24:35Z) - Representing Mixtures of Word Embeddings with Mixtures of Topic
Embeddings [46.324584649014284]
トピックモデルはしばしば、文書の各単語が、一連のトピックと文書固有のトピック比に基づいてどのように生成されるかを説明する生成モデルとして定式化される。
本稿では、各文書を単語埋め込みベクトルの集合と見なし、各トピックを同じ埋め込み空間に埋め込みベクトルとしてモデル化する新しいトピックモデリングフレームワークを提案する。
同じベクトル空間に単語とトピックを埋め込み、文書の単語の埋め込みベクトルとそれらのトピックのセマンティックな差異を測る方法を定義し、すべての文書に対して期待される差を最小化するためにトピックの埋め込みを最適化する。
論文 参考訳(メタデータ) (2022-03-03T08:46:23Z) - Changepoint Analysis of Topic Proportions in Temporal Text Data [1.8262547855491456]
トピック比の分布に変化点を規定する特化時間トピックモデルを構築した。
まず、サンプル分割を用いてトピックのポリトープを推定し、次に確率比統計を適用した。
歴史的に知られているいくつかの変化点を取得し、新しい変化点を発見する。
論文 参考訳(メタデータ) (2021-11-29T17:20:51Z) - TopicNet: Semantic Graph-Guided Topic Discovery [51.71374479354178]
既存の階層的なトピックモデルでは、教師なしの方法でテキストコーパスから意味論的意味のあるトピックを抽出することができる。
TopicNetを階層的なトピックモデルとして導入し、学習に影響を与えるための帰納的バイアスとして、事前構造知識を注入する。
論文 参考訳(メタデータ) (2021-10-27T09:07:14Z) - Author Clustering and Topic Estimation for Short Texts [69.54017251622211]
同じ文書中の単語間の強い依存をモデル化することにより、遅延ディリクレ割当を拡張できる新しいモデルを提案する。
同時にユーザをクラスタ化し、ホック後のクラスタ推定の必要性を排除しています。
我々の手法は、短文で生じる問題に対する従来のアプローチよりも、-または----------- で機能する。
論文 参考訳(メタデータ) (2021-06-15T20:55:55Z) - Topical Change Detection in Documents via Embeddings of Long Sequences [4.13878392637062]
テキストセグメンテーションのタスクを独立した教師付き予測タスクとして定式化する。
類似セクションの段落を微調整することで、学習した特徴がトピック情報をエンコードすることを示すことができます。
文レベルで操作する従来のアプローチとは異なり、我々は常により広いコンテキストを使用します。
論文 参考訳(メタデータ) (2020-12-07T12:09:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。