論文の概要: Author Clustering and Topic Estimation for Short Texts
- arxiv url: http://arxiv.org/abs/2106.09533v1
- Date: Tue, 15 Jun 2021 20:55:55 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-19 14:00:49.594827
- Title: Author Clustering and Topic Estimation for Short Texts
- Title(参考訳): 短文の著者クラスタリングとトピック推定
- Authors: Graham Tierney and Christopher Bail and Alexander Volfovsky
- Abstract要約: 同じ文書中の単語間の強い依存をモデル化することにより、遅延ディリクレ割当を拡張できる新しいモデルを提案する。
同時にユーザをクラスタ化し、ホック後のクラスタ推定の必要性を排除しています。
我々の手法は、短文で生じる問題に対する従来のアプローチよりも、-または----------- で機能する。
- 参考スコア(独自算出の注目度): 69.54017251622211
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Analysis of short text, such as social media posts, is extremely difficult
because it relies on observing many document-level word co-occurrence pairs.
Beyond topic distributions, a common downstream task of the modeling is
grouping the authors of these documents for subsequent analyses. Traditional
models estimate the document groupings and identify user clusters with an
independent procedure. We propose a novel model that expands on the Latent
Dirichlet Allocation by modeling strong dependence among the words in the same
document, with user-level topic distributions. We also simultaneously cluster
users, removing the need for post-hoc cluster estimation and improving topic
estimation by shrinking noisy user-level topic distributions towards typical
values. Our method performs as well as -- or better -- than traditional
approaches to problems arising in short text, and we demonstrate its usefulness
on a dataset of tweets from United States Senators, recovering both meaningful
topics and clusters that reflect partisan ideology.
- Abstract(参考訳): ソーシャルメディア投稿のような短いテキストの分析は、多くの文書レベルの単語共起ペアの観察に依存するため、非常に難しい。
トピック分布以外にも、モデリングの一般的なダウンストリームタスクは、その後の分析のためにこれらの文書の著者をグループ化することである。
従来のモデルはドキュメントのグルーピングを見積もり、独立したプロシージャでユーザクラスタを特定します。
本稿では,同じ文書中の単語間の強い依存度をユーザレベルのトピック分布でモデル化することにより,遅延ディリクレ割当を拡張できる新しいモデルを提案する。
また、ユーザをクラスタ化し、ポストホッククラスタ推定の必要性を排除し、ノイズの多いユーザレベルのトピック分布を典型的な値に縮小することでトピック推定を改善する。
我々の手法は、短文で生じる問題に対する従来のアプローチよりも -- あるいはそれ以上 -- 機能し、米国上院議員のツイートのデータセットにその有用性を示し、党派イデオロギーを反映した意味のあるトピックとクラスタの両方を復元する。
関連論文リスト
- CAST: Corpus-Aware Self-similarity Enhanced Topic modelling [16.562349140796115]
CAST: Corpus-Aware Self-similarity Enhanced Topic modelling, a novel topic modelling methodを紹介する。
機能的単語が候補話題語として振る舞うのを防ぐための効果的な指標として自己相似性を見出した。
提案手法は,生成したトピックの一貫性と多様性,およびノイズの多いデータを扱うトピックモデルの能力を大幅に向上させる。
論文 参考訳(メタデータ) (2024-10-19T15:27:11Z) - Interactive Topic Models with Optimal Transport [75.26555710661908]
ラベル名監視型トピックモデリングのためのアプローチとして,EdTMを提案する。
EdTMは、LM/LLMベースのドキュメントトピック親和性を活用しながら、代入問題としてのトピックモデリングをモデル化する。
論文 参考訳(メタデータ) (2024-06-28T13:57:27Z) - Long-Span Question-Answering: Automatic Question Generation and QA-System Ranking via Side-by-Side Evaluation [65.16137964758612]
大規模言語モデルにおける長文文の活用について検討し,本書全体の読解データを作成する。
我々の目的は、長いテキストの詳細な理解を必要とする問題を分析し、理解し、推論するLLMの能力をテストすることである。
論文 参考訳(メタデータ) (2024-05-31T20:15:10Z) - Topics in the Haystack: Extracting and Evaluating Topics beyond
Coherence [0.0]
本稿では,文と文書のテーマを深く理解する手法を提案する。
これにより、一般的な単語やネオロジズムを含む潜在トピックを検出することができる。
本稿では, 侵入者の単語の人間識別と相関係数を示し, 単語侵入作業において, ほぼ人間レベルの結果を得る。
論文 参考訳(メタデータ) (2023-03-30T12:24:25Z) - Improved Topic modeling in Twitter through Community Pooling [0.0]
Twitterの投稿は短いが、他のテキストよりも一貫性が低いことが多い。
著者が同じコミュニティに属しているツイートをグループ化する,トピックモデリングのための新しいプール方式を提案する。
その結果、我々のコミュニティポーリング手法は、2つの異種データセットの指標の大部分において、他の手法よりも優れていた。
論文 参考訳(メタデータ) (2021-12-20T17:05:32Z) - A Proposition-Level Clustering Approach for Multi-Document Summarization [82.4616498914049]
クラスタリングアプローチを再検討し、より正確な情報アライメントの提案をグループ化します。
提案手法は,有意な命題を検出し,それらをパラフラスティックなクラスタに分類し,その命題を融合して各クラスタの代表文を生成する。
DUC 2004 とTAC 2011 データセットでは,従来の最先端 MDS 法よりも要約法が優れている。
論文 参考訳(メタデータ) (2021-12-16T10:34:22Z) - Unsupervised Summarization for Chat Logs with Topic-Oriented Ranking and
Context-Aware Auto-Encoders [59.038157066874255]
本稿では,手動ラベル付きデータを用いずにチャット要約を行うrankaeという新しいフレームワークを提案する。
RankAEは、中心性と多様性に応じてトピックの発話を同時に選択するトピック指向のランキング戦略で構成されています。
消音自動エンコーダは、選択された発話に基づいて簡潔でコンテキスト情報に基づいた要約を生成するように設計されています。
論文 参考訳(メタデータ) (2020-12-14T07:31:17Z) - A Framework for Authorial Clustering of Shorter Texts in Latent Semantic
Spaces [4.18804572788063]
著者クラスタリングは、著者の執筆スタイルや主題的好みの事前の肯定的な例のない、同一の著者または著者のチームによって書かれた文書をグループ化する。
非パラメトリックなトピックモデリングから導出した潜在特徴空間におけるコンパクトなデータ表現を利用する高レベルフレームワークを提案する。
3つの言語と2つのジャンルで120個のコレクションを実験し、トピックベースの潜在機能空間が有望なパフォーマンスを提供することを示す。
論文 参考訳(メタデータ) (2020-11-30T17:39:44Z) - Weakly-Supervised Aspect-Based Sentiment Analysis via Joint
Aspect-Sentiment Topic Embedding [71.2260967797055]
アスペクトベース感情分析のための弱教師付きアプローチを提案する。
We learn sentiment, aspects> joint topic embeddeds in the word embedding space。
次に、ニューラルネットワークを用いて単語レベルの識別情報を一般化する。
論文 参考訳(メタデータ) (2020-10-13T21:33:24Z) - Tired of Topic Models? Clusters of Pretrained Word Embeddings Make for
Fast and Good Topics too! [5.819224524813161]
事前学習した単語の埋め込みをクラスタリングし、重み付けされたクラスタリングと上位単語の再ランク付けのための文書情報を組み込んだ別の方法を提案する。
このアプローチの最も優れた組み合わせは、従来のトピックモデルと同様に機能するが、ランタイムと計算の複雑さは低い。
論文 参考訳(メタデータ) (2020-04-30T16:18:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。