論文の概要: Improved Topic modeling in Twitter through Community Pooling
- arxiv url: http://arxiv.org/abs/2201.00690v1
- Date: Mon, 20 Dec 2021 17:05:32 GMT
- ステータス: 処理完了
- システム内更新日: 2022-01-09 13:27:28.048457
- Title: Improved Topic modeling in Twitter through Community Pooling
- Title(参考訳): コミュニティプールによるtwitterのトピックモデリングの改善
- Authors: Federico Albanese and Esteban Feuerstein
- Abstract要約: Twitterの投稿は短いが、他のテキストよりも一貫性が低いことが多い。
著者が同じコミュニティに属しているツイートをグループ化する,トピックモデリングのための新しいプール方式を提案する。
その結果、我々のコミュニティポーリング手法は、2つの異種データセットの指標の大部分において、他の手法よりも優れていた。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Social networks play a fundamental role in propagation of information and
news. Characterizing the content of the messages becomes vital for different
tasks, like breaking news detection, personalized message recommendation, fake
users detection, information flow characterization and others. However, Twitter
posts are short and often less coherent than other text documents, which makes
it challenging to apply text mining algorithms to these datasets efficiently.
Tweet-pooling (aggregating tweets into longer documents) has been shown to
improve automatic topic decomposition, but the performance achieved in this
task varies depending on the pooling method.
In this paper, we propose a new pooling scheme for topic modeling in Twitter,
which groups tweets whose authors belong to the same community (group of users
who mainly interact with each other but not with other groups) on a user
interaction graph. We present a complete evaluation of this methodology, state
of the art schemes and previous pooling models in terms of the cluster quality,
document retrieval tasks performance and supervised machine learning
classification score. Results show that our Community polling method
outperformed other methods on the majority of metrics in two heterogeneous
datasets, while also reducing the running time. This is useful when dealing
with big amounts of noisy and short user-generated social media texts. Overall,
our findings contribute to an improved methodology for identifying the latent
topics in a Twitter dataset, without the need of modifying the basic machinery
of a topic decomposition model.
- Abstract(参考訳): ソーシャルネットワークは情報とニュースの伝播において基本的な役割を果たす。
メッセージの内容の特徴付けは、ニュースの速報検出、パーソナライズされたメッセージレコメンデーション、フェイクユーザ検出、情報フローキャラクタリゼーションなど、さまざまなタスクにおいて不可欠である。
しかし、twitterの投稿は他のテキスト文書よりも短く、一貫性が低いため、これらのデータセットにテキストマイニングアルゴリズムを効率的に適用することは困難である。
ツイートプーリング(より長いドキュメントにツイートを集約する)は、トピックの自動分解を改善することが示されているが、このタスクで達成されるパフォーマンスは、プーリング方法によって異なる。
本稿では,twitter におけるトピックモデリングのための新たなプール方式を提案する。この手法では,同一コミュニティ(主に相互に対話するが,他のグループとは関係のないユーザグループ)に属するツイートを,ユーザインタラクショングラフ上でグループ化する。
本稿では,クラスタ品質,文書検索タスクの性能,教師付き機械学習分類スコアなどの観点から,この手法の完全評価,技術スキームの現状,以前のプールモデルについて述べる。
その結果, コミュニティポーリング手法は, 2つの異種データセットのメトリクスの大多数において, 他の手法よりも優れており, 実行時間を短縮できることがわかった。
これは、大量のノイズと短いユーザ生成ソーシャルメディアテキストを扱う場合に有用である。
本研究の結果は,トピック分解モデルの基本機構を変更することなく,Twitterデータセット内の潜在トピックを識別する手法の改善に寄与する。
関連論文リスト
- CAST: Corpus-Aware Self-similarity Enhanced Topic modelling [16.562349140796115]
CAST: Corpus-Aware Self-similarity Enhanced Topic modelling, a novel topic modelling methodを紹介する。
機能的単語が候補話題語として振る舞うのを防ぐための効果的な指標として自己相似性を見出した。
提案手法は,生成したトピックの一貫性と多様性,およびノイズの多いデータを扱うトピックモデルの能力を大幅に向上させる。
論文 参考訳(メタデータ) (2024-10-19T15:27:11Z) - NarrationDep: Narratives on Social Media For Automatic Depression Detection [24.11420537250414]
我々は、抑うつに関連する物語を検出することに焦点を当てた、textttNarrationDepと呼ばれる新しいモデルを開発した。
textttNarrationDepは、個々のツイート表現とユーザのツイートのクラスタを共同でモデル化するディープラーニングフレームワークである。
論文 参考訳(メタデータ) (2024-07-24T11:24:25Z) - Unsupervised Sentiment Analysis of Plastic Surgery Social Media Posts [91.3755431537592]
ソーシャルメディアプラットフォームにまたがる膨大なユーザー投稿は、主に人工知能(AI)のユースケースに使われていない。
自然言語処理(NLP)は、コーパス(corpora)として知られるドキュメントの体系を利用して、人間のような言語理解でコンピュータを訓練するAIのサブフィールドである。
本研究は, 教師なし解析の応用により, コンピュータがプラスティック手術に対する否定的, 肯定的, 中立的なユーザ感情を予測できることを示した。
論文 参考訳(メタデータ) (2023-07-05T20:16:20Z) - ManiTweet: A New Benchmark for Identifying Manipulation of News on Social Media [74.93847489218008]
ソーシャルメディア上でのニュースの操作を識別し,ソーシャルメディア投稿の操作を検出し,操作された情報や挿入された情報を特定することを目的とした,新しいタスクを提案する。
この課題を研究するために,データ収集スキーマを提案し,3.6K対のツイートとそれに対応する記事からなるManiTweetと呼ばれるデータセットをキュレートした。
我々の分析では、このタスクは非常に難しいことを示し、大きな言語モデル(LLM)は不満足なパフォーマンスをもたらす。
論文 参考訳(メタデータ) (2023-05-23T16:40:07Z) - Twitter Referral Behaviours on News Consumption with Ensemble Clustering
of Click-Stream Data in Turkish Media [2.9005223064604078]
本研究は,Twitter のレファレンスに追随するニュース消費パターンを識別するために,組織ウェブサイトにおける読者のクリック活動について調査する。
調査は、ログデータをニュースコンテンツとリンクして洞察を深めることで、幅広い視点に展開されている。
論文 参考訳(メタデータ) (2022-02-04T09:57:13Z) - Author Clustering and Topic Estimation for Short Texts [69.54017251622211]
同じ文書中の単語間の強い依存をモデル化することにより、遅延ディリクレ割当を拡張できる新しいモデルを提案する。
同時にユーザをクラスタ化し、ホック後のクラスタ推定の必要性を排除しています。
我々の手法は、短文で生じる問題に対する従来のアプローチよりも、-または----------- で機能する。
論文 参考訳(メタデータ) (2021-06-15T20:55:55Z) - Sentiment analysis in tweets: an assessment study from classical to
modern text representation models [59.107260266206445]
Twitterで公開された短いテキストは、豊富な情報源として大きな注目を集めている。
非公式な言語スタイルや騒々しい言語スタイルといったそれらの固有の特徴は、多くの自然言語処理(NLP)タスクに挑戦し続けている。
本研究では,22データセットの豊富なコレクションを用いて,ツイートに表される感情を識別する既存言語モデルの評価を行った。
論文 参考訳(メタデータ) (2021-05-29T21:05:28Z) - The Surprising Performance of Simple Baselines for Misinformation
Detection [4.060731229044571]
我々は、現代のトランスフォーマーベースの言語モデルの広いセットのパフォーマンスを調べます。
誤情報検出の新たな手法の創出と評価のベースラインとして,本フレームワークを提案する。
論文 参考訳(メタデータ) (2021-04-14T16:25:22Z) - Be More with Less: Hypergraph Attention Networks for Inductive Text
Classification [56.98218530073927]
グラフニューラルネットワーク(GNN)は、研究コミュニティで注目され、この標準タスクで有望な結果を実証している。
成功にもかかわらず、それらのパフォーマンスは、単語間の高次相互作用をキャプチャできないため、実際は大部分が危険に晒される可能性がある。
本稿では,テキスト表現学習において,少ない計算量でより表現力の高いハイパーグラフアテンションネットワーク(HyperGAT)を提案する。
論文 参考訳(メタデータ) (2020-11-01T00:21:59Z) - Learning to Match Jobs with Resumes from Sparse Interaction Data using
Multi-View Co-Teaching Network [83.64416937454801]
ジョブ列のインタラクションデータは疎結合でノイズが多く、ジョブ列のマッチングアルゴリズムのパフォーマンスに影響する。
求人情報マッチングのための疎相互作用データから,新しいマルチビュー協調学習ネットワークを提案する。
我々のモデルは求人マッチングの最先端手法より優れている。
論文 参考訳(メタデータ) (2020-09-25T03:09:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。