論文の概要: Exploratory Analysis of Covid-19 Tweets using Topic Modeling, UMAP, and
DiGraphs
- arxiv url: http://arxiv.org/abs/2005.03082v1
- Date: Wed, 6 May 2020 19:16:38 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-06 06:27:47.479477
- Title: Exploratory Analysis of Covid-19 Tweets using Topic Modeling, UMAP, and
DiGraphs
- Title(参考訳): トピックモデリング, UMAP, DiGraphs を用いたCovid-19 ツイートの探索解析
- Authors: Catherine Ordun, Sanjay Purushotham, Edward Raff
- Abstract要約: 本稿では,Covid19 ツイートのトピック,キーワード,特徴,情報拡散の速度,ネットワーク行動の5つの異なる評価手法について述べる。
米国のケースに特有なトピックは、ホワイトハウスのコロナウイルス対策部隊のブリーフィングの後すぐに上昇し始めるだろう。
この分析の最も単純な特徴の1つは、正規表現のような初期記述的手法がハイレベルなテーマをうまく識別できることである。
- 参考スコア(独自算出の注目度): 36.33347149799959
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper illustrates five different techniques to assess the
distinctiveness of topics, key terms and features, speed of information
dissemination, and network behaviors for Covid19 tweets. First, we use pattern
matching and second, topic modeling through Latent Dirichlet Allocation (LDA)
to generate twenty different topics that discuss case spread, healthcare
workers, and personal protective equipment (PPE). One topic specific to U.S.
cases would start to uptick immediately after live White House Coronavirus Task
Force briefings, implying that many Twitter users are paying attention to
government announcements. We contribute machine learning methods not previously
reported in the Covid19 Twitter literature. This includes our third method,
Uniform Manifold Approximation and Projection (UMAP), that identifies unique
clustering-behavior of distinct topics to improve our understanding of
important themes in the corpus and help assess the quality of generated topics.
Fourth, we calculated retweeting times to understand how fast information about
Covid19 propagates on Twitter. Our analysis indicates that the median
retweeting time of Covid19 for a sample corpus in March 2020 was 2.87 hours,
approximately 50 minutes faster than repostings from Chinese social media about
H7N9 in March 2013. Lastly, we sought to understand retweet cascades, by
visualizing the connections of users over time from fast to slow retweeting. As
the time to retweet increases, the density of connections also increase where
in our sample, we found distinct users dominating the attention of Covid19
retweeters. One of the simplest highlights of this analysis is that early-stage
descriptive methods like regular expressions can successfully identify
high-level themes which were consistently verified as important through every
subsequent analysis.
- Abstract(参考訳): 本稿では,Covid19 ツイートのトピック,キーワード,特徴,情報拡散の速度,ネットワーク行動の5つの異なる評価手法について述べる。
第1に,パターンマッチングと第2に,潜在ディリクレ割り当て(lda)によるトピックモデリングを用いて,ケーススプレッドや医療従事者,個人保護具(ppe)に関する20のトピックを生成する。
米国のケースに特化しているトピックは、ホワイトハウスのコロナウイルスタスクフォースのライブブリーフィングの直後に上昇し始め、多くのTwitterユーザーが政府の発表に注意を払っていることを示している。
Covid19 Twitterの文献に報告されていない機械学習手法に貢献する。
第3の手法であるUniform Manifold Approximation and Projection (UMAP)は、異なるトピックのユニークなクラスタリング行動を特定し、コーパスにおける重要なテーマの理解を改善し、生成されたトピックの品質を評価する。
第4に、Twitter上でCovid19に関する情報がいかに速いかを理解するために、リツイート時間を計算した。
分析の結果,2020年3月のサンプルコーパスにおけるCovid19のリツイート時間は2.87時間であり,2013年3月のH7N9に関する中国のソーシャルメディアからのリツイートより約50分早くなった。
最後に、retweetのカスケードを理解するために、ユーザーの接続を高速から遅いリツイートまで可視化しました。
リツイートの時間が増加するにつれて、コネクションの密度も増加し、われわれのサンプルでは、Covid19リツイートの注目度を左右する別のユーザーが現れた。
この分析の最も単純な特徴の1つは、正規表現のような初期の記述的手法は、その後の分析で一貫して重要であると証明された高レベルなテーマをうまく識別できることである。
関連論文リスト
- ManiTweet: A New Benchmark for Identifying Manipulation of News on Social Media [74.93847489218008]
ソーシャルメディア上でのニュースの操作を識別し,ソーシャルメディア投稿の操作を検出し,操作された情報や挿入された情報を特定することを目的とした,新しいタスクを提案する。
この課題を研究するために,データ収集スキーマを提案し,3.6K対のツイートとそれに対応する記事からなるManiTweetと呼ばれるデータセットをキュレートした。
我々の分析では、このタスクは非常に難しいことを示し、大きな言語モデル(LLM)は不満足なパフォーマンスをもたらす。
論文 参考訳(メタデータ) (2023-05-23T16:40:07Z) - Twitter-COMMs: Detecting Climate, COVID, and Military Multimodal
Misinformation [83.2079454464572]
本稿では,DARPAセマンティック・フォレスティクス(SemaFor)プログラムにおける画像テキスト不整合検出へのアプローチについて述べる。
Twitter-COMMsは大規模マルチモーダルデータセットで、884万のツイートが気候変動、新型コロナウイルス、軍用車両のトピックに関連する。
我々は、最先端のCLIPモデルに基づいて、自動生成されたランダムとハードのネガネガネガネガネガネガネガネガネガネガネガネガネガネガネガネガネガネガネガネガネガネガネガネガネガネガネガネガネガネガネガネガネガネガネガネガネガネガネガネガネガネガネガネガネガネガネガネガネガネガ
論文 参考訳(メタデータ) (2021-12-16T03:37:20Z) - Identification of Twitter Bots based on an Explainable ML Framework: the
US 2020 Elections Case Study [72.61531092316092]
本稿では,ラベル付きTwitterデータに基づくTwitterボット識別システムの設計に焦点をあてる。
Supervised Machine Learning (ML)フレームワークは、Extreme Gradient Boosting (XGBoost)アルゴリズムを用いて採用されている。
また、MLモデルの予測を説明するためにShapley Additive Explanations (SHAP)をデプロイした。
論文 参考訳(メタデータ) (2021-12-08T14:12:24Z) - Extracting Major Topics of COVID-19 Related Tweets [2.867517731896504]
トピックモデリング手法を用いて,全国の検疫期間(2020年3月23日~6月23日)に,Covid-19のツイートからグローバルトピックを抽出する。
また,世界と4カ国の話題の時間的傾向を分析した。
論文 参考訳(メタデータ) (2021-10-05T08:40:51Z) - Misleading the Covid-19 vaccination discourse on Twitter: An exploratory
study of infodemic around the pandemic [0.45593531937154413]
我々は7ヶ月(2020年9月~2021年3月)のコビッドウイルスワクチン接種に関連する中規模のツイートコーパス(20万件)を収集する。
Transfer Learningのアプローチに従えば、事前訓練されたTransformerベースのXLNetモデルを使用して、ツイートをミスリーディングまたは非ミスリーディングに分類する。
我々は、自然に誤解を招くコーパスのツイートの特徴と非誤解を招くツイートの特徴を調査・対比するためにこの手法を構築した。
いくつかのMLモデルは、最大90%の精度で予測に使用され、各特徴の重要性は、SHAP Explainable AI (X)を用いて説明される。
論文 参考訳(メタデータ) (2021-08-16T17:02:18Z) - Sentiment analysis in tweets: an assessment study from classical to
modern text representation models [59.107260266206445]
Twitterで公開された短いテキストは、豊富な情報源として大きな注目を集めている。
非公式な言語スタイルや騒々しい言語スタイルといったそれらの固有の特徴は、多くの自然言語処理(NLP)タスクに挑戦し続けている。
本研究では,22データセットの豊富なコレクションを用いて,ツイートに表される感情を識別する既存言語モデルの評価を行った。
論文 参考訳(メタデータ) (2021-05-29T21:05:28Z) - Understanding Information Spreading Mechanisms During COVID-19 Pandemic
by Analyzing the Impact of Tweet Text and User Features for Retweet
Prediction [6.658785818853953]
新型コロナウイルスは世界の経済や、ほぼすべての人々の日常生活に影響を与えている。
ソーシャルメディアプラットフォームは、情報を共有できる他のユーザーと情報を共有できる。
CNNとRNNをベースとした2つのモデルを提案し、これらのモデルの性能を公開のTweetsCOV19データセットで評価する。
論文 参考訳(メタデータ) (2021-05-26T15:55:58Z) - Understanding the Spatio-temporal Topic Dynamics of Covid-19 using
Nonnegative Tensor Factorization: A Case Study [1.6328866317851185]
本稿では、ソーシャルメディアデータにおける話題を特定するために、ソーシャルメディアデータと非負因子化(NTF)の表現を提案する。
オーストラリアのTwitterスフィアに関するケーススタディでは、Covid-19のトピックのダイナミクスを視覚化する。
論文 参考訳(メタデータ) (2020-09-19T15:16:28Z) - Covid-Transformer: Detecting COVID-19 Trending Topics on Twitter Using
Universal Sentence Encoder [7.305019142196582]
新型コロナウイルス感染症(COVID-19)がパンデミックを引き起こし、世界200カ国以上に感染した。
新型コロナウイルス(COVID-19)の世界的な影響により、ほぼ至る所で人々の大きな関心事となっている。
われわれは、ツイートを分析し、トレンドトピックやTwitter上の人々の関心事を検出する。
論文 参考訳(メタデータ) (2020-09-08T19:00:38Z) - EmotiCon: Context-Aware Multimodal Emotion Recognition using Frege's
Principle [71.47160118286226]
EmotiConは、ビデオや画像から知覚された人間の感情認識をコンテキスト認識する学習アルゴリズムである。
心理学からフレーゲの文脈原理に動機づけられた我々のアプローチは、感情認識のための文脈の3つの解釈を組み合わせたものである。
平均精度 (AP) スコアは26クラスで35.48であり, 従来の手法よりも7-8の改善が見られた。
論文 参考訳(メタデータ) (2020-03-14T19:55:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。