論文の概要: Storywrangler: A massive exploratorium for sociolinguistic, cultural,
socioeconomic, and political timelines using Twitter
- arxiv url: http://arxiv.org/abs/2007.12988v5
- Date: Fri, 16 Jul 2021 18:32:29 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-07 01:17:58.515526
- Title: Storywrangler: A massive exploratorium for sociolinguistic, cultural,
socioeconomic, and political timelines using Twitter
- Title(参考訳): storywrangler: twitterを用いた社会言語学、文化、社会経済、政治タイムラインの大規模な爆発
- Authors: Thayer Alshaabi, Jane L. Adams, Michael V. Arnold, Joshua R. Minot,
David R. Dewhurst, Andrew J. Reagan, Christopher M. Danforth, and Peter
Sheridan Dodds
- Abstract要約: リアルタイムでは、ソーシャルメディアのデータは世界の出来事、大衆文化、そして何百万人もの一般人の日々の会話を、ほとんど慣習化されず記録されていない規模で強く刻み込む。
ここでは、2008年から2021年までの約1兆1グラムを含む100億以上のツイートの日々のキュレーションを実行するために設計された自然言語処理機器であるStorywranglerについて説明する。
毎日、ツイートを100以上の言語にまたがるユニグラム、ビッグラム、トリグラムに分割します。n-gramの使用頻度を追跡し、単語、ハッシュタグ、ハンドルなどのZipf分布を生成します。
- 参考スコア(独自算出の注目度): 0.9485862597874625
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In real-time, social media data strongly imprints world events, popular
culture, and day-to-day conversations by millions of ordinary people at a scale
that is scarcely conventionalized and recorded. Vitally, and absent from many
standard corpora such as books and news archives, sharing and commenting
mechanisms are native to social media platforms, enabling us to quantify social
amplification (i.e., popularity) of trending storylines and contemporary
cultural phenomena. Here, we describe Storywrangler, a natural language
processing instrument designed to carry out an ongoing, day-scale curation of
over 100 billion tweets containing roughly 1 trillion 1-grams from 2008 to
2021. For each day, we break tweets into unigrams, bigrams, and trigrams
spanning over 100 languages. We track n-gram usage frequencies, and generate
Zipf distributions, for words, hashtags, handles, numerals, symbols, and
emojis. We make the data set available through an interactive time series
viewer, and as downloadable time series and daily distributions. Although
Storywrangler leverages Twitter data, our method of extracting and tracking
dynamic changes of n-grams can be extended to any similar social media
platform. We showcase a few examples of the many possible avenues of study we
aim to enable including how social amplification can be visualized through
'contagiograms'. We also present some example case studies that bridge n-gram
time series with disparate data sources to explore sociotechnical dynamics of
famous individuals, box office success, and social unrest.
- Abstract(参考訳): リアルタイムでは、ソーシャルメディアのデータは世界の出来事、大衆文化、そして何百万人もの一般人の日々の会話を、ほとんど慣習化されず記録されていない規模で強く刻み込む。
本書やニュースアーカイブなど,多くの標準コーパスが欠落しており,共有・コメント機構はソーシャルメディアプラットフォームに固有のものであり,トレンドや現代文化現象の社会的増幅(すなわち人気)を定量化することができる。
ここでは、2008年から2021年までの約1兆1グラムを含む100億以上のツイートの日々のキュレーションを実行するために設計された自然言語処理機器であるStorywranglerについて説明する。
毎日、ツイートをユニグラム、ビッグラム、そして100以上の言語にまたがるトリグラムに分割する。
n-gramの使用頻度を追跡し、単語、ハッシュタグ、ハンドル、数字、シンボル、絵文字のZipf分布を生成する。
我々は、データセットをインタラクティブな時系列ビューアと、ダウンロード可能な時系列および日次配信を通じて利用可能にする。
Storywrangler は Twitter のデータを活用するが,n-gram の動的変化を抽出・追跡する手法は任意のソーシャルメディアプラットフォームに拡張できる。
我々は,社会増幅を「コンタジグラム」で可視化する方法を含む,私たちが実現しようとしている多くの研究方法の例を紹介している。
また,n-gram時系列を異なるデータソースでブリッジして,有名人の社会工学的ダイナミクス,興行成功,社会不安を探求する事例も提示する。
関連論文リスト
- Enhancing Fake News Detection in Social Media via Label Propagation on Cross-modal Tweet Graph [19.409935976725446]
ソーシャルメディアにおける偽ニュースを検出する新しい方法を提案する。
我々の手法は、より密な相互作用をよりよく捉えるために、グラフの接続性を高める。
評価には、Twitter、PHEME、Weiboの3つの公開フェイクニュースデータセットを使用します。
論文 参考訳(メタデータ) (2024-06-14T09:55:54Z) - TwHIN-BERT: A Socially-Enriched Pre-trained Language Model for
Multilingual Tweet Representations at Twitter [31.698196219228024]
TwHIN-BERTはTwitterで制作された多言語言語モデルである。
私たちのモデルは、100以上の異なる言語をカバーする70億のツイートで訓練されています。
我々は,多言語ソーシャルレコメンデーションと意味理解タスクにおけるモデルの評価を行った。
論文 参考訳(メタデータ) (2022-09-15T19:01:21Z) - Language statistics at different spatial, temporal, and grammatical
scales [48.7576911714538]
Twitterのデータを使って、さまざまなスケールでランクの多様性を探求しています。
最も大きな変化は、文法的なスケールのバリエーションによる。
文法スケールが大きくなるにつれて、ランクの多様性曲線は時間スケールや空間スケールによって大きく変化する。
論文 参考訳(メタデータ) (2022-07-02T01:38:48Z) - Decay No More: A Persistent Twitter Dataset for Learning Social Meaning [10.227026799075215]
社会意味のための英語Twitterデータセット(PTSM)を提案する。
PTSMは17ドルのソーシャル意味データセットと10ドルのタスクカテゴリで構成されている。
我々は2つのSOTA事前訓練言語モデルを用いて実験を行い、PTSMが実際のツイートをパラフレーズに置換し、性能損失を極端に抑えることを示した。
論文 参考訳(メタデータ) (2022-04-10T06:07:54Z) - Extracting Feelings of People Regarding COVID-19 by Social Network
Mining [0.0]
英語における新型コロナウイルス関連ツイートのデータセットが収集される。
2020年3月23日から6月23日までに200万件以上のツイートが分析されている。
論文 参考訳(メタデータ) (2021-10-12T16:45:33Z) - The emojification of sentiment on social media: Collection and analysis
of a longitudinal Twitter sentiment dataset [5.528896840956628]
TM-Sentiは、Twitterの感情データセットを大規模に管理し、ツイート数は1億1400万を超えている。
我々は,大規模なエモティコンと絵文字に基づくラベル付き感情分析データセットを組み立てるための方法論を記述し,評価する。
私たちの分析では絵文字のエモティコンへの利用の増加など、興味深い時間的変化が強調されている。
論文 参考訳(メタデータ) (2021-08-31T14:54:46Z) - Attend and Select: A Segment Attention based Selection Mechanism for
Microblog Hashtag Generation [69.73215951112452]
ハッシュタグは、原文の様々な断片的な部分に由来する可能性のあるトークンまたはフレーズによって形成される。
本稿では,エンコーディング,セグメント選択,デコードという3つのフェーズからなるエンドツーエンドのトランスフォーマーベース生成モデルを提案する。
中国語のWeiboと英語のTwitterから新たに収集した2つの大規模ハッシュタグ生成データセットを紹介する。
論文 参考訳(メタデータ) (2021-06-06T15:13:58Z) - Sentiment analysis in tweets: an assessment study from classical to
modern text representation models [59.107260266206445]
Twitterで公開された短いテキストは、豊富な情報源として大きな注目を集めている。
非公式な言語スタイルや騒々しい言語スタイルといったそれらの固有の特徴は、多くの自然言語処理(NLP)タスクに挑戦し続けている。
本研究では,22データセットの豊富なコレクションを用いて,ツイートに表される感情を識別する既存言語モデルの評価を行った。
論文 参考訳(メタデータ) (2021-05-29T21:05:28Z) - Streaming Social Event Detection and Evolution Discovery in
Heterogeneous Information Networks [90.3475746663728]
イベントは現実世界やリアルタイムで行われており、社会集会、祝祭、影響力のある会議、スポーツ活動などのイベントのために計画や組織化が可能である。
ソーシャルメディアプラットフォームは、トピックの異なる公開イベントに関する多くのリアルタイムテキスト情報を生成する。
しかし、異質なテクスチャやメタデータがあいまいであることが多いため、社会イベントの採掘は困難である。
論文 参考訳(メタデータ) (2021-04-02T02:13:10Z) - Content-based Analysis of the Cultural Differences between TikTok and
Douyin [95.32409577885645]
ショートフォームのソーシャルメディアは、聴衆にダイナミックなストーリーを伝え、彼らの注意を引き付けることによって、伝統的なメディアパラダイムから遠ざかる。
特に、興味深く、理解しやすいユニークなシーンを表現するために、日常的なオブジェクトの異なる組み合わせを用いることができる。
同じ会社によって提供されたTikTokとDouyinは、近年人気になった新しいメディアの好例だ。
メディアファッションや社会的慣用性とともに文化的な違いを表現しているという仮説が,本研究の主目的である。
論文 参考訳(メタデータ) (2020-11-03T01:47:49Z) - Vyaktitv: A Multimodal Peer-to-Peer Hindi Conversations based Dataset
for Personality Assessment [50.15466026089435]
本稿では,ピアツーピアのHindi会話データセットであるVyaktitvを提案する。
参加者の高品質な音声とビデオの録音と、会話ごとにヒングリッシュのテキストによる書き起こしで構成されている。
データセットには、収入、文化的指向など、すべての参加者のための豊富な社会デコグラフィー的特徴が含まれています。
論文 参考訳(メタデータ) (2020-08-31T17:44:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。