論文の概要: The growing amplification of social media: Measuring temporal and social
contagion dynamics for over 150 languages on Twitter for 2009-2020
- arxiv url: http://arxiv.org/abs/2003.03667v8
- Date: Tue, 9 Mar 2021 03:32:41 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-25 19:21:39.902800
- Title: The growing amplification of social media: Measuring temporal and social
contagion dynamics for over 150 languages on Twitter for 2009-2020
- Title(参考訳): ソーシャルメディアの増幅:2009-2020年におけるTwitter上の150言語以上の時間的・社会的伝染動態の測定
- Authors: Thayer Alshaabi, David R. Dewhurst, Joshua R. Minot, Michael V.
Arnold, Jane L. Adams, Christopher M. Danforth, and Peter Sheridan Dodds
- Abstract要約: 8つの言語は全ツイートの80%を占めており、英語、日本語、スペイン語、ポルトガル語が最も優勢である。
リツイートとオーガニックメッセージのバランスを計算します。
2019年の終わりまでに、英語とスペイン語を含むトップ30言語の半分の感染率は1.5%を超えた。
- 参考スコア(独自算出の注目度): 0.9894420655516565
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Working from a dataset of 118 billion messages running from the start of 2009
to the end of 2019, we identify and explore the relative daily use of over 150
languages on Twitter. We find that eight languages comprise 80% of all tweets,
with English, Japanese, Spanish, and Portuguese being the most dominant. To
quantify social spreading in each language over time, we compute the 'contagion
ratio': The balance of retweets to organic messages. We find that for the most
common languages on Twitter there is a growing tendency, though not universal,
to retweet rather than share new content. By the end of 2019, the contagion
ratios for half of the top 30 languages, including English and Spanish, had
reached above 1 -- the naive contagion threshold. In 2019, the top 5 languages
with the highest average daily ratios were, in order, Thai (7.3), Hindi, Tamil,
Urdu, and Catalan, while the bottom 5 were Russian, Swedish, Esperanto,
Cebuano, and Finnish (0.26). Further, we show that over time, the contagion
ratios for most common languages are growing more strongly than those of rare
languages.
- Abstract(参考訳): 2009年初めから2019年末にかけての1180億以上のメッセージのデータセットから,twitter上での1日当たり150以上の言語の使用状況を特定し,調査する。
8つの言語が全ツイートの80%を占めており、英語、日本語、スペイン語、ポルトガル語が最も有力である。
各言語の社会的拡散を時間とともに定量化するために、リツイートとオーガニックメッセージのバランスである「伝染率」を計算する。
twitterの最も一般的な言語では、新しいコンテンツを共有するのではなく、リツイートする傾向が増えていることが分かっています。
2019年末までには、英語とスペイン語を含む上位30言語の半分の感染率は1言語を超えていた。
2019年、平均日数比率が最も高い上位5言語はタイ語(7.3)、ヒンディー語、タミル語、ウルドゥ語、カタルーニャ語、下位5言語はロシア語、スウェーデン語、エスペラント語、セブアーノ語、フィンランド語(0.26)であった。
さらに、時間とともに、ほとんどの共通言語における感染率は、希少言語よりも強く成長していることを示す。
関連論文リスト
- The Role of Language Imbalance in Cross-lingual Generalisation: Insights from Cloned Language Experiments [57.273662221547056]
本研究では,言語間一般化の非直感的な新規ドライバである言語不均衡について検討する。
学習中に支配的な言語が存在することが、あまり頻度の低い言語の性能を高めることを観察する。
分析を実言語に拡張するにつれ、頻繁な言語は依然として恩恵を受けていますが、言語不均衡が言語間の一般化を引き起こすかどうかは決定的ではありません。
論文 参考訳(メタデータ) (2024-04-11T17:58:05Z) - Multilingual Word Embeddings for Low-Resource Languages using Anchors
and a Chain of Related Languages [54.832599498774464]
我々は,言語連鎖に基づく新しいアプローチにより,多言語単語埋め込み(MWE)を構築することを提案する。
リソースの豊富なソースから始めて、ターゲットに到達するまで各言語をチェーンに順次追加することで、MWEを一度に1つの言語で構築します。
本手法は,4つの低リソース(5Mトークン)と4つの中程度の低リソース(50M)ターゲット言語を含む4つの言語ファミリーを対象としたバイリンガルレキシコン誘導法について検討した。
論文 参考訳(メタデータ) (2023-11-21T09:59:29Z) - Scaling Speech Technology to 1,000+ Languages [66.31120979098483]
MMS(Massively Multilingual Speech)プロジェクトは、タスクに応じてサポート言語を10~40倍増やす。
主な材料は、一般に公開されている宗教文書の読解に基づく新しいデータセットである。
我々は,1,406言語,1,107言語用1つの多言語自動音声認識モデル,同一言語用音声合成モデル,4,017言語用言語識別モデルについて,事前学習したwav2vec 2.0モデルを構築した。
論文 参考訳(メタデータ) (2023-05-22T22:09:41Z) - Towards continually learning new languages [66.36852845415916]
言語のバッチ学習は経済的に有益だが、大きな課題は破滅的な忘れ方だ。
我々は,破滅的忘れを抑えるために,重量分解特性と弾性重みの固化特性を組み合わせる。
私たちは、すべての言語をゼロからトレーニングするのに比べ、破滅的な忘れものもなく、合理的なパフォーマンスで26の言語を達成しています。
論文 参考訳(メタデータ) (2022-11-21T18:24:34Z) - Making a MIRACL: Multilingual Information Retrieval Across a Continuum
of Languages [62.730361829175415]
MIRACLは、WSDM 2023 Cupチャレンジのために構築した多言語データセットです。
18の言語にまたがるアドホック検索に焦点を当てている。
我々の目標は、言語連続体における検索を改善する研究を加速させることです。
論文 参考訳(メタデータ) (2022-10-18T16:47:18Z) - COVID-19-related Nepali Tweets Classification in a Low Resource Setting [0.15658704610960567]
ネパール語を用いて、Twitterコミュニティの中で最も一般的な8つのトピックを特定します。
ネパールのつぶやき分類のための2つの最先端多言語言語モデルの性能を比較した。
論文 参考訳(メタデータ) (2022-10-11T13:08:37Z) - Extracting Feelings of People Regarding COVID-19 by Social Network
Mining [0.0]
英語における新型コロナウイルス関連ツイートのデータセットが収集される。
2020年3月23日から6月23日までに200万件以上のツイートが分析されている。
論文 参考訳(メタデータ) (2021-10-12T16:45:33Z) - UPB at SemEval-2020 Task 12: Multilingual Offensive Language Detection
on Social Media by Fine-tuning a Variety of BERT-based Models [0.0]
本稿では,Twitter上の攻撃的言語を5言語で識別するTransformerベースのソリューションについて述べる。
これは、Offenseval 2020のSubtask Aの共有タスクで使用された。
論文 参考訳(メタデータ) (2020-10-26T14:28:29Z) - SIGMORPHON 2020 Shared Task 0: Typologically Diverse Morphological
Inflection [81.85463892070085]
形態的回帰に関するSIGMORPHON 2020の課題は、型的に異なる言語にまたがるシステムの一般化能力を調査することを目的としている。
システムは45言語と5つの言語ファミリーのデータを使用して開発され、追加の45言語と10の言語ファミリー(合計13言語)のデータで微調整され、90言語すべてで評価された。
論文 参考訳(メタデータ) (2020-06-20T13:24:14Z) - SenWave: Monitoring the Global Sentiments under the COVID-19 Pandemic [26.109661374693935]
SenWaveは105万以上のツイートとWeiboメッセージを使って、感情分析を行う。
SenWaveは、新型コロナウイルスに関する6つの言語でグローバルな会話の感情を明らかにしている。
全体として、SenWaveは楽観的かつ肯定的な感情が時間とともに増加し、新型コロナウイルス(COVID-19)の世界を改良するためのリセットを欲しがっていることを示している。
論文 参考訳(メタデータ) (2020-06-18T20:33:41Z) - Characterising User Content on a Multi-lingual Social Network [9.13241181020543]
インドにおけるShareChatと呼ばれる多言語ソーシャルネットワークの特性について紹介する。
私たちは、2019年のインド総選挙の前と14の言語で72週間にわたって、網羅的なデータセットを収集しました。
テルグ語、マラヤラム語、タミル語、カナダ語は政治的イメージの誘惑に支配的であることが判明した。
論文 参考訳(メタデータ) (2020-04-23T22:25:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。