論文の概要: SenWave: A Fine-Grained Multi-Language Sentiment Analysis Dataset Sourced from COVID-19 Tweets
- arxiv url: http://arxiv.org/abs/2510.08214v1
- Date: Thu, 09 Oct 2025 13:38:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-10 17:54:15.098937
- Title: SenWave: A Fine-Grained Multi-Language Sentiment Analysis Dataset Sourced from COVID-19 Tweets
- Title(参考訳): SenWave:COVID-19のツイートから得られた細粒度多言語感性分析データセット
- Authors: Qiang Yang, Xiuying Chen, Changsheng Ma, Rui Yin, Xin Gao, Xiangliang Zhang,
- Abstract要約: SenWaveは、新型コロナウイルス(COVID-19)のツイートを分析するために特別に設計された、新しい微粒な多言語感情分析データセットである。
このデータセットは、英語とアラビア語でそれぞれ1万の注釈付きツイートと、スペイン語、フランス語、イタリア語で3万の翻訳ツイートで構成されている。
本研究は,言語,国,トピック間の進化する情緒的景観を詳細に分析し,時間とともに重要な洞察を明らかにする。
- 参考スコア(独自算出の注目度): 42.98177831933239
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: The global impact of the COVID-19 pandemic has highlighted the need for a comprehensive understanding of public sentiment and reactions. Despite the availability of numerous public datasets on COVID-19, some reaching volumes of up to 100 billion data points, challenges persist regarding the availability of labeled data and the presence of coarse-grained or inappropriate sentiment labels. In this paper, we introduce SenWave, a novel fine-grained multi-language sentiment analysis dataset specifically designed for analyzing COVID-19 tweets, featuring ten sentiment categories across five languages. The dataset comprises 10,000 annotated tweets each in English and Arabic, along with 30,000 translated tweets in Spanish, French, and Italian, derived from English tweets. Additionally, it includes over 105 million unlabeled tweets collected during various COVID-19 waves. To enable accurate fine-grained sentiment classification, we fine-tuned pre-trained transformer-based language models using the labeled tweets. Our study provides an in-depth analysis of the evolving emotional landscape across languages, countries, and topics, revealing significant insights over time. Furthermore, we assess the compatibility of our dataset with ChatGPT, demonstrating its robustness and versatility in various applications. Our dataset and accompanying code are publicly accessible on the repository\footnote{https://github.com/gitdevqiang/SenWave}. We anticipate that this work will foster further exploration into fine-grained sentiment analysis for complex events within the NLP community, promoting more nuanced understanding and research innovations.
- Abstract(参考訳): 新型コロナウイルス(COVID-19)の世界的な影響は、国民の感情や反応を包括的に理解する必要性を浮き彫りにした。
新型コロナウイルスに関する多くの公開データセットが利用可能であり、最大1000億のデータポイントに達するものもあったが、ラベル付きデータの可用性と粗い粒度や不適切な感情ラベルの存在に関する課題は続いている。
本稿では,5つの言語にまたがる10の感情カテゴリーを特徴とする,COVID-19のツイートの分析に特化して設計された,新しい微粒な多言語感情分析データセットであるSenWaveを紹介する。
このデータセットは、英語とアラビア語でそれぞれ1万の注釈付きツイートと、スペイン語、フランス語、イタリア語で3万の翻訳ツイートで構成されている。
さらに、新型コロナウイルス(COVID-19)の波で収集された1億5500万件の未ラベルツイートも含まれている。
高精度な感情分類を実現するために,ラベル付きツイートを用いて事前学習したトランスフォーマーに基づく言語モデルを微調整した。
本研究は,言語,国,トピック間の進化する情緒的景観を詳細に分析し,時間とともに重要な洞察を明らかにする。
さらに、ChatGPTとデータセットの互換性を評価し、その堅牢性と汎用性を様々なアプリケーションで示す。
私たちのデータセットと付随するコードは、pository\footnote{https://github.com/gitdevqiang/SenWave}で公開されています。
この研究は、NLPコミュニティ内の複雑な出来事に対するきめ細かい感情分析をさらに探求し、より微妙な理解と研究の革新を促進することを期待する。
関連論文リスト
- EmoHopeSpeech: An Annotated Dataset of Emotions and Hope Speech in English and Arabic [0.021665899581403608]
本研究では,アラビア語の23,456項目と英語の10,036項目からなるバイリンガルデータセットを提案する。
このデータセットは、感情の強さ、複雑さ、原因を捉える包括的なアノテーションと、希望のスピーチのための詳細な分類とサブカテゴリを提供する。
論文 参考訳(メタデータ) (2025-05-17T11:21:58Z) - BRIGHTER: BRIdging the Gap in Human-Annotated Textual Emotion Recognition Datasets for 28 Languages [93.92804151830744]
BRIGHTERは、28の言語で複数ラベル付き、感情アノテートされたデータセットの集合である。
データ収集とアノテーションプロセスに関する課題を強調します。
BRIGHTERデータセットは、テキストベースの感情認識のギャップに対処するための重要なステップであることを示す。
論文 参考訳(メタデータ) (2025-02-17T15:39:50Z) - WorldCuisines: A Massive-Scale Benchmark for Multilingual and Multicultural Visual Question Answering on Global Cuisines [74.25764182510295]
視覚言語モデル(VLM)は、特に英語以外の言語において、文化特有の知識に苦しむことが多い。
我々は多言語および多文化の視覚的理解のための大規模ベンチマークであるWorld Cuisinesを紹介した。
このベンチマークには、30の言語と方言にまたがるテキストイメージペアを備えた、視覚的質問応答(VQA)データセットが含まれている。
論文 参考訳(メタデータ) (2024-10-16T16:11:49Z) - NaijaSenti: A Nigerian Twitter Sentiment Corpus for Multilingual
Sentiment Analysis [5.048355865260207]
ナイジェリアでもっとも広く話されている4言語に対して、人手によるTwitter感情データセットを初めて導入する。
データセットは1言語あたり約30,000の注釈付きツイートで構成されている。
私たちは、データセット、訓練されたモデル、感情レキシコン、コードをリリースし、表現不足言語における感情分析の研究にインセンティブを与えます。
論文 参考訳(メタデータ) (2022-01-20T16:28:06Z) - Extracting Feelings of People Regarding COVID-19 by Social Network
Mining [0.0]
英語における新型コロナウイルス関連ツイートのデータセットが収集される。
2020年3月23日から6月23日までに200万件以上のツイートが分析されている。
論文 参考訳(メタデータ) (2021-10-12T16:45:33Z) - AraCOVID19-MFH: Arabic COVID-19 Multi-label Fake News and Hate Speech
Detection Dataset [0.0]
「AraCOVID19-MFH」は、アラビア・COVID-19の偽ニュースとヘイトスピーチ検出データセットを手動で注釈付けしたものである。
当社のデータセットには、10の異なるラベルで注釈付けされた10,828のアラビア語ツイートが含まれています。
ヘイトスピーチの検出、意見/ニュースの分類、方言の識別、その他多くのタスクにも使用できる。
論文 参考訳(メタデータ) (2021-05-07T09:52:44Z) - SenWave: Monitoring the Global Sentiments under the COVID-19 Pandemic [26.109661374693935]
SenWaveは105万以上のツイートとWeiboメッセージを使って、感情分析を行う。
SenWaveは、新型コロナウイルスに関する6つの言語でグローバルな会話の感情を明らかにしている。
全体として、SenWaveは楽観的かつ肯定的な感情が時間とともに増加し、新型コロナウイルス(COVID-19)の世界を改良するためのリセットを欲しがっていることを示している。
論文 参考訳(メタデータ) (2020-06-18T20:33:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。