論文の概要: BLM-17m: A Large-Scale Dataset for Black Lives Matter Topic Detection on
Twitter
- arxiv url: http://arxiv.org/abs/2105.01331v2
- Date: Fri, 22 Sep 2023 19:40:16 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-27 05:21:33.483561
- Title: BLM-17m: A Large-Scale Dataset for Black Lives Matter Topic Detection on
Twitter
- Title(参考訳): BLM-17m: Twitter上のブラックライブトピック検出のための大規模データセット
- Authors: Hasan Kemik, Nusret \"Ozate\c{s}, Meysam Asgari-Chenaghlu, Erik
Cambria
- Abstract要約: 我々は,1700万ツイートを含むトピック検出のためのラベル付きデータセットを提案する。
これらのツイートは、2020年5月25日から8月21日までの89日間に収集される。
- 参考スコア(独自算出の注目度): 25.946645682891678
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Protection of human rights is one of the most important problems of our
world. In this paper, our aim is to provide a dataset which covers one of the
most significant human rights contradiction in recent months affected the whole
world, George Floyd incident. We propose a labeled dataset for topic detection
that contains 17 million tweets. These Tweets are collected from 25 May 2020 to
21 August 2020 that covers 89 days from start of this incident. We labeled the
dataset by monitoring most trending news topics from global and local
newspapers. Apart from that, we present two baselines, TF-IDF and LDA. We
evaluated the results of these two methods with three different k values for
metrics of precision, recall and f1-score. The collected dataset is available
at https://github.com/MeysamAsgariC/BLMT.
- Abstract(参考訳): 人権の保護は、我々の世界で最も重要な問題の1つです。
本稿の目的は,ジョージ・フロイド事件(George Floyd incident)に影響を及ぼした近年の人権侵害の最も顕著な1つをカバーするデータセットを提供することである。
1700万ツイートを含むトピック検出のためのラベル付きデータセットを提案する。
これらのツイートは、2020年5月25日から8月21日までの89日間に収集される。
我々は、世界中の新聞や地方紙のトレンドニュースをモニタリングすることで、データセットをラベル付けした。
それとは別に、TF-IDF と LDA の2つのベースラインがある。
精度,リコール,f1スコアの3つの異なるk値を用いた2つの手法の結果を評価した。
収集されたデータセットはhttps://github.com/MeysamAsgariC/BLMTで入手できる。
関連論文リスト
- Into the LAIONs Den: Investigating Hate in Multimodal Datasets [67.21783778038645]
本稿では、LAION-400MとLAION-2Bの2つのデータセットの比較監査を通して、ヘイトフルコンテンツに対するデータセットのスケーリングの効果について検討する。
その結果、データセットのスケールによってヘイトコンテンツは12%近く増加し、質的にも定量的にも測定された。
また、画像のみに基づいて算出されたNot Safe For Work(NSFW)値に基づくデータセットの内容のフィルタリングは、アルトテキストにおける有害なコンテンツをすべて排除するものではないことがわかった。
論文 参考訳(メタデータ) (2023-11-06T19:00:05Z) - A New Task and Dataset on Detecting Attacks on Human Rights Defenders [68.45906430323156]
我々は,500のオンラインニュース記事にクラウドソーシングされたアノテーションからなる人権擁護者に対する攻撃(HRDsAttack)を検出するための新しいデータセットを提案する。
アノテーションには、攻撃のタイプと場所に関する詳細な情報と、被害者に関する情報が含まれている。
いくつかのサブタスク上でベースラインモデルをトレーニングし,評価し,注釈付き特性を予測することで,データセットの有用性を実証する。
論文 参考訳(メタデータ) (2023-06-30T14:20:06Z) - ManiTweet: A New Benchmark for Identifying Manipulation of News on Social Media [74.93847489218008]
ソーシャルメディア上でのニュースの操作を識別し,ソーシャルメディア投稿の操作を検出し,操作された情報や挿入された情報を特定することを目的とした,新しいタスクを提案する。
この課題を研究するために,データ収集スキーマを提案し,3.6K対のツイートとそれに対応する記事からなるManiTweetと呼ばれるデータセットをキュレートした。
我々の分析では、このタスクは非常に難しいことを示し、大きな言語モデル(LLM)は不満足なパフォーマンスをもたらす。
論文 参考訳(メタデータ) (2023-05-23T16:40:07Z) - MiDe22: An Annotated Multi-Event Tweet Dataset for Misinformation Detection [4.799822253865053]
MiDe22は5,284件の英語と5,064件のトルコ語ツイートに誤報ラベルを付けたものだ。
データセットには、いいね!、リプライ、リツイート、引用などの観点から、ツイートとのユーザエンゲージメントが含まれている。
論文 参考訳(メタデータ) (2022-10-11T12:25:26Z) - CovidMis20: COVID-19 Misinformation Detection System on Twitter Tweets
using Deep Learning Models [1.4085013201980032]
この研究は、2020年2月から7月にかけて収集された1,375,592ツイートからなるCovidMis20データセット(COVID-19 Misinformation 2020データセット)を提示する。
本研究は,Bi-LSTM深層学習とCNN+Bi-GRUを用いてフェイクニュースの検出を行った。
論文 参考訳(メタデータ) (2022-09-13T00:43:44Z) - DisinfoMeme: A Multimodal Dataset for Detecting Meme Intentionally
Spreading Out Disinformation [72.18912216025029]
偽情報ミームの検出を支援するためにDisinfoMemeを提案する。
このデータセットには、COVID-19パンデミック、Black Lives Matter運動、ベジタリアン/ベジタリアンという3つのトピックをカバーするRedditのミームが含まれている。
論文 参考訳(メタデータ) (2022-05-25T09:54:59Z) - Twitter Dataset on the Russo-Ukrainian War [68.713984286035]
Twitter APIから現在進行中のデータセットの取得を開始しています。
データセットは770万人のユーザーを起源とする5730万ツイートに達している。
我々は、最初のボリュームと感情分析を適用し、データセットはトピック分析、ヘイトスピーチ、プロパガンダ認識、ボットネットのような潜在的な悪意のあるエンティティを示すためにさらに探索的な調査に使用することができる。
論文 参考訳(メタデータ) (2022-04-07T12:33:06Z) - Twitter-COMMs: Detecting Climate, COVID, and Military Multimodal
Misinformation [83.2079454464572]
本稿では,DARPAセマンティック・フォレスティクス(SemaFor)プログラムにおける画像テキスト不整合検出へのアプローチについて述べる。
Twitter-COMMsは大規模マルチモーダルデータセットで、884万のツイートが気候変動、新型コロナウイルス、軍用車両のトピックに関連する。
我々は、最先端のCLIPモデルに基づいて、自動生成されたランダムとハードのネガネガネガネガネガネガネガネガネガネガネガネガネガネガネガネガネガネガネガネガネガネガネガネガネガネガネガネガネガネガネガネガネガネガネガネガネガネガネガネガネガネガネガネガネガネガネガネガネガネガ
論文 参考訳(メタデータ) (2021-12-16T03:37:20Z) - Extracting Feelings of People Regarding COVID-19 by Social Network
Mining [0.0]
英語における新型コロナウイルス関連ツイートのデータセットが収集される。
2020年3月23日から6月23日までに200万件以上のツイートが分析されている。
論文 参考訳(メタデータ) (2021-10-12T16:45:33Z) - High-level Approaches to Detect Malicious Political Activity on Twitter [0.0]
2020年5月、約500万のアカウントと1億2000万以上のツイートで撮影されたデータスナップショットを調査した。
分析期間は2019年8月から2020年5月までで、2019年10月6日のポルトガル総選挙に焦点が当てられている。
私たちは、Twitterのサスペンションパターンが、ポルトガルのTwitter圏で見られる政治的トロルのタイプに適していないことを知りました。
論文 参考訳(メタデータ) (2021-02-04T22:54:44Z) - Large Arabic Twitter Dataset on COVID-19 [0.7734726150561088]
2019年12月下旬に中国で発生した新型コロナウイルス(COVID-19)は、今や世界中で急速に普及している。
全世界で確認された感染者は200万人を超え、死者は180,000人を超えている。
この研究は、2020年1月1日以来、私たちが収集してきた新型コロナウイルスに関する最初のアラビア語のつぶやきデータセットについて述べています。
論文 参考訳(メタデータ) (2020-04-09T01:07:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。