論文の概要: NELA-GT-2020: A Large Multi-Labelled News Dataset for The Study of
Misinformation in News Articles
- arxiv url: http://arxiv.org/abs/2102.04567v1
- Date: Mon, 8 Feb 2021 22:55:37 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-12 05:18:20.374858
- Title: NELA-GT-2020: A Large Multi-Labelled News Dataset for The Study of
Misinformation in News Articles
- Title(参考訳): NELA-GT-2020:ニュース記事における誤情報研究のための大規模マルチラベルニュースデータセット
- Authors: Maur\'icio Gruppi, Benjamin D. Horne and Sibel Adal{\i}
- Abstract要約: NELA-GT-2020には、2020年1月1日から12月31日までに収集された519の情報源から、約1.8万件のニュース記事が掲載されている。
データセットに含まれるのは、Media Bias/Fact Check (MBFC) のソースレベル基底真理ラベルで、複数の精度の次元をカバーしている。
- 参考スコア(独自算出の注目度): 4.163860911052052
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we present an updated version of the NELA-GT-2019 dataset,
entitled NELA-GT-2020. NELA-GT-2020 contains nearly 1.8M news articles from 519
sources collected between January 1st, 2020 and December 31st, 2020. Just as
with NELA-GT-2018 and NELA-GT-2019, these sources come from a wide range of
mainstream news sources and alternative news sources. Included in the dataset
are source-level ground truth labels from Media Bias/Fact Check (MBFC) covering
multiple dimensions of veracity. Additionally, new in the 2020 dataset are the
Tweets embedded in the collected news articles, adding an extra layer of
information to the data. The NELA-GT-2020 dataset can be found at
https://doi.org/10.7910/DVN/CHMUYZ.
- Abstract(参考訳): 本稿では,NELA-GT-2019データセットの更新版であるNELA-GT-2020を提案する。
NELA-GT-2020は2020年1月1日から12月31日までに収集された519の情報源から1.8万件近いニュース記事を含んでいる。
NELA-GT-2018やNELA-GT-2019と同様に、これらのソースは幅広い主流のニュースソースと代替のニュースソースから来ている。
データセットに含まれるのは、メディアバイアス/ファクトチェック(mbfc)のソースレベルの根拠ラベルで、veracityの多次元をカバーする。
さらに2020年のデータセットでは、収集されたニュース記事に埋め込まれたつぶやきが新たに追加され、データに追加情報が追加されている。
NELA-GT-2020データセットはhttps://doi.org/10.7910/DVN/CHMUYZで見ることができる。
関連論文リスト
- Identifying Informational Sources in News Articles [109.70475599552523]
我々は、ニュース執筆に使用される情報ソースの、最大かつ最も広範囲にアノテートされたデータセットを構築した。
本稿では,ニュース記事中のソースの構成性を研究するための新しいタスクであるソース予測を導入する。
論文 参考訳(メタデータ) (2023-05-24T08:56:35Z) - Towards Corpus-Scale Discovery of Selection Biases in News Coverage:
Comparing What Sources Say About Entities as a Start [65.28355014154549]
本稿では,大規模ニュースコーパスにおけるニュースコンテンツから直接メディア選択バイアスのパターンを発見するために,スケーラブルなNLPシステムを構築する上での課題について検討する。
我々は,世界519のニュースソースから180万件のニュース記事のコーパスであるNELA-2020のケーススタディを通じて,フレームワークの能力を示す。
論文 参考訳(メタデータ) (2023-04-06T23:36:45Z) - TGDataset: a Collection of Over One Hundred Thousand Telegram Channels [69.22187804798162]
本稿では,120,979のTelegramチャネルと4億以上のメッセージを含む新しいデータセットであるTGDatasetを提案する。
我々は、データセット内で話される言語と、英語チャンネルでカバーされるトピックを分析した。
生のデータセットに加えて、データセットの分析に使用したスクリプトと、Sabmykと呼ばれる新しい陰謀論のネットワークに属するチャネルのリストもリリースしました。
論文 参考訳(メタデータ) (2023-03-09T15:42:38Z) - News Category Dataset [1.7513645771137178]
HuffPostから入手した2012年から2018年までの約200万のニュースの見出しを含むNews Categoryデータセットを提示する。
本稿では,データセットから新たな知見を導き,データセットの既存および潜在的応用について述べる。
論文 参考訳(メタデータ) (2022-09-23T06:13:16Z) - CovidMis20: COVID-19 Misinformation Detection System on Twitter Tweets
using Deep Learning Models [1.4085013201980032]
この研究は、2020年2月から7月にかけて収集された1,375,592ツイートからなるCovidMis20データセット(COVID-19 Misinformation 2020データセット)を提示する。
本研究は,Bi-LSTM深層学習とCNN+Bi-GRUを用いてフェイクニュースの検出を行った。
論文 参考訳(メタデータ) (2022-09-13T00:43:44Z) - Overview of the Shared Task on Fake News Detection in Urdu at FIRE 2021 [55.41644538483948]
共有タスクの目標は、コミュニティにこの重要な問題を解決するための効率的な方法を考え出すことを動機付けることです。
トレーニングセットには1300件の注釈付きニュース記事、750件のリアルニュース、550件のフェイクニュース、300件のニュース記事、200件のリアルニュース、100件のフェイクニュースが含まれている。
F1-macroスコアは0.679で、これは過去最高の0.907 F1-macroよりも低かった。
論文 参考訳(メタデータ) (2022-07-11T18:58:36Z) - NELA-Local: A Dataset of U.S. Local News Articles for the Study of
County-level News Ecosystems [4.977804197346136]
地元313社のオンラインニュース記事14万件以上のデータセットを提示する。
これらのアウトレットは地理的に多様な地域社会をカバーしている。
論文 参考訳(メタデータ) (2022-03-16T13:19:21Z) - NELA-GT-2021: A Large Multi-Labelled News Dataset for The Study of
Misinformation in News Articles [4.163860911052052]
データセットには、2021年1月1日から12月31日までの367のアウトレットからの1.8万記事が含まれている。
データセットの過去のリリースと同じように、NELA-GT-2021にはMedia Bias/Fact Checkのアウトレットレベルの検証ラベルと、収集されたニュース記事に埋め込まれたツイートが含まれている。
論文 参考訳(メタデータ) (2022-03-10T21:58:33Z) - 365 Dots in 2019: Quantifying Attention of News Sources [69.50862982117125]
様々な情報源から,オンラインニュース記事の話題の重複を計測する。
ほぼリアルタイムで注目度に応じてニュースストーリーを採点する。
これにより、最も注目を集めているトピックを識別するなど、複数の研究が可能になる。
論文 参考訳(メタデータ) (2020-03-22T20:32:47Z) - NELA-GT-2019: A Large Multi-Labelled News Dataset for The Study of
Misinformation in News Articles [4.163860911052052]
NELA-GT-2019には、2019年1月1日から12月31日までに収集された260件の情報源から112万件のニュース記事が掲載されている。
データセットには、複数の精度の次元をカバーする7つの異なるアセスメントサイトからのソースレベル基底真理ラベルが含まれている。
論文 参考訳(メタデータ) (2020-03-18T19:18:21Z) - HoaxItaly: a collection of Italian disinformation and fact-checking
stories shared on Twitter in 2019 [72.96986027203377]
データセットには約37Kのニュース記事のタイトルとボディも含まれている。
https://doi.org/10.79DVN/PGVDHXで公開されている。
論文 参考訳(メタデータ) (2020-01-29T16:14:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。