論文の概要: Counting Protests in News Articles: A Dataset and Semi-Automated Data
Collection Pipeline
- arxiv url: http://arxiv.org/abs/2102.00917v1
- Date: Mon, 1 Feb 2021 15:35:21 GMT
- ステータス: 処理完了
- システム内更新日: 2021-02-03 04:33:32.746425
- Title: Counting Protests in News Articles: A Dataset and Semi-Automated Data
Collection Pipeline
- Title(参考訳): ニュース記事の抗議数:データセットと半自動化データ収集パイプライン
- Authors: Tommy Leung, L. Nathan Perkins
- Abstract要約: 2017年1月から2021年1月にかけて、米国の何千もの地元メディアが、市民権、移民、銃、環境などに関する42,000以上の抗議活動について報告した。
われわれは、2017年1月から2021年1月までに米国で報告された42,347の抗議イベントに対応する、ニュース記事URL、日付、場所、人口規模の推定値、および494の個別記述タグのデータセットを公表した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Between January 2017 and January 2021, thousands of local news sources in the
United States reported on over 42,000 protests about topics such as civil
rights, immigration, guns, and the environment. Given the vast number of local
journalists that report on protests daily, extracting these events as
structured data to understand temporal and geographic trends can empower civic
decision-making. However, the task of extracting events from news articles
presents well known challenges to the NLP community in the fields of domain
detection, slot filling, and coreference resolution.
To help improve the resources available for extracting structured data from
news stories, our contribution is three-fold. We 1) release a manually labeled
dataset of news article URLs, dates, locations, crowd size estimates, and 494
discrete descriptive tags corresponding to 42,347 reported protest events in
the United States between January 2017 and January 2021; 2) describe the
semi-automated data collection pipeline used to discover, sort, and review the
144,568 English articles that comprise the dataset; and 3) benchmark a
long-short term memory (LSTM) low dimensional classifier that demonstrates the
utility of processing news articles based on syntactic structures, such as
paragraphs and sentences, to count the number of reported protest events.
- Abstract(参考訳): 2017年1月から2021年1月にかけて、米国の何千もの地元ニュースソースが、公民権、移民、銃、環境などに関する42,000以上の抗議を報告した。
抗議を毎日報告する地元のジャーナリストの膨大な数を考えると、これらの出来事を構造化されたデータとして抽出して時間的および地理的傾向を理解することで、市民の意思決定が促進されます。
しかし、ニュース記事からイベントを抽出するタスクは、ドメイン検出、スロットフィリング、コアファレンス解決の分野で、NLPコミュニティによく知られた課題を提示します。
ニュース記事から構造化されたデータを抽出するリソースを改善するために、我々の貢献は3倍になる。
We 1) release a manually labeled dataset of news article URLs, dates, locations, crowd size estimates, and 494 discrete descriptive tags corresponding to 42,347 reported protest events in the United States between January 2017 and January 2021; 2) describe the semi-automated data collection pipeline used to discover, sort, and review the 144,568 English articles that comprise the dataset; and 3) benchmark a long-short term memory (LSTM) low dimensional classifier that demonstrates the utility of processing news articles based on syntactic structures, such as paragraphs and sentences, to count the number of reported protest events.
関連論文リスト
- 3DLNews: A Three-decade Dataset of US Local News Articles [49.1574468325115]
3DLNewsは、1996年から2024年までの期間にアメリカのローカルニュース記事を載せた、新しいデータセットである。
約100万のURL(HTMLテキストを含む)があり、50州で14,000以上の地元新聞、テレビ、ラジオ局から提供されている。
論文 参考訳(メタデータ) (2024-08-08T18:33:37Z) - A diverse Multilingual News Headlines Dataset from around the World [57.37355895609648]
Babel Briefingsは、2020年8月から2021年11月までの470万のニュースの見出しを、世界中の30の言語と54の場所にわたって掲載した、新しいデータセットである。
言語モデルのトレーニングや評価のための高品質なデータセットとして機能し、単純でアクセスしやすい記事のコレクションを提供する。
論文 参考訳(メタデータ) (2024-03-28T12:08:39Z) - Multi-modal News Understanding with Professionally Labelled Videos
(ReutersViLNews) [25.78619140103048]
我々はReuters ViLNewsデータセットと呼ばれるReuters News Agencyが収集した社内データセットを大規模に分析した。
このデータセットは、長文ニュースに重点を置いて、ハイレベルなビデオ言語理解に焦点を当てている。
その結果,ニュース指向ビデオは現在のビデオ言語理解アルゴリズムにとって大きな課題であることが示唆された。
論文 参考訳(メタデータ) (2024-01-23T00:42:04Z) - SumREN: Summarizing Reported Speech about Events in News [51.82314543729287]
本稿では,各話者の反応を,それぞれの発言によって表現された反応を,ある事象に要約する新しい課題を提案する。
我々は,多文書要約ベンチマークSUMRENを作成し,様々な公開人物からの報告文の745の要約を作成した。
論文 参考訳(メタデータ) (2022-12-02T12:51:39Z) - Overview of the Shared Task on Fake News Detection in Urdu at FIRE 2021 [55.41644538483948]
共有タスクの目標は、コミュニティにこの重要な問題を解決するための効率的な方法を考え出すことを動機付けることです。
トレーニングセットには1300件の注釈付きニュース記事、750件のリアルニュース、550件のフェイクニュース、300件のニュース記事、200件のリアルニュース、100件のフェイクニュースが含まれている。
F1-macroスコアは0.679で、これは過去最高の0.907 F1-macroよりも低かった。
論文 参考訳(メタデータ) (2022-07-11T18:58:36Z) - NewsEdits: A News Article Revision Dataset and a Document-Level
Reasoning Challenge [122.37011526554403]
NewsEditsは、最初に公開されたニュースリビジョン履歴のデータセットである。
120万記事と、22以上の英語とフランス語の新聞ソースから460万バージョンを収録している。
論文 参考訳(メタデータ) (2022-06-14T18:47:13Z) - NELA-Local: A Dataset of U.S. Local News Articles for the Study of
County-level News Ecosystems [4.977804197346136]
地元313社のオンラインニュース記事14万件以上のデータセットを提示する。
これらのアウトレットは地理的に多様な地域社会をカバーしている。
論文 参考訳(メタデータ) (2022-03-16T13:19:21Z) - A German Corpus for Fine-Grained Named Entity Recognition and Relation
Extraction of Traffic and Industry Events [63.08899104652265]
この研究は、微粒な地理的要素で注釈付けされたドイツ語文書のコーパスを記述する。
また、15の交通・産業関連n-aryリレーションシップやイベントもアノテートされている。
コーパスは、ニュースワイヤーのテキスト、Twitterメッセージ、ラジオ局、警察、鉄道会社からの交通報告で構成されている。
論文 参考訳(メタデータ) (2020-04-07T11:39:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。