論文の概要: Counting Protests in News Articles: A Dataset and Semi-Automated Data
Collection Pipeline
- arxiv url: http://arxiv.org/abs/2102.00917v1
- Date: Mon, 1 Feb 2021 15:35:21 GMT
- ステータス: 処理完了
- システム内更新日: 2021-02-03 04:33:32.746425
- Title: Counting Protests in News Articles: A Dataset and Semi-Automated Data
Collection Pipeline
- Title(参考訳): ニュース記事の抗議数:データセットと半自動化データ収集パイプライン
- Authors: Tommy Leung, L. Nathan Perkins
- Abstract要約: 2017年1月から2021年1月にかけて、米国の何千もの地元メディアが、市民権、移民、銃、環境などに関する42,000以上の抗議活動について報告した。
われわれは、2017年1月から2021年1月までに米国で報告された42,347の抗議イベントに対応する、ニュース記事URL、日付、場所、人口規模の推定値、および494の個別記述タグのデータセットを公表した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Between January 2017 and January 2021, thousands of local news sources in the
United States reported on over 42,000 protests about topics such as civil
rights, immigration, guns, and the environment. Given the vast number of local
journalists that report on protests daily, extracting these events as
structured data to understand temporal and geographic trends can empower civic
decision-making. However, the task of extracting events from news articles
presents well known challenges to the NLP community in the fields of domain
detection, slot filling, and coreference resolution.
To help improve the resources available for extracting structured data from
news stories, our contribution is three-fold. We 1) release a manually labeled
dataset of news article URLs, dates, locations, crowd size estimates, and 494
discrete descriptive tags corresponding to 42,347 reported protest events in
the United States between January 2017 and January 2021; 2) describe the
semi-automated data collection pipeline used to discover, sort, and review the
144,568 English articles that comprise the dataset; and 3) benchmark a
long-short term memory (LSTM) low dimensional classifier that demonstrates the
utility of processing news articles based on syntactic structures, such as
paragraphs and sentences, to count the number of reported protest events.
- Abstract(参考訳): 2017年1月から2021年1月にかけて、米国の何千もの地元ニュースソースが、公民権、移民、銃、環境などに関する42,000以上の抗議を報告した。
抗議を毎日報告する地元のジャーナリストの膨大な数を考えると、これらの出来事を構造化されたデータとして抽出して時間的および地理的傾向を理解することで、市民の意思決定が促進されます。
しかし、ニュース記事からイベントを抽出するタスクは、ドメイン検出、スロットフィリング、コアファレンス解決の分野で、NLPコミュニティによく知られた課題を提示します。
ニュース記事から構造化されたデータを抽出するリソースを改善するために、我々の貢献は3倍になる。
We 1) release a manually labeled dataset of news article URLs, dates, locations, crowd size estimates, and 494 discrete descriptive tags corresponding to 42,347 reported protest events in the United States between January 2017 and January 2021; 2) describe the semi-automated data collection pipeline used to discover, sort, and review the 144,568 English articles that comprise the dataset; and 3) benchmark a long-short term memory (LSTM) low dimensional classifier that demonstrates the utility of processing news articles based on syntactic structures, such as paragraphs and sentences, to count the number of reported protest events.
関連論文リスト
- ManiTweet: A New Benchmark for Identifying Manipulation of News on
Social Media [53.51665032295087]
ソーシャルメディア上でのニュースの操作を識別し,ソーシャルメディア投稿の操作を検出し,操作された情報や挿入された情報を特定することを目的とした,新しいタスクを提案する。
この課題を研究するために,データ収集スキーマを提案し,3.6K対のツイートとそれに対応する記事からなるManiTweetと呼ばれるデータセットをキュレートした。
我々の分析では、このタスクは非常に難しいことを示し、大きな言語モデル(LLM)は不満足なパフォーマンスをもたらす。
論文 参考訳(メタデータ) (2023-05-23T16:40:07Z) - SumREN: Summarizing Reported Speech about Events in News [51.82314543729287]
本稿では,各話者の反応を,それぞれの発言によって表現された反応を,ある事象に要約する新しい課題を提案する。
我々は,多文書要約ベンチマークSUMRENを作成し,様々な公開人物からの報告文の745の要約を作成した。
論文 参考訳(メタデータ) (2022-12-02T12:51:39Z) - News Category Dataset [1.7513645771137178]
HuffPostから入手した2012年から2018年までの約200万のニュースの見出しを含むNews Categoryデータセットを提示する。
本稿では,データセットから新たな知見を導き,データセットの既存および潜在的応用について述べる。
論文 参考訳(メタデータ) (2022-09-23T06:13:16Z) - Overview of the Shared Task on Fake News Detection in Urdu at FIRE 2021 [55.41644538483948]
共有タスクの目標は、コミュニティにこの重要な問題を解決するための効率的な方法を考え出すことを動機付けることです。
トレーニングセットには1300件の注釈付きニュース記事、750件のリアルニュース、550件のフェイクニュース、300件のニュース記事、200件のリアルニュース、100件のフェイクニュースが含まれている。
F1-macroスコアは0.679で、これは過去最高の0.907 F1-macroよりも低かった。
論文 参考訳(メタデータ) (2022-07-11T18:58:36Z) - NewsEdits: A News Article Revision Dataset and a Document-Level
Reasoning Challenge [122.37011526554403]
NewsEditsは、最初に公開されたニュースリビジョン履歴のデータセットである。
120万記事と、22以上の英語とフランス語の新聞ソースから460万バージョンを収録している。
論文 参考訳(メタデータ) (2022-06-14T18:47:13Z) - NELA-Local: A Dataset of U.S. Local News Articles for the Study of
County-level News Ecosystems [4.977804197346136]
地元313社のオンラインニュース記事14万件以上のデータセットを提示する。
これらのアウトレットは地理的に多様な地域社会をカバーしている。
論文 参考訳(メタデータ) (2022-03-16T13:19:21Z) - Event-Related Bias Removal for Real-time Disaster Events [67.2965372987723]
ソーシャルメディアは、自然災害や大量攻撃などの危機事象に関する情報を共有する重要なツールとなっている。
有用な情報を含む実行可能なポストを検出するには、大量のデータをリアルタイムに高速に分析する必要がある。
我々は、潜在事象固有のバイアスを除去し、ツイート重要度分類の性能を向上させるために、敵対的ニューラルモデルを訓練する。
論文 参考訳(メタデータ) (2020-11-02T02:03:07Z) - Cross-context News Corpus for Protest Events related Knowledge Base
Construction [0.15393457051344295]
我々は、英語の様々な地域および国際情報源からなる抗議イベントのゴールドスタンダードコーパスについて述べる。
このコーパスは、ニュース記事を自動的に分類し、抗議イベント関連情報を抽出する機械学習モデルの作成を容易にする。
論文 参考訳(メタデータ) (2020-08-01T22:20:48Z) - A German Corpus for Fine-Grained Named Entity Recognition and Relation
Extraction of Traffic and Industry Events [63.08899104652265]
この研究は、微粒な地理的要素で注釈付けされたドイツ語文書のコーパスを記述する。
また、15の交通・産業関連n-aryリレーションシップやイベントもアノテートされている。
コーパスは、ニュースワイヤーのテキスト、Twitterメッセージ、ラジオ局、警察、鉄道会社からの交通報告で構成されている。
論文 参考訳(メタデータ) (2020-04-07T11:39:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。