論文の概要: 3DLNews: A Three-decade Dataset of US Local News Articles
- arxiv url: http://arxiv.org/abs/2408.04716v1
- Date: Thu, 08 Aug 2024 18:33:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-10 18:21:54.597111
- Title: 3DLNews: A Three-decade Dataset of US Local News Articles
- Title(参考訳): 3DLNews: 米国のローカルニュース記事の3年分のデータセット
- Authors: Gangani Ariyarathne, Alexander C. Nwala,
- Abstract要約: 3DLNewsは、1996年から2024年までの期間にアメリカのローカルニュース記事を載せた、新しいデータセットである。
約100万のURL(HTMLテキストを含む)があり、50州で14,000以上の地元新聞、テレビ、ラジオ局から提供されている。
- 参考スコア(独自算出の注目度): 49.1574468325115
- License:
- Abstract: We present 3DLNews, a novel dataset with local news articles from the United States spanning the period from 1996 to 2024. It contains almost 1 million URLs (with HTML text) from over 14,000 local newspapers, TV, and radio stations across all 50 states, and provides a broad snapshot of the US local news landscape. The dataset was collected by scraping Google and Twitter search results. We employed a multi-step filtering process to remove non-news article links and enriched the dataset with metadata such as the names and geo-coordinates of the source news media organizations, article publication dates, etc. Furthermore, we demonstrated the utility of 3DLNews by outlining four applications.
- Abstract(参考訳): 本稿は,1996年から2024年までの米国におけるローカルニュース記事を対象とした,新たなデータセットである3DLNewsを紹介する。
約100万のURL(HTMLテキストを含む)があり、14000以上の地元新聞、テレビ、ラジオ局が50州にまたがっている。
データセットは、GoogleとTwitterの検索結果をスクラップして収集された。
我々は,非ニュース記事リンクを除去する多段階フィルタリングプロセスを採用し,ソースニュースメディア組織の名前やジオコーディネート,記事公開日などのメタデータでデータセットを強化した。
さらに,4つのアプリケーションを概説することで,3DLNewsの有用性を実証した。
関連論文リスト
- Newswire: A Large-Scale Structured Database of a Century of Historical News [3.562368079040469]
歴史家は、ニュースワイヤーが国家のアイデンティティを創り、世界の理解を共有する上で重要な役割を果たしたと主張している。
数千の地方紙から数百テラバイトの原画像スキャンに、カスタマイズされたディープラーニングパイプラインを適用することで、そのようなアーカイブを再構築する。
結果として得られたデータセットには1878年から1977年の間に書かれた270万のアメリカ独自のパブリックドメインのニュースワイヤー記事が含まれている。
論文 参考訳(メタデータ) (2024-06-13T16:20:05Z) - A diverse Multilingual News Headlines Dataset from around the World [57.37355895609648]
Babel Briefingsは、2020年8月から2021年11月までの470万のニュースの見出しを、世界中の30の言語と54の場所にわたって掲載した、新しいデータセットである。
言語モデルのトレーニングや評価のための高品質なデータセットとして機能し、単純でアクセスしやすい記事のコレクションを提供する。
論文 参考訳(メタデータ) (2024-03-28T12:08:39Z) - News Category Dataset [1.7513645771137178]
HuffPostから入手した2012年から2018年までの約200万のニュースの見出しを含むNews Categoryデータセットを提示する。
本稿では,データセットから新たな知見を導き,データセットの既存および潜在的応用について述べる。
論文 参考訳(メタデータ) (2022-09-23T06:13:16Z) - NewsEdits: A News Article Revision Dataset and a Document-Level
Reasoning Challenge [122.37011526554403]
NewsEditsは、最初に公開されたニュースリビジョン履歴のデータセットである。
120万記事と、22以上の英語とフランス語の新聞ソースから460万バージョンを収録している。
論文 参考訳(メタデータ) (2022-06-14T18:47:13Z) - NELA-Local: A Dataset of U.S. Local News Articles for the Study of
County-level News Ecosystems [4.977804197346136]
地元313社のオンラインニュース記事14万件以上のデータセットを提示する。
これらのアウトレットは地理的に多様な地域社会をカバーしている。
論文 参考訳(メタデータ) (2022-03-16T13:19:21Z) - Multilingual Open Text 1.0: Public Domain News in 44 Languages [2.642698101441705]
コーパスの最初のリリースには270万以上のニュース記事と、2001年から2021年にかけて発行された100万の短い記事が含まれている。
ソース資料はパブリックドメインにあり、私たちのコレクションはクリエイティブコモンズライセンス(CC BY 4.0)を使用してライセンスされており、コーパスを作成するために使用されるソフトウェアはすべてMITライセンスの下でリリースされています。
論文 参考訳(メタデータ) (2022-01-14T18:58:17Z) - \textit{NewsEdits}: A Dataset of Revision Histories for News Articles
(Technical Report: Data Processing) [89.77347919191774]
textitNewsEditsは、ニュース記事の改訂履歴の最初の公開データセットです。
1,278,804条と、22以上の英語とフランス語の新聞から4,609,430版がある。
論文 参考訳(メタデータ) (2021-04-19T21:15:30Z) - Counting Protests in News Articles: A Dataset and Semi-Automated Data
Collection Pipeline [0.0]
2017年1月から2021年1月にかけて、米国の何千もの地元メディアが、市民権、移民、銃、環境などに関する42,000以上の抗議活動について報告した。
われわれは、2017年1月から2021年1月までに米国で報告された42,347の抗議イベントに対応する、ニュース記事URL、日付、場所、人口規模の推定値、および494の個別記述タグのデータセットを公表した。
論文 参考訳(メタデータ) (2021-02-01T15:35:21Z) - 365 Dots in 2019: Quantifying Attention of News Sources [69.50862982117125]
様々な情報源から,オンラインニュース記事の話題の重複を計測する。
ほぼリアルタイムで注目度に応じてニュースストーリーを採点する。
これにより、最も注目を集めているトピックを識別するなど、複数の研究が可能になる。
論文 参考訳(メタデータ) (2020-03-22T20:32:47Z) - HoaxItaly: a collection of Italian disinformation and fact-checking
stories shared on Twitter in 2019 [72.96986027203377]
データセットには約37Kのニュース記事のタイトルとボディも含まれている。
https://doi.org/10.79DVN/PGVDHXで公開されている。
論文 参考訳(メタデータ) (2020-01-29T16:14:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。