論文の概要: Newswire: A Large-Scale Structured Database of a Century of Historical News
- arxiv url: http://arxiv.org/abs/2406.09490v1
- Date: Thu, 13 Jun 2024 16:20:05 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-17 17:34:26.672776
- Title: Newswire: A Large-Scale Structured Database of a Century of Historical News
- Title(参考訳): Newswire: 歴史的ニュースの大規模構造化データベース
- Authors: Emily Silcock, Abhishek Arora, Luca D'Amico-Wong, Melissa Dell,
- Abstract要約: 歴史家は、ニュースワイヤーが国家のアイデンティティを創り、世界の理解を共有する上で重要な役割を果たしたと主張している。
数千の地方紙から数百テラバイトの原画像スキャンに、カスタマイズされたディープラーニングパイプラインを適用することで、そのようなアーカイブを再構築する。
結果として得られたデータセットには1878年から1977年の間に書かれた270万のアメリカ独自のパブリックドメインのニュースワイヤー記事が含まれている。
- 参考スコア(独自算出の注目度): 3.562368079040469
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In the U.S. historically, local newspapers drew their content largely from newswires like the Associated Press. Historians argue that newswires played a pivotal role in creating a national identity and shared understanding of the world, but there is no comprehensive archive of the content sent over newswires. We reconstruct such an archive by applying a customized deep learning pipeline to hundreds of terabytes of raw image scans from thousands of local newspapers. The resulting dataset contains 2.7 million unique public domain U.S. newswire articles, written between 1878 and 1977. Locations in these articles are georeferenced, topics are tagged using customized neural topic classification, named entities are recognized, and individuals are disambiguated to Wikipedia using a novel entity disambiguation model. To construct the Newswire dataset, we first recognize newspaper layouts and transcribe around 138 millions structured article texts from raw image scans. We then use a customized neural bi-encoder model to de-duplicate reproduced articles, in the presence of considerable abridgement and noise, quantifying how widely each article was reproduced. A text classifier is used to ensure that we only include newswire articles, which historically are in the public domain. The structured data that accompany the texts provide rich information about the who (disambiguated individuals), what (topics), and where (georeferencing) of the news that millions of Americans read over the course of a century. We also include Library of Congress metadata information about the newspapers that ran the articles on their front pages. The Newswire dataset is useful both for large language modeling - expanding training data beyond what is available from modern web texts - and for studying a diversity of questions in computational linguistics, social science, and the digital humanities.
- Abstract(参考訳): アメリカの歴史において、地元の新聞は、主にAP通信のようなニュースワイヤーからその内容を描いた。
歴史家は、ニュースワイヤが国家のアイデンティティを創り、世界の理解を共有する上で重要な役割を担ったと主張しているが、ニュースワイヤに送信されたコンテンツの包括的なアーカイブは存在しない。
数千の地方紙から数百テラバイトの原画像スキャンにカスタマイズされたディープラーニングパイプラインを適用することで,そのようなアーカイブを再構築する。
結果として得られたデータセットには1878年から1977年の間に書かれた270万のアメリカ独自のパブリックドメインのニュースワイヤー記事が含まれている。
これらの記事の場所はジオリファレンスされ、トピックはカスタマイズされたニューラルトピック分類を使用してタグ付けされ、名前付きエンティティが認識され、個人は新しいエンティティの曖昧さモデルを使用してウィキペディアとあいまいになる。
Newswireデータセットを構築するために、まず新聞のレイアウトを認識し、生画像スキャンから約1億3800万の構造化された記事テキストを転写する。
次に、カスタマイズされたニューラルバイエンコーダモデルを用いて、再生された物品を分解し、相当な短縮とノイズを伴い、各物品がどれだけ広範囲に再生されたかを定量化する。
テキスト分類器は、歴史的にパブリックドメインにあるニュースワイヤの記事のみを含むことを保証するために使用される。
テキストに付随する構造化されたデータは、何者(曖昧な個人)、何者(トピック)、そして何万人ものアメリカ人が1世紀にわたって読んだニュースのどこで(ジオレファレンス)について豊富な情報を提供する。
また、前ページに記事を載せた新聞のメタデータ情報も含んでいます。
Newswireデータセットは、大規模な言語モデリング - 現代のWebテキストから利用可能なものを超えてトレーニングデータを拡張する - と、計算言語学、社会科学、デジタル人文科学におけるさまざまな質問の研究の両方に有用である。
関連論文リスト
- 3DLNews: A Three-decade Dataset of US Local News Articles [49.1574468325115]
3DLNewsは、1996年から2024年までの期間にアメリカのローカルニュース記事を載せた、新しいデータセットである。
約100万のURL(HTMLテキストを含む)があり、50州で14,000以上の地元新聞、テレビ、ラジオ局から提供されている。
論文 参考訳(メタデータ) (2024-08-08T18:33:37Z) - News Deja Vu: Connecting Past and Present with Semantic Search [2.446672595462589]
News Deja Vuは、歴史的ニュース記事のセマンティック検索ツールである。
歴史的かつオープンソースなニュース記事の大規模なコーパスにどのように展開できるかを示す。
論文 参考訳(メタデータ) (2024-06-21T18:50:57Z) - OmniCorpus: A Unified Multimodal Corpus of 10 Billion-Level Images Interleaved with Text [112.60163342249682]
我々は100億規模の画像テキストインターリーブデータセットであるOmniCorpusを紹介する。
私たちのデータセットは、優れたデータ品質を維持しながら、15倍のスケールを持っています。
これが将来のマルチモーダルモデル研究に確かなデータ基盤を提供することを期待しています。
論文 参考訳(メタデータ) (2024-06-12T17:01:04Z) - A New Korean Text Classification Benchmark for Recognizing the Political
Intents in Online Newspapers [6.633601941627045]
本稿では,様々な記事を含む韓国語テキスト分類データセットを提案する。
我々のデータセットには、韓国で最も代表的な新聞組織の6つの政治部門から、政治的意図を含む可能性のある12,000のニュース記事が含まれています。
我々の知る限り、我々の論文は韓国で最も大規模なニュースデータセットであり、長いテキストとマルチタスクの分類問題に対処する。
論文 参考訳(メタデータ) (2023-11-03T04:59:55Z) - American Stories: A Large-Scale Structured Text Dataset of Historical
U.S. Newspapers [7.161822501147275]
本研究では,新聞画像から記事の全文を抽出する,新しい深層学習パイプラインを開発した。
これは、議会図書館の公共ドメインであるCentralling Americaコレクションの2000万件近いスキャンに適用される。
パイプラインには、レイアウト検出、可視性分類、カスタムOCR、複数のバウンディングボックスにまたがる記事テキストの関連が含まれている。
論文 参考訳(メタデータ) (2023-08-24T00:24:42Z) - A Massive Scale Semantic Similarity Dataset of Historical English [3.8073142980733]
この研究は、1920年から1989年までの70年間にわたる大規模な意味的類似性データセットを構築するために、非コピーライトの地元新聞から新たにデジタル化された新しい情報源を利用する。
我々は、文書レイアウトと言語理解を利用して記事とその見出しを関連付けます。続いて、ノイズや短縮の存在下で、どの記事が同じソースから来ているかを検出するために、ディープ・ニューラル・メソッドを使用します。
HEADLINESデータセットは、既存のほとんどのセマンティック類似性データセットよりも大幅に大きく、ずっと長い時間にわたってカバーされている。
論文 参考訳(メタデータ) (2023-06-30T17:16:04Z) - Whose Language Counts as High Quality? Measuring Language Ideologies in
Text Data Selection [83.3580786484122]
より富裕で、教育され、都会のZIPコードにある大きな学校の新聞は、質の高いものとして分類される傾向にある。
高品質なコーパスを特権化するには言語イデオロギーが必要です。
論文 参考訳(メタデータ) (2022-01-25T17:20:04Z) - Automatic Speech Recognition Datasets in Cantonese Language: A Survey
and a New Dataset [85.52036362232688]
私たちのデータセットは、香港のCandoneseオーディオブックから収集された、73.6時間のクリーンな読み上げ音声と書き起こしとの組み合わせで構成されています。
哲学、政治、教育、文化、ライフスタイル、家族の領域を組み合わせて、幅広いトピックをカバーしている。
MDCC と Common Voice zh-HK にマルチデータセット学習を適用することで,強力で堅牢な Cantonese ASR モデルを作成する。
論文 参考訳(メタデータ) (2022-01-07T12:09:15Z) - Assessing the quality of sources in Wikidata across languages: a hybrid
approach [64.05097584373979]
いくつかの言語でラベルを持つWikidataのトリプルからサンプルした参照コーパスの大規模なコーパスを評価するために,一連のマイクロタスク実験を実施している。
クラウドソースアセスメントの統合されたバージョンを使用して、いくつかの機械学習モデルをトレーニングして、Wikidata全体の分析をスケールアップしています。
この結果はWikidataにおける参照の質の確認に役立ち、ユーザ生成多言語構造化データの品質をWeb上で定義し、取得する際の共通の課題を特定するのに役立ちます。
論文 参考訳(メタデータ) (2021-09-20T10:06:46Z) - \textit{NewsEdits}: A Dataset of Revision Histories for News Articles
(Technical Report: Data Processing) [89.77347919191774]
textitNewsEditsは、ニュース記事の改訂履歴の最初の公開データセットです。
1,278,804条と、22以上の英語とフランス語の新聞から4,609,430版がある。
論文 参考訳(メタデータ) (2021-04-19T21:15:30Z) - The Newspaper Navigator Dataset: Extracting And Analyzing Visual Content
from 16 Million Historic Newspaper Pages in Chronicling America [10.446473806802578]
写真,イラスト,地図,漫画,編集漫画のバウンディングボックスアノテーションに基づいて学習した視覚的コンテンツ認識モデルを提案する。
この深層学習モデルを用いて7種類の視覚コンテンツを抽出するパイプラインについて述べる。
我々は,日系アメリカのコーパスから1630万ページのパイプラインを運用した結果を報告する。
論文 参考訳(メタデータ) (2020-05-04T15:51:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。