論文の概要: American Stories: A Large-Scale Structured Text Dataset of Historical
U.S. Newspapers
- arxiv url: http://arxiv.org/abs/2308.12477v1
- Date: Thu, 24 Aug 2023 00:24:42 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-25 15:57:59.167770
- Title: American Stories: A Large-Scale Structured Text Dataset of Historical
U.S. Newspapers
- Title(参考訳): American Stories: 歴史的アメリカ新聞の大規模構造化されたテキストデータセット
- Authors: Melissa Dell, Jacob Carlson, Tom Bryan, Emily Silcock, Abhishek Arora,
Zejiang Shen, Luca D'Amico-Wong, Quan Le, Pablo Querubin, Leander Heldring
- Abstract要約: 本研究では,新聞画像から記事の全文を抽出する,新しい深層学習パイプラインを開発した。
これは、議会図書館の公共ドメインであるCentralling Americaコレクションの2000万件近いスキャンに適用される。
パイプラインには、レイアウト検出、可視性分類、カスタムOCR、複数のバウンディングボックスにまたがる記事テキストの関連が含まれている。
- 参考スコア(独自算出の注目度): 7.161822501147275
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Existing full text datasets of U.S. public domain newspapers do not recognize
the often complex layouts of newspaper scans, and as a result the digitized
content scrambles texts from articles, headlines, captions, advertisements, and
other layout regions. OCR quality can also be low. This study develops a novel,
deep learning pipeline for extracting full article texts from newspaper images
and applies it to the nearly 20 million scans in Library of Congress's public
domain Chronicling America collection. The pipeline includes layout detection,
legibility classification, custom OCR, and association of article texts
spanning multiple bounding boxes. To achieve high scalability, it is built with
efficient architectures designed for mobile phones. The resulting American
Stories dataset provides high quality data that could be used for pre-training
a large language model to achieve better understanding of historical English
and historical world knowledge. The dataset could also be added to the external
database of a retrieval-augmented language model to make historical information
- ranging from interpretations of political events to minutiae about the lives
of people's ancestors - more widely accessible. Furthermore, structured article
texts facilitate using transformer-based methods for popular social science
applications like topic classification, detection of reproduced content, and
news story clustering. Finally, American Stories provides a massive silver
quality dataset for innovating multimodal layout analysis models and other
multimodal applications.
- Abstract(参考訳): 既存のアメリカのパブリックドメイン新聞のテキストデータセットは、しばしば新聞スキャンの複雑なレイアウトを認識しておらず、結果としてデジタル化されたコンテンツは記事、見出し、キャプション、広告、その他のレイアウト領域のテキストをスクランブルする。
OCRの品質も低い。
本研究では,新聞画像から記事の全文を抽出するための新しい深層学習パイプラインを開発し,米国議会図書館のパブリックドメイン・クロニリング・アメリカコレクションの2000万近いスキャンに適用する。
パイプラインにはレイアウト検出、レジリエビリティ分類、カスタムocr、複数のバウンディングボックスにまたがる記事テキストの関連付けが含まれる。
高いスケーラビリティを実現するため、携帯電話用に設計された効率的なアーキテクチャで構築されている。
その結果得られたAmerican Storiesデータセットは、大きな言語モデルの事前トレーニングに使用可能な高品質なデータを提供し、歴史的英語と歴史的世界知識の理解を深める。
このデータセットは、検索強化された言語モデルの外部データベースに追加され、政治的出来事の解釈から、人々の祖先の生活に関する微妙な情報まで、より広くアクセスできるようになる。
さらに、構造化記事テキストは、話題分類、再生コンテンツの検出、ニュースストーリークラスタリングなど、一般的な社会科学アプリケーションのためのトランスフォーマティブベースの手法の使用を容易にする。
最後に、American Storiesは、マルチモーダルレイアウト分析モデルやその他のマルチモーダルアプリケーションを革新するための巨大な銀品質データセットを提供する。
関連論文リスト
- A multi-level multi-label text classification dataset of 19th century Ottoman and Russian literary and critical texts [8.405938712823563]
本稿では,3000以上の文書からなる多レベル多言語テキスト分類データセットを提案する。
このデータセットは19世紀のトルコ語とロシア語の文学的および批判的なテキストを特徴としている。
このデータセットに大規模言語モデル(LLM)を適用した最初の研究である。
論文 参考訳(メタデータ) (2024-07-21T12:14:45Z) - Newswire: A Large-Scale Structured Database of a Century of Historical News [3.562368079040469]
歴史家は、ニュースワイヤーが国家のアイデンティティを創り、世界の理解を共有する上で重要な役割を果たしたと主張している。
数千の地方紙から数百テラバイトの原画像スキャンに、カスタマイズされたディープラーニングパイプラインを適用することで、そのようなアーカイブを再構築する。
結果として得られたデータセットには1878年から1977年の間に書かれた270万のアメリカ独自のパブリックドメインのニュースワイヤー記事が含まれている。
論文 参考訳(メタデータ) (2024-06-13T16:20:05Z) - OmniCorpus: A Unified Multimodal Corpus of 10 Billion-Level Images Interleaved with Text [112.60163342249682]
我々は100億規模の画像テキストインターリーブデータセットであるOmniCorpusを紹介する。
私たちのデータセットは、優れたデータ品質を維持しながら、15倍のスケールを持っています。
これが将来のマルチモーダルモデル研究に確かなデータ基盤を提供することを期待しています。
論文 参考訳(メタデータ) (2024-06-12T17:01:04Z) - A diverse Multilingual News Headlines Dataset from around the World [57.37355895609648]
Babel Briefingsは、2020年8月から2021年11月までの470万のニュースの見出しを、世界中の30の言語と54の場所にわたって掲載した、新しいデータセットである。
言語モデルのトレーニングや評価のための高品質なデータセットとして機能し、単純でアクセスしやすい記事のコレクションを提供する。
論文 参考訳(メタデータ) (2024-03-28T12:08:39Z) - A New Korean Text Classification Benchmark for Recognizing the Political
Intents in Online Newspapers [6.633601941627045]
本稿では,様々な記事を含む韓国語テキスト分類データセットを提案する。
我々のデータセットには、韓国で最も代表的な新聞組織の6つの政治部門から、政治的意図を含む可能性のある12,000のニュース記事が含まれています。
我々の知る限り、我々の論文は韓国で最も大規模なニュースデータセットであり、長いテキストとマルチタスクの分類問題に対処する。
論文 参考訳(メタデータ) (2023-11-03T04:59:55Z) - LoRaLay: A Multilingual and Multimodal Dataset for Long Range and
Layout-Aware Summarization [19.301567079372436]
テキスト要約は、自然言語処理コミュニティにとって人気のある課題であり、研究の活発な領域である。
すべての公開可能な要約データセットは、プレーンテキストコンテンツのみを提供する。
視覚/レイ情報を伴う長距離要約のためのデータセットのコレクションであるLoRaLayを提示する。
論文 参考訳(メタデータ) (2023-01-26T18:50:54Z) - Whose Language Counts as High Quality? Measuring Language Ideologies in
Text Data Selection [83.3580786484122]
より富裕で、教育され、都会のZIPコードにある大きな学校の新聞は、質の高いものとして分類される傾向にある。
高品質なコーパスを特権化するには言語イデオロギーが必要です。
論文 参考訳(メタデータ) (2022-01-25T17:20:04Z) - SCROLLS: Standardized CompaRison Over Long Language Sequences [62.574959194373264]
SCROLLSは長いテキストに対する推論を必要とするタスクのスイートである。
SCROLLSには要約、質問応答、自然言語推論タスクが含まれる。
すべてのデータセットを統一されたテキスト・ツー・テキスト形式で利用可能にし、モデルアーキテクチャと事前学習方法の研究を容易にするために、ライブのリーダーボードをホストします。
論文 参考訳(メタデータ) (2022-01-10T18:47:15Z) - Abstractive Summarization of Spoken and Written Instructions with BERT [66.14755043607776]
本稿では,BERTSumモデルの最初の対話型言語への応用について述べる。
我々は多種多様な話題にまたがるナレーションビデオの抽象要約を生成する。
我々は、これをインテリジェントな仮想アシスタントの機能として統合し、要求に応じて文字と音声の両方の指導内容の要約を可能にすることを想定する。
論文 参考訳(メタデータ) (2020-08-21T20:59:34Z) - A Multi-Perspective Architecture for Semantic Code Search [58.73778219645548]
テキストマッチングのための新しい多言語間ニューラルネットワークを提案する。
CoNaLaデータセットを用いた実験により,提案したモデルでは,従来の手法よりも優れた性能が得られることが示された。
論文 参考訳(メタデータ) (2020-05-06T04:46:11Z) - The Newspaper Navigator Dataset: Extracting And Analyzing Visual Content
from 16 Million Historic Newspaper Pages in Chronicling America [10.446473806802578]
写真,イラスト,地図,漫画,編集漫画のバウンディングボックスアノテーションに基づいて学習した視覚的コンテンツ認識モデルを提案する。
この深層学習モデルを用いて7種類の視覚コンテンツを抽出するパイプラインについて述べる。
我々は,日系アメリカのコーパスから1630万ページのパイプラインを運用した結果を報告する。
論文 参考訳(メタデータ) (2020-05-04T15:51:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。