論文の概要: The Newspaper Navigator Dataset: Extracting And Analyzing Visual Content
from 16 Million Historic Newspaper Pages in Chronicling America
- arxiv url: http://arxiv.org/abs/2005.01583v1
- Date: Mon, 4 May 2020 15:51:13 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-07 00:39:11.318523
- Title: The Newspaper Navigator Dataset: Extracting And Analyzing Visual Content
from 16 Million Historic Newspaper Pages in Chronicling America
- Title(参考訳): the newspaper navigator dataset: the chronicling americaの1600万の歴史的新聞ページから視覚的コンテンツの抽出と分析
- Authors: Benjamin Charles Germain Lee, Jaime Mears, Eileen Jakeway, Meghan
Ferriter, Chris Adams, Nathan Yarasavage, Deborah Thomas, Kate Zwaard, Daniel
S. Weld
- Abstract要約: 写真,イラスト,地図,漫画,編集漫画のバウンディングボックスアノテーションに基づいて学習した視覚的コンテンツ認識モデルを提案する。
この深層学習モデルを用いて7種類の視覚コンテンツを抽出するパイプラインについて述べる。
我々は,日系アメリカのコーパスから1630万ページのパイプラインを運用した結果を報告する。
- 参考スコア(独自算出の注目度): 10.446473806802578
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: Chronicling America is a product of the National Digital Newspaper Program, a
partnership between the Library of Congress and the National Endowment for the
Humanities to digitize historic newspapers. Over 16 million pages of historic
American newspapers have been digitized for Chronicling America to date,
complete with high-resolution images and machine-readable METS/ALTO OCR. Of
considerable interest to Chronicling America users is a semantified corpus,
complete with extracted visual content and headlines. To accomplish this, we
introduce a visual content recognition model trained on bounding box
annotations of photographs, illustrations, maps, comics, and editorial cartoons
collected as part of the Library of Congress's Beyond Words crowdsourcing
initiative and augmented with additional annotations including those of
headlines and advertisements. We describe our pipeline that utilizes this deep
learning model to extract 7 classes of visual content: headlines, photographs,
illustrations, maps, comics, editorial cartoons, and advertisements, complete
with textual content such as captions derived from the METS/ALTO OCR, as well
as image embeddings for fast image similarity querying. We report the results
of running the pipeline on 16.3 million pages from the Chronicling America
corpus and describe the resulting Newspaper Navigator dataset, the largest
dataset of extracted visual content from historic newspapers ever produced. The
Newspaper Navigator dataset, finetuned visual content recognition model, and
all source code are placed in the public domain for unrestricted re-use.
- Abstract(参考訳): 国立デジタル新聞プログラム(National Digital Newspaper Program)は、アメリカ合衆国議会図書館と国立人文科学基金(National Endowment for the Humanities)との共同事業である。
アメリカの歴史ある新聞の1600万ページ以上が、高解像度の画像と機械で読めるMETS/ALTO OCRでデジタル化されている。
慢性的なアメリカユーザーの興味は、抽出されたビジュアルコンテンツと見出しで完結したセマント化されたコーパスである。
これを実現するために,米国議会図書館の「Beyond Words」クラウドソーシング活動の一環として収集された写真,イラスト,地図,漫画,編集漫画のボックスアノテーションをトレーニングしたビジュアルコンテンツ認識モデルを導入し,見出しや広告を含む追加アノテーションを付加した。
我々は,このディープラーニングモデルを用いて,見出し,写真,イラスト,地図,漫画,編集漫画,広告の7種類のビジュアルコンテンツを抽出し,METS/ALTO OCRから派生したキャプションなどのテキストコンテンツと高速な画像類似性クエリのための画像埋め込みを補完するパイプラインについて述べる。
今回,米国日誌コーパスから1630万ページに及ぶパイプラインを運用した結果を報告し,これまでに制作された歴史的新聞から抽出されたビジュアルコンテンツの最大のデータセットである新聞ナビゲータデータセットについて述べる。
Newspaper Navigatorデータセット、微調整されたビジュアルコンテンツ認識モデル、およびすべてのソースコードは、制限なしの再使用のためにパブリックドメインに配置される。
関連論文リスト
- Temporal Image Caption Retrieval Competition -- Description and Results [0.9999629695552195]
本稿では,テキスト画像検索のマルチモーダル課題に対処し,時間的データを含むモーダル性を拡張する新しいタスクを提案する。
本論文は,274年にわたる歴史あるアメリカの新聞をデジタル化して収集する,日刊アメリカ・チャレニアングアメリカプロジェクトを基にした画像検索コンペティション(TICRC)である。
論文 参考訳(メタデータ) (2024-10-08T19:45:53Z) - 3DLNews: A Three-decade Dataset of US Local News Articles [49.1574468325115]
3DLNewsは、1996年から2024年までの期間にアメリカのローカルニュース記事を載せた、新しいデータセットである。
約100万のURL(HTMLテキストを含む)があり、50州で14,000以上の地元新聞、テレビ、ラジオ局から提供されている。
論文 参考訳(メタデータ) (2024-08-08T18:33:37Z) - Newswire: A Large-Scale Structured Database of a Century of Historical News [3.562368079040469]
歴史家は、ニュースワイヤーが国家のアイデンティティを創り、世界の理解を共有する上で重要な役割を果たしたと主張している。
数千の地方紙から数百テラバイトの原画像スキャンに、カスタマイズされたディープラーニングパイプラインを適用することで、そのようなアーカイブを再構築する。
結果として得られたデータセットには1878年から1977年の間に書かれた270万のアメリカ独自のパブリックドメインのニュースワイヤー記事が含まれている。
論文 参考訳(メタデータ) (2024-06-13T16:20:05Z) - OmniCorpus: A Unified Multimodal Corpus of 10 Billion-Level Images Interleaved with Text [112.60163342249682]
我々は100億規模の画像テキストインターリーブデータセットであるOmniCorpusを紹介する。
私たちのデータセットは、優れたデータ品質を維持しながら、15倍のスケールを持っています。
これが将来のマルチモーダルモデル研究に確かなデータ基盤を提供することを期待しています。
論文 参考訳(メタデータ) (2024-06-12T17:01:04Z) - American Stories: A Large-Scale Structured Text Dataset of Historical
U.S. Newspapers [7.161822501147275]
本研究では,新聞画像から記事の全文を抽出する,新しい深層学習パイプラインを開発した。
これは、議会図書館の公共ドメインであるCentralling Americaコレクションの2000万件近いスキャンに適用される。
パイプラインには、レイアウト検出、可視性分類、カスタムOCR、複数のバウンディングボックスにまたがる記事テキストの関連が含まれている。
論文 参考訳(メタデータ) (2023-08-24T00:24:42Z) - OBELICS: An Open Web-Scale Filtered Dataset of Interleaved Image-Text
Documents [122.55393759474181]
我々は、インターリーブされた画像テキスト文書のオープンなWebスケールフィルタリングデータセットであるOBELICSを紹介する。
データセット作成プロセスを説明し、包括的なフィルタリングルールを示し、データセットの内容を分析する。
IDEFICSという名前の9~800億のパラメータのビジョンと言語モデルをトレーニングし、異なるマルチモーダルベンチマークで競合性能を得る。
論文 参考訳(メタデータ) (2023-06-21T14:01:01Z) - NewsStories: Illustrating articles with visual summaries [49.924916589209374]
我々は,3300万記事,2200万画像,100万ビデオを含む大規模マルチモーダルデータセットを提案する。
現状の画像テキストアライメント手法は、複数の画像を持つ長い物語に対して堅牢ではないことを示す。
本稿では,GoodNewsデータセット上で,ゼロショット画像セット検索において,これらの手法を10%向上させる直感的なベースラインを提案する。
論文 参考訳(メタデータ) (2022-07-26T17:34:11Z) - DocBed: A Multi-Stage OCR Solution for Documents with Complex Layouts [2.885058600042882]
この研究は、21の異なる州から3000の完全な注釈付き現実世界の新聞画像のデータセットを公開している。
既存の光学式文字認識(OCR)エンジンの先駆けとしてレイアウトセグメンテーションを提案する。
独立したレイアウトセグメンテーションとエンドツーエンドのOCRのための、徹底的で構造化された評価プロトコルを提供する。
論文 参考訳(メタデータ) (2022-02-03T05:21:31Z) - Navigating the Mise-en-Page: Interpretive Machine Learning Approaches to
the Visual Layouts of Multi-Ethnic Periodicals [0.19116784879310028]
本手法は,日刊誌のMARCデータと新聞ナビゲータ機械学習データセットを組み合わせて,新聞ページレイアウトの視覚的パターンを同定する。
高次元の視覚的類似性を解析することにより、編集者が論文のレイアウトを通してどのように話し、抗議したかをよりよく理解することを目指している。
論文 参考訳(メタデータ) (2021-09-03T21:10:38Z) - QuerYD: A video dataset with high-quality text and audio narrations [85.6468286746623]
ビデオの検索とイベントのローカライゼーションのための大規模データセットQuerYDを紹介する。
データセットのユニークな特徴は、ビデオ毎に2つのオーディオトラック(オリジナルオーディオと高品質な音声記述)が利用可能であることです。
YouDescribeは、既存のYouTubeビデオに音声ナレーションを付加することで視覚障害者を支援するボランティアプロジェクトだ。
論文 参考訳(メタデータ) (2020-11-22T17:33:44Z) - Transform and Tell: Entity-Aware News Image Captioning [77.4898875082832]
本稿では,ニュース記事に埋め込まれた画像のキャプションを生成するエンドツーエンドモデルを提案する。
画像中の顔や物体とキャプション内の単語を関連付けることで,マルチモーダル・マルチヘッドアテンション機構によって,最初の課題に対処する。
本稿では、バイトペアエンコーディングを用いて単語部分の列としてキャプションを生成する、最先端のトランスフォーマー言語モデルによる第2の課題に取り組む。
論文 参考訳(メタデータ) (2020-04-17T05:44:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。