論文の概要: The Newspaper Navigator Dataset: Extracting And Analyzing Visual Content
from 16 Million Historic Newspaper Pages in Chronicling America
- arxiv url: http://arxiv.org/abs/2005.01583v1
- Date: Mon, 4 May 2020 15:51:13 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-07 00:39:11.318523
- Title: The Newspaper Navigator Dataset: Extracting And Analyzing Visual Content
from 16 Million Historic Newspaper Pages in Chronicling America
- Title(参考訳): the newspaper navigator dataset: the chronicling americaの1600万の歴史的新聞ページから視覚的コンテンツの抽出と分析
- Authors: Benjamin Charles Germain Lee, Jaime Mears, Eileen Jakeway, Meghan
Ferriter, Chris Adams, Nathan Yarasavage, Deborah Thomas, Kate Zwaard, Daniel
S. Weld
- Abstract要約: 写真,イラスト,地図,漫画,編集漫画のバウンディングボックスアノテーションに基づいて学習した視覚的コンテンツ認識モデルを提案する。
この深層学習モデルを用いて7種類の視覚コンテンツを抽出するパイプラインについて述べる。
我々は,日系アメリカのコーパスから1630万ページのパイプラインを運用した結果を報告する。
- 参考スコア(独自算出の注目度): 10.446473806802578
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: Chronicling America is a product of the National Digital Newspaper Program, a
partnership between the Library of Congress and the National Endowment for the
Humanities to digitize historic newspapers. Over 16 million pages of historic
American newspapers have been digitized for Chronicling America to date,
complete with high-resolution images and machine-readable METS/ALTO OCR. Of
considerable interest to Chronicling America users is a semantified corpus,
complete with extracted visual content and headlines. To accomplish this, we
introduce a visual content recognition model trained on bounding box
annotations of photographs, illustrations, maps, comics, and editorial cartoons
collected as part of the Library of Congress's Beyond Words crowdsourcing
initiative and augmented with additional annotations including those of
headlines and advertisements. We describe our pipeline that utilizes this deep
learning model to extract 7 classes of visual content: headlines, photographs,
illustrations, maps, comics, editorial cartoons, and advertisements, complete
with textual content such as captions derived from the METS/ALTO OCR, as well
as image embeddings for fast image similarity querying. We report the results
of running the pipeline on 16.3 million pages from the Chronicling America
corpus and describe the resulting Newspaper Navigator dataset, the largest
dataset of extracted visual content from historic newspapers ever produced. The
Newspaper Navigator dataset, finetuned visual content recognition model, and
all source code are placed in the public domain for unrestricted re-use.
- Abstract(参考訳): 国立デジタル新聞プログラム(National Digital Newspaper Program)は、アメリカ合衆国議会図書館と国立人文科学基金(National Endowment for the Humanities)との共同事業である。
アメリカの歴史ある新聞の1600万ページ以上が、高解像度の画像と機械で読めるMETS/ALTO OCRでデジタル化されている。
慢性的なアメリカユーザーの興味は、抽出されたビジュアルコンテンツと見出しで完結したセマント化されたコーパスである。
これを実現するために,米国議会図書館の「Beyond Words」クラウドソーシング活動の一環として収集された写真,イラスト,地図,漫画,編集漫画のボックスアノテーションをトレーニングしたビジュアルコンテンツ認識モデルを導入し,見出しや広告を含む追加アノテーションを付加した。
我々は,このディープラーニングモデルを用いて,見出し,写真,イラスト,地図,漫画,編集漫画,広告の7種類のビジュアルコンテンツを抽出し,METS/ALTO OCRから派生したキャプションなどのテキストコンテンツと高速な画像類似性クエリのための画像埋め込みを補完するパイプラインについて述べる。
今回,米国日誌コーパスから1630万ページに及ぶパイプラインを運用した結果を報告し,これまでに制作された歴史的新聞から抽出されたビジュアルコンテンツの最大のデータセットである新聞ナビゲータデータセットについて述べる。
Newspaper Navigatorデータセット、微調整されたビジュアルコンテンツ認識モデル、およびすべてのソースコードは、制限なしの再使用のためにパブリックドメインに配置される。
関連論文リスト
- American Stories: A Large-Scale Structured Text Dataset of Historical
U.S. Newspapers [7.161822501147275]
本研究では,新聞画像から記事の全文を抽出する,新しい深層学習パイプラインを開発した。
これは、議会図書館の公共ドメインであるCentralling Americaコレクションの2000万件近いスキャンに適用される。
パイプラインには、レイアウト検出、可視性分類、カスタムOCR、複数のバウンディングボックスにまたがる記事テキストの関連が含まれている。
論文 参考訳(メタデータ) (2023-08-24T00:24:42Z) - Improving Multimodal Datasets with Image Captioning [65.74736570293622]
生成したキャプションが非記述テキストによるWebスクラッピングデータポイントの有用性を高める方法について検討する。
DataComp の大規模字幕 (1.28B 画像テキストペア) を用いた実験により,合成テキストの限界について考察した。
論文 参考訳(メタデータ) (2023-07-19T17:47:12Z) - OBELICS: An Open Web-Scale Filtered Dataset of Interleaved Image-Text
Documents [122.55393759474181]
我々は、インターリーブされた画像テキスト文書のオープンなWebスケールフィルタリングデータセットであるOBELICSを紹介する。
データセット作成プロセスを説明し、包括的なフィルタリングルールを示し、データセットの内容を分析する。
IDEFICSという名前の9~800億のパラメータのビジョンと言語モデルをトレーニングし、異なるマルチモーダルベンチマークで競合性能を得る。
論文 参考訳(メタデータ) (2023-06-21T14:01:01Z) - On Web-based Visual Corpus Construction for Visual Document
Understanding [16.48845190268161]
WebベースのVisual Corpus Builder(Webvicob)は、大規模な多言語ビジュアルコーパスを構築することができるデータセット生成エンジンである。
実験の結果,Webvicobが生成したデータは,堅牢なVDUモデルのトレーニングに利用できることがわかった。
論文 参考訳(メタデータ) (2022-11-07T01:24:43Z) - NewsStories: Illustrating articles with visual summaries [49.924916589209374]
我々は,3300万記事,2200万画像,100万ビデオを含む大規模マルチモーダルデータセットを提案する。
現状の画像テキストアライメント手法は、複数の画像を持つ長い物語に対して堅牢ではないことを示す。
本稿では,GoodNewsデータセット上で,ゼロショット画像セット検索において,これらの手法を10%向上させる直感的なベースラインを提案する。
論文 参考訳(メタデータ) (2022-07-26T17:34:11Z) - There is a Time and Place for Reasoning Beyond the Image [63.96498435923328]
画像は人間の目へのピクセルだけでなく、他のソースからのコンテキスト情報から推論、関連付け、推論して、推論することで、より完全な画像を確立することができる。
我々は、ニューヨーク・タイムズ(NYT)から自動的に抽出された16k画像と関連するニュース、時間、位置のデータセットTARAと、WITから離れた監視対象として追加で61k例を紹介した。
我々は、最先端のジョイントモデルと人間のパフォーマンスの間に70%のギャップがあることを示し、これは、セグメントワイズ推論を用いて高レベルな視覚言語ジョイントモデルを動機づける提案モデルによってわずかに満たされている。
論文 参考訳(メタデータ) (2022-03-01T21:52:08Z) - DocBed: A Multi-Stage OCR Solution for Documents with Complex Layouts [2.885058600042882]
この研究は、21の異なる州から3000の完全な注釈付き現実世界の新聞画像のデータセットを公開している。
既存の光学式文字認識(OCR)エンジンの先駆けとしてレイアウトセグメンテーションを提案する。
独立したレイアウトセグメンテーションとエンドツーエンドのOCRのための、徹底的で構造化された評価プロトコルを提供する。
論文 参考訳(メタデータ) (2022-02-03T05:21:31Z) - Journalistic Guidelines Aware News Image Captioning [8.295819830685536]
ニュース記事画像キャプションは、ニュース記事画像の記述的および情報的キャプションを生成することを目的としている。
一般的に画像の内容を記述する従来の画像キャプションとは異なり、ニュースキャプションは画像の内容を記述するために名前付きエンティティに大きく依存する。
本稿では,ジャーナリストが追従するキャプションガイドラインによって動機付けられた,この課題に対する新たなアプローチを提案する。
論文 参考訳(メタデータ) (2021-09-07T04:49:50Z) - Navigating the Mise-en-Page: Interpretive Machine Learning Approaches to
the Visual Layouts of Multi-Ethnic Periodicals [0.19116784879310028]
本手法は,日刊誌のMARCデータと新聞ナビゲータ機械学習データセットを組み合わせて,新聞ページレイアウトの視覚的パターンを同定する。
高次元の視覚的類似性を解析することにより、編集者が論文のレイアウトを通してどのように話し、抗議したかをよりよく理解することを目指している。
論文 参考訳(メタデータ) (2021-09-03T21:10:38Z) - QuerYD: A video dataset with high-quality text and audio narrations [85.6468286746623]
ビデオの検索とイベントのローカライゼーションのための大規模データセットQuerYDを紹介する。
データセットのユニークな特徴は、ビデオ毎に2つのオーディオトラック(オリジナルオーディオと高品質な音声記述)が利用可能であることです。
YouDescribeは、既存のYouTubeビデオに音声ナレーションを付加することで視覚障害者を支援するボランティアプロジェクトだ。
論文 参考訳(メタデータ) (2020-11-22T17:33:44Z) - Transform and Tell: Entity-Aware News Image Captioning [77.4898875082832]
本稿では,ニュース記事に埋め込まれた画像のキャプションを生成するエンドツーエンドモデルを提案する。
画像中の顔や物体とキャプション内の単語を関連付けることで,マルチモーダル・マルチヘッドアテンション機構によって,最初の課題に対処する。
本稿では、バイトペアエンコーディングを用いて単語部分の列としてキャプションを生成する、最先端のトランスフォーマー言語モデルによる第2の課題に取り組む。
論文 参考訳(メタデータ) (2020-04-17T05:44:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。