論文の概要: Reading the unreadable: Creating a dataset of 19th century English newspapers using image-to-text language models
- arxiv url: http://arxiv.org/abs/2502.14901v1
- Date: Tue, 18 Feb 2025 11:10:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-24 16:10:22.040075
- Title: Reading the unreadable: Creating a dataset of 19th century English newspapers using image-to-text language models
- Title(参考訳): 読めないものを読む:イメージ・トゥ・テキスト言語モデルを用いた19世紀の英語新聞のデータセットの作成
- Authors: Jonathan Bourne,
- Abstract要約: オスカー・ワイルドの19世紀のデジタルアーカイブジャーナリズムは、しばしば品質の悪い光学文字認識(OCR)を持っている
本稿は,19世紀英語新聞や定期刊行物の84ページのコレクションである『十九世紀シリアルズ版』でOCRを実践することで,この問題に対処するのに役立つ。
その結果得られたNCSE v2.0データセットは、記事の識別、高品質のOCR、テキストを4つのタイプと17のトピックに分類した。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: Oscar Wilde said, "The difference between literature and journalism is that journalism is unreadable, and literature is not read." Unfortunately, The digitally archived journalism of Oscar Wilde's 19th century often has no or poor quality Optical Character Recognition (OCR), reducing the accessibility of these archives and making them unreadable both figuratively and literally. This paper helps address the issue by performing OCR on "The Nineteenth Century Serials Edition" (NCSE), an 84k-page collection of 19th-century English newspapers and periodicals, using Pixtral 12B, a pre-trained image-to-text language model. The OCR capability of Pixtral was compared to 4 other OCR approaches, achieving a median character error rate of 1%, 5x lower than the next best model. The resulting NCSE v2.0 dataset features improved article identification, high-quality OCR, and text classified into four types and seventeen topics. The dataset contains 1.4 million entries, and 321 million words. Example use cases demonstrate analysis of topic similarity, readability, and event tracking. NCSE v2.0 is freely available to encourage historical and sociological research. As a result, 21st-century readers can now share Oscar Wilde's disappointment with 19th-century journalistic standards, reading the unreadable from the comfort of their own computers.
- Abstract(参考訳): オスカー・ワイルドは「文学とジャーナリズムの違いは、ジャーナリズムは読めず、文学は読めない」と述べた。
残念なことに、19世紀のオスカー・ワイルドのデジタルアーカイブされたジャーナリズムは、しばしば品質の悪い光学文字認識(OCR)を備えており、これらのアーカイブのアクセシビリティを低下させ、図形的にも文字通りも読めないものにしている。
本稿は,19世紀の英語新聞や定期刊行物の84kページのコレクションである"The Nineteenth Century Serials Edition"(NCSE)上で,事前学習した画像からテキストまでの言語モデルであるPixtral 12Bを用いてOCRを実行することで,この問題に対処する。
Pixtral の OCR 能力は他の 4 つの OCR 手法と比較した。
その結果得られたNCSE v2.0データセットは、記事の識別、高品質のOCR、テキストを4つのタイプと17のトピックに分類した。
データセットには14万のエントリと3億2100万のワードが含まれている。
例としては、トピックの類似性、可読性、イベントトラッキングの分析がある。
NCSE v2.0は、歴史的・社会学的研究を促進するために無料で利用可能である。
その結果、21世紀の読者はオスカー・ワイルドの失望を19世紀のジャーナリストの基準と共有することができ、自分のコンピュータの快適さから読めないものを読むことができる。
関連論文リスト
- Post-OCR Text Correction for Bulgarian Historical Documents [31.072768715994318]
我々は、最初の標準ブルガリア正書法であるドリノフ正書法で書かれた歴史的ブルガリア文書のOCRテキスト補正を評価するための最初のベンチマークデータセットを作成する。
次に、直近のLLMとエンコーダ・デコーダ・フレームワークを用いて、斜めの注意損失とコピー・アンド・カバー機構を増強し、OCR後のテキスト修正を改善する。
提案手法は,認識時に導入された誤りを低減し,文書の品質を25%向上させる。
論文 参考訳(メタデータ) (2024-08-31T19:27:46Z) - Making Old Kurdish Publications Processable by Augmenting Available Optical Character Recognition Engines [1.174020933567308]
クルド人図書館には、クルディスタンに印刷装置が持ち込まれた初期の時代に印刷された多くの歴史出版物がある。
現在の光学文字認識(OCR)システムでは、多くの問題があるため、歴史的文書からテキストを抽出できない。
本研究では,GoogleによるオープンソースのOCRフレームワークであるTesseractバージョン5.0を採用し,様々な言語用テキストの抽出に利用した。
論文 参考訳(メタデータ) (2024-04-09T08:08:03Z) - LOCR: Location-Guided Transformer for Optical Character Recognition [55.195165959662795]
自動回帰中にトランスフォーマーアーキテクチャに位置案内を組み込むモデルであるLOCRを提案する。
125Kの学術文書ページから777万以上のテキスト配置ペアからなるデータセット上でモデルをトレーニングする。
これは、編集距離、BLEU、METEOR、F測定によって測定されたarXivから構築されたテストセットの既存のメソッドよりも優れています。
論文 参考訳(メタデータ) (2024-03-04T15:34:12Z) - Improving Multimodal Datasets with Image Captioning [65.74736570293622]
生成したキャプションが非記述テキストによるWebスクラッピングデータポイントの有用性を高める方法について検討する。
DataComp の大規模字幕 (1.28B 画像テキストペア) を用いた実験により,合成テキストの限界について考察した。
論文 参考訳(メタデータ) (2023-07-19T17:47:12Z) - User-Centric Evaluation of OCR Systems for Kwak'wala [92.73847703011353]
OCRを利用すると、文化的に価値ある文書の書き起こしに費やした時間を50%以上削減できることを示す。
この結果から,OCRツールが下流言語ドキュメントや再生作業において持つ潜在的なメリットが示された。
論文 参考訳(メタデータ) (2023-02-26T21:41:15Z) - A Benchmark and Dataset for Post-OCR text correction in Sanskrit [23.45279030301887]
サンスクリット語は古典言語であり、約3000万の写本がデジタル化に適合している。
我々は,30冊の書籍から約218,000文,150万語を含むOCR後テキスト修正データセットを作成した。
論文 参考訳(メタデータ) (2022-11-15T08:32:18Z) - Whose Language Counts as High Quality? Measuring Language Ideologies in
Text Data Selection [83.3580786484122]
より富裕で、教育され、都会のZIPコードにある大きな学校の新聞は、質の高いものとして分類される傾向にある。
高品質なコーパスを特権化するには言語イデオロギーが必要です。
論文 参考訳(メタデータ) (2022-01-25T17:20:04Z) - Optical Character Recognition of 19th Century Classical Commentaries:
the Current State of Affairs [0.0]
歴史的注釈書のOCRに適した2つのパイプラインの性能を評価する。
以上の結果から,Kraken + Ciaconna はテッセラクト/OCR-D よりも文字誤り率 (CER) がかなり低いことが示唆された。
我々はまた、19世紀の注釈書にOCRの真実を記した小さなデータセットであるGT4HistCommentと、さまざまな古代ギリシアの書体のための大量のトレーニングデータと事前訓練されたモデルであるPogretraもリリースした。
論文 参考訳(メタデータ) (2021-10-13T16:01:16Z) - OCR Post Correction for Endangered Language Texts [113.8242302688894]
我々は、3つの危惧言語でスキャンされた書籍の書き起こしのベンチマークデータセットを作成する。
本稿では,汎用OCRツールがデータ・スカース・セッティングに対して堅牢でないかを体系的に分析する。
我々は,このデータ・スカース・セッティングにおけるトレーニングを容易にするために,OCRポスト補正法を開発した。
論文 参考訳(メタデータ) (2020-11-10T21:21:08Z) - The Newspaper Navigator Dataset: Extracting And Analyzing Visual Content
from 16 Million Historic Newspaper Pages in Chronicling America [10.446473806802578]
写真,イラスト,地図,漫画,編集漫画のバウンディングボックスアノテーションに基づいて学習した視覚的コンテンツ認識モデルを提案する。
この深層学習モデルを用いて7種類の視覚コンテンツを抽出するパイプラインについて述べる。
我々は,日系アメリカのコーパスから1630万ページのパイプラインを運用した結果を報告する。
論文 参考訳(メタデータ) (2020-05-04T15:51:13Z) - Deconfounded Image Captioning: A Causal Retrospect [89.0694058049884]
本稿では,新たな視点として,DIC (Decon founded Image Captioning) を提示する。この疑問の答えを把握し,近代的なニューラルイメージキャプタを振り返り,最終的にDICフレームワークであるDICv1.0を提案する。
DICv1.0は因果推論に基づいており、バックドアとフロントドアの調整という2つの原則は、過去の研究をレビューし、新しい効果的なモデルの設計に役立つ。
特に、DICv1.0は2つの一般的なキャプションモデルを強化し、シングルモデル131.1 CIDEr-Dと128.4 C40 CIDEr-D on Karpathy splitとオンライン分割を実現することができることを示す。
論文 参考訳(メタデータ) (2020-03-09T04:59:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。