論文の概要: PEaCE: A Chemistry-Oriented Dataset for Optical Character Recognition on Scientific Documents
- arxiv url: http://arxiv.org/abs/2403.15724v1
- Date: Sat, 23 Mar 2024 05:20:36 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-26 21:22:21.689885
- Title: PEaCE: A Chemistry-Oriented Dataset for Optical Character Recognition on Scientific Documents
- Title(参考訳): PEaCE:科学文書における光学的文字認識のための化学指向データセット
- Authors: Nan Zhang, Connor Heaton, Sean Timothy Okonsky, Prasenjit Mitra, Hilal Ezgi Toraman,
- Abstract要約: 合成と実世界の両方の記録を含むPEaCE(Printed English and Chemical Equations)データセットを提示する。
本研究では,トランスモデルを用いたOCRモデルの有効性を評価する。
- 参考スコア(独自算出の注目度): 4.191058827240492
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Optical Character Recognition (OCR) is an established task with the objective of identifying the text present in an image. While many off-the-shelf OCR models exist, they are often trained for either scientific (e.g., formulae) or generic printed English text. Extracting text from chemistry publications requires an OCR model that is capable in both realms. Nougat, a recent tool, exhibits strong ability to parse academic documents, but is unable to parse tables in PubMed articles, which comprises a significant part of the academic community and is the focus of this work. To mitigate this gap, we present the Printed English and Chemical Equations (PEaCE) dataset, containing both synthetic and real-world records, and evaluate the efficacy of transformer-based OCR models when trained on this resource. Given that real-world records contain artifacts not present in synthetic records, we propose transformations that mimic such qualities. We perform a suite of experiments to explore the impact of patch size, multi-domain training, and our proposed transformations, ultimately finding that models with a small patch size trained on multiple domains using the proposed transformations yield the best performance. Our dataset and code is available at https://github.com/ZN1010/PEaCE.
- Abstract(参考訳): 光文字認識(OCR)は、画像に存在するテキストを識別する目的で確立されたタスクである。
多くの既製のOCRモデルが存在するが、科学的な(例:式)または一般的な英語のテキストのために訓練されることが多い。
化学出版物からテキストを抽出するには、両方の領域で実行可能なOCRモデルが必要である。
最近のツールであるNougatは、学術文書を解析する強力な能力を持っているが、学術コミュニティの重要な部分を占めており、この研究の焦点であるPubMedの記事では、表を解析できない。
このギャップを緩和するために, 合成および実世界の両方の記録を含むPEaCE(Printed English and Chemical Equations)データセットを提示し, このリソースをトレーニングした際のトランスフォーマーベースのOCRモデルの有効性を評価する。
実世界のレコードには合成記録に存在しないアーティファクトが含まれていることを考慮し、そのような性質を模倣する変換を提案する。
我々は、パッチサイズ、マルチドメイントレーニング、提案した変換の影響を調査する一連の実験を行い、最終的に、提案した変換を使用して、複数のドメインでトレーニングされた小さなパッチサイズを持つモデルが、最高のパフォーマンスをもたらすことを発見した。
データセットとコードはhttps://github.com/ZN1010/PEaCE.comで公開されています。
関連論文リスト
- LOCR: Location-Guided Transformer for Optical Character Recognition [55.195165959662795]
自動回帰中にトランスフォーマーアーキテクチャに位置案内を組み込むモデルであるLOCRを提案する。
125Kの学術文書ページから777万以上のテキスト配置ペアからなるデータセット上でモデルをトレーニングする。
これは、編集距離、BLEU、METEOR、F測定によって測定されたarXivから構築されたテストセットの既存のメソッドよりも優れています。
論文 参考訳(メタデータ) (2024-03-04T15:34:12Z) - SciMMIR: Benchmarking Scientific Multi-modal Information Retrieval [64.03631654052445]
科学領域内の画像テキストペアリングにおけるMMIR性能を評価するための最新のベンチマークは、顕著なギャップを示している。
オープンアクセス用紙コレクションを利用した特殊な科学的MMIRベンチマークを開発する。
このベンチマークは、科学的文書に詳細なキャプションのある数字や表から抽出された、530Kの精巧にキュレートされた画像テキストペアからなる。
論文 参考訳(メタデータ) (2024-01-24T14:23:12Z) - Data Generation for Post-OCR correction of Cyrillic handwriting [41.94295877935867]
本稿では,B'ezier曲線に基づく合成手書き生成エンジンの開発と応用に焦点を当てる。
このようなエンジンは、任意の量で非常にリアルな手書きテキストを生成し、それを利用して実質的なデータセットを作成する。
本データセットに手書きテキスト認識(HTR)モデルを適用し,OCRエラーを識別し,POCモデルトレーニングの基礎となる。
論文 参考訳(メタデータ) (2023-11-27T15:01:26Z) - EfficientOCR: An Extensible, Open-Source Package for Efficiently
Digitizing World Knowledge [1.8434042562191815]
EffOCRは、オープンソースの光文字認識(OCR)パッケージである。
これは、大規模にテキストを解放するための計算とサンプルの効率の要求を満たす。
EffOCRは安価で、トレーニングにはサンプルの効率がよい。
論文 参考訳(メタデータ) (2023-10-16T04:20:16Z) - COSA: Concatenated Sample Pretrained Vision-Language Foundation Model [78.32081709802873]
ほとんどの視覚言語基盤モデルは、事前トレーニングに画像テキストデータセットを使用している。
我々は,COncatenated SAmple pretrained vision- language foundation modelであるCOSAを提案する。
複数の画像テキストペアを事前学習用入力として逐次結合することで、これを実現する。
この変換により、既存の画像テキストコーパスを擬似長文ビデオパラグラフコーパスに変換する。
論文 参考訳(メタデータ) (2023-06-15T12:29:42Z) - Cleansing Jewel: A Neural Spelling Correction Model Built On Google OCR-ed Tibetan Manuscripts [12.346821696831805]
我々は,Google OCR-ed Tibetan Manuscripts 上に構築したニューラルスペル補正モデルを用いて,OCR-ed noisy出力の自動補正を行う。
本稿では、データセット、モデルアーキテクチャ、トレーニング、分析の4つのセクションに分けられる。
論文 参考訳(メタデータ) (2023-04-07T00:45:12Z) - OCR-VQGAN: Taming Text-within-Image Generation [4.5718306968064635]
我々はOCR-VQGAN,画像エンコーダ,およびOCR事前学習機能を利用してテキスト知覚損失を最適化するデコーダを提案する。
我々は,OCR-VQGANの有効性を図形再構成の課題に関するいくつかの実験により実証した。
論文 参考訳(メタデータ) (2022-10-19T16:37:48Z) - Lexically Aware Semi-Supervised Learning for OCR Post-Correction [90.54336622024299]
世界中の多くの言語における既存の言語データの多くは、非デジタル化された書籍や文書に閉じ込められている。
従来の研究は、あまり良くない言語を認識するためのニューラル・ポスト・コレクション法の有用性を実証してきた。
そこで本研究では,生画像を利用した半教師付き学習手法を提案する。
論文 参考訳(メタデータ) (2021-11-04T04:39:02Z) - TrOCR: Transformer-based Optical Character Recognition with Pre-trained
Models [47.48019831416665]
本稿では,事前学習した画像変換器とテキスト変換器モデル,すなわちTrOCRを用いたエンドツーエンドのテキスト認識手法を提案する。
TrOCRは単純だが効果的であり、大規模な合成データで事前訓練し、人間のラベル付きデータセットで微調整することができる。
実験により、TrOCRモデルは、印刷されたテキスト認識タスクと手書きのテキスト認識タスクの両方において、現在の最先端モデルよりも優れていることが示された。
論文 参考訳(メタデータ) (2021-09-21T16:01:56Z) - Pretrained Transformers for Text Ranking: BERT and Beyond [53.83210899683987]
このサーベイは、トランスフォーマーとして知られるニューラルネットワークアーキテクチャによるテキストランキングの概要を提供する。
トランスフォーマーと自己教師型事前学習の組み合わせは、自然言語処理のパラダイムシフトの原因となっている。
論文 参考訳(メタデータ) (2020-10-13T15:20:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。