論文の概要: PubMed-OCR: PMC Open Access OCR Annotations
- arxiv url: http://arxiv.org/abs/2601.11425v1
- Date: Fri, 16 Jan 2026 16:44:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-19 20:21:50.566092
- Title: PubMed-OCR: PMC Open Access OCR Annotations
- Title(参考訳): PubMed-OCR: PMC Open Access OCR アノテーション
- Authors: Hunter Heidenreich, Yosheb Getachew, Olivia Dinica, Ben Elliott,
- Abstract要約: PubMed-OCR(PubMed-OCR)は、PubMed Central Open Access PDFから派生した科学論文のOCR中心のコーパスである。
各ページイメージはGoogle Cloud Visionで注釈付けされ、ワード、行、段落レベルのバウンディングボックスを備えたコンパクトなスキーマでリリースされている。
コーパスは209.5K記事(1.5Mページ、1.3Bワード)に及び、レイアウト対応モデリング、座標基底QA、OCR依存パイプラインの評価をサポートする。
- 参考スコア(独自算出の注目度): 0.4277619369763994
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: PubMed-OCR is an OCR-centric corpus of scientific articles derived from PubMed Central Open Access PDFs. Each page image is annotated with Google Cloud Vision and released in a compact JSON schema with word-, line-, and paragraph-level bounding boxes. The corpus spans 209.5K articles (1.5M pages; ~1.3B words) and supports layout-aware modeling, coordinate-grounded QA, and evaluation of OCR-dependent pipelines. We analyze corpus characteristics (e.g., journal coverage and detected layout features) and discuss limitations, including reliance on a single OCR engine and heuristic line reconstruction. We release the data and schema to facilitate downstream research and invite extensions.
- Abstract(参考訳): PubMed-OCR(PubMed-OCR)は、PubMed Central Open Access PDFから派生した科学論文のOCR中心のコーパスである。
各ページイメージはGoogle Cloud Visionで注釈付けされ、ワード、行、段落レベルのバウンディングボックスを備えたコンパクトなJSONスキーマでリリースされている。
コーパスは209.5Kの記事(1.5Mページ、~1.3Bワード)にまたがり、レイアウト認識モデリング、座標基底QA、OCR依存パイプラインの評価をサポートする。
我々は、コーパス特性(例えば、ジャーナルのカバレッジや検出されたレイアウトの特徴)を分析し、単一OCRエンジンへの依存やヒューリスティックライン再構築などの制限について議論する。
下流の研究を容易にし、拡張を招待するために、データとスキーマをリリースします。
関連論文リスト
- Visual Merit or Linguistic Crutch? A Close Look at DeepSeek-OCR [25.00433693229684]
DeepSeek-OCRは、入力された視覚トークンの10倍以上のテキストトークンをデコードすると主張している。
我々は,本モデル固有のOCR能力を言語先行から分離するために,文レベルおよび単語レベルの意味的腐敗を用いる。
従来のパイプラインOCR法は, 従来のパイプラインOCR法に比べて, 意味摂動に対するロバスト性が高いことがわかった。
論文 参考訳(メタデータ) (2026-01-07T09:01:23Z) - MonkeyOCR v1.5 Technical Report: Unlocking Robust Document Parsing for Complex Patterns [80.05126590825121]
MonkeyOCR v1.5は、レイアウト理解とコンテンツ認識の両方を強化する統合ビジョン言語フレームワークである。
複雑なテーブル構造に対処するために,視覚的整合性に基づく強化学習手法を提案する。
2つの特別なモジュール、Image-Decoupled Table ParsingとType-Guided Table Mergingを導入し、テーブルの信頼性の高いパースを可能にする。
論文 参考訳(メタデータ) (2025-11-13T15:12:17Z) - Cross-Lingual SynthDocs: A Large-Scale Synthetic Corpus for Any to Arabic OCR and Document Understanding [3.587092806938212]
Cross-Lingual SynthDocsは、光学文字認識(OCR)と文書理解(DU)のためのアラビア語リソースの不足に対処するために設計された大規模な合成コーパスである。
データセットは、150万のテキストデータ、270万の注釈付きテーブル、数十万の実際のデータベースチャートを含む、250万以上のサンプルで構成されている。
論文 参考訳(メタデータ) (2025-11-01T04:54:58Z) - CREPE: Coordinate-Aware End-to-End Document Parser [13.530212337717515]
視覚文書理解のためのOCRフリーシーケンス生成モデル(VDU)を定式化する。
本モデルは,文書画像からテキストを解析するだけでなく,マルチヘッドアーキテクチャに基づくテキストの空間座標も抽出する。
コーディネート・アウェア・エンド・ツー・エンドドキュメンテーション(Coordinate-aware End-to-end Document)と呼ばれる。
CREPEでは,OCRテキスト用の特別なトークンを導入することで,これらの機能を独自に統合する。
論文 参考訳(メタデータ) (2024-05-01T00:30:13Z) - LOCR: Location-Guided Transformer for Optical Character Recognition [55.195165959662795]
自動回帰中にトランスフォーマーアーキテクチャに位置案内を組み込むモデルであるLOCRを提案する。
125Kの学術文書ページから777万以上のテキスト配置ペアからなるデータセット上でモデルをトレーニングする。
これは、編集距離、BLEU、METEOR、F測定によって測定されたarXivから構築されたテストセットの既存のメソッドよりも優れています。
論文 参考訳(メタデータ) (2024-03-04T15:34:12Z) - mPLUG-DocOwl: Modularized Multimodal Large Language Model for Document
Understanding [55.4806974284156]
文書理解とは、ウェブページのようなデジタル文書から自動的に情報を抽出し、分析し、理解することである。
既存のMLLM(Multi-model Large Language Models)は、浅いOCRフリーテキスト認識において、望ましくないゼロショット機能を実証している。
論文 参考訳(メタデータ) (2023-07-04T11:28:07Z) - DocBed: A Multi-Stage OCR Solution for Documents with Complex Layouts [2.885058600042882]
この研究は、21の異なる州から3000の完全な注釈付き現実世界の新聞画像のデータセットを公開している。
既存の光学式文字認識(OCR)エンジンの先駆けとしてレイアウトセグメンテーションを提案する。
独立したレイアウトセグメンテーションとエンドツーエンドのOCRのための、徹底的で構造化された評価プロトコルを提供する。
論文 参考訳(メタデータ) (2022-02-03T05:21:31Z) - Generalizing Cross-Document Event Coreference Resolution Across Multiple
Corpora [63.429307282665704]
クロスドキュメントイベントコア参照解決(CDCR)は、文書の集合全体にわたってイベントの特定とクラスタ化を行う必要があるNLPタスクである。
CDCRは、下流のマルチドキュメントアプリケーションに利益をもたらすことを目標としているが、CDCRの適用による改善はまだ示されていない。
これまでのCDCRシステムは,1つのコーパスでのみ開発,トレーニング,テストが行われた。
論文 参考訳(メタデータ) (2020-11-24T17:45:03Z) - Learning Contextualized Document Representations for Healthcare Answer
Retrieval [68.02029435111193]
コンテキスト談話ベクトル(英: Contextual Discourse Vectors、CDV)は、長文からの効率的な回答検索のための分散文書表現である。
本モデルでは,階層型LSTMレイヤとマルチタスクトレーニングを併用したデュアルエンコーダアーキテクチャを用いて,臨床エンティティの位置と文書の談話に沿った側面をエンコードする。
我々の一般化モデルは、医療パスランキングにおいて、最先端のベースラインを著しく上回っていることを示す。
論文 参考訳(メタデータ) (2020-02-03T15:47:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。