論文の概要: OCR-Quality: A Human-Annotated Dataset for OCR Quality Assessment
- arxiv url: http://arxiv.org/abs/2510.21774v1
- Date: Fri, 17 Oct 2025 08:30:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-03 05:35:45.968049
- Title: OCR-Quality: A Human-Annotated Dataset for OCR Quality Assessment
- Title(参考訳): OCR-Quality: OCR品質評価のための人間アノテーションデータセット
- Authors: Yulong Zhang,
- Abstract要約: OCR-Qualityは,OCRの品質評価手法の評価と開発を目的とした,人間による注釈付きデータセットである。
データセットは、300 DPIのPNGイメージに変換された1,000のPDFページで構成され、様々な現実世界のシナリオからサンプリングされる。
- 参考スコア(独自算出の注目度): 5.780470041439859
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: We present OCR-Quality, a comprehensive human-annotated dataset designed for evaluating and developing OCR quality assessment methods. The dataset consists of 1,000 PDF pages converted to PNG images at 300 DPI, sampled from diverse real-world scenarios, including academic papers, textbooks, e-books, and multilingual documents. Each document has been processed using state-of-the-art Vision-Language Models (VLMs) and manually annotated with quality scores using a 4-level scoring system (1: Excellent, 2: Good, 3: Fair, 4: Poor). The dataset includes detailed source information, annotation guidelines, and representative cases across various difficulty levels. OCR-Quality addresses the critical need for reliable OCR quality assessment in real-world applications and provides a valuable benchmark for training and evaluating OCR verification systems. The dataset is publicly available at https://huggingface.co/datasets/Aslan-mingye/OCR-Quality .
- Abstract(参考訳): 我々は,OCR品質評価手法の評価と開発を目的とした総合的人間アノテーションデータセットであるOCR-Qualityを提案する。
データセットは300 DPIのPNG画像に変換された1,000のPDFページで構成され、学術論文、教科書、電子書籍、多言語文書など、様々な現実世界のシナリオからサンプリングされている。
それぞれの文書は最先端のVision-Language Models (VLMs)を使用して処理され、手動で4段階のスコアシステム(1:Excellent, 2: Good, 3: Fair, 4: Poor)を使用して品質スコアを付けている。
データセットには、さまざまな困難レベルにわたる詳細なソース情報、アノテーションガイドライン、代表例が含まれている。
OCR-Qualityは、現実世界のアプリケーションにおける信頼性の高いOCR品質評価の必要性に対処し、OCR検証システムのトレーニングと評価に有用なベンチマークを提供する。
データセットはhttps://huggingface.co/datasets/Aslan-mingye/OCR-Qualityで公開されている。
関連論文リスト
- DocIQ: A Benchmark Dataset and Feature Fusion Network for Document Image Quality Assessment [78.21680156380705]
主観的なDIQAデータセットDIQA-5000を紹介する。
DIQA-5000データセットは5000個の文書画像からなる。
それぞれの強調画像は、全体的な品質、シャープさ、色質の3つの評価次元の15の被験者によって評価された。
そこで本研究では,文書レイアウト機能を利用した非参照DIQAモデルを提案する。
論文 参考訳(メタデータ) (2025-09-21T10:01:43Z) - Lost in OCR Translation? Vision-Based Approaches to Robust Document Retrieval [38.569818461453394]
Retrieval-Augmented Generation (RAG)は、外部文書の応答をグラウンド化するための技術である。
従来のRAGシステムは、スキャンされた文書をテキストに最初に処理するために光学文字認識(OCR)に依存していた。
ColPaliのような近年の視覚言語アプローチでは、ドキュメントの直接的な視覚的埋め込みを提案しており、OCRの必要性を排除している。
論文 参考訳(メタデータ) (2025-05-08T21:54:02Z) - Evaluating Robustness of LLMs in Question Answering on Multilingual Noisy OCR Data [26.34532500908141]
我々は,OCRによる雑音が多言語QAシステムの性能に与える影響を包括的に分析する。
この分析を支援するために,多言語QAデータセットであるMultiOCR-QAを導入する。
データセットは、OCRの異なるレベルと種類のOCRノイズを含む、OCRが編集した歴史文書からキュレートされる。
次に、3つの主要なOCRエラータイプに着目し、異なるエラー条件下で、異なる最先端の大規模言語モデル(LLM)がどのように機能するかを評価する。
論文 参考訳(メタデータ) (2025-02-24T02:16:37Z) - Benchmarking Vision-Language Models on Optical Character Recognition in Dynamic Video Environments [3.5936169218390703]
本稿では、動的ビデオ環境における光学的文字認識(OCR)タスクの視覚言語モデル(VLM)を評価するためのオープンソースのベンチマークを提案する。
コードエディタ,ニュースブロードキャスト,YouTubeビデオ,広告など,さまざまな領域にまたがる1,477の注釈付きフレームを含むキュレートデータセットを提案する。
論文 参考訳(メタデータ) (2025-02-10T13:20:19Z) - CC-OCR: A Comprehensive and Challenging OCR Benchmark for Evaluating Large Multimodal Models in Literacy [50.78228433498211]
CC-OCRは、マルチシーンテキスト読取、多言語テキスト読取、文書解析、キー情報抽出の4つのOCR中心のトラックで構成されている。
39のサブセットと7,058のフルアノテートされたイメージが含まれており、そのうち41%が実際のアプリケーションからソースされ、初めてリリースされた。
我々は9つの顕著なLMMを評価し、これらのモデルの長所と短所、特にテキストの接地、多目的化、繰り返しの幻覚について明らかにした。
論文 参考訳(メタデータ) (2024-12-03T07:03:25Z) - LOCR: Location-Guided Transformer for Optical Character Recognition [55.195165959662795]
自動回帰中にトランスフォーマーアーキテクチャに位置案内を組み込むモデルであるLOCRを提案する。
125Kの学術文書ページから777万以上のテキスト配置ペアからなるデータセット上でモデルをトレーニングする。
これは、編集距離、BLEU、METEOR、F測定によって測定されたarXivから構築されたテストセットの既存のメソッドよりも優れています。
論文 参考訳(メタデータ) (2024-03-04T15:34:12Z) - Exploring Precision and Recall to assess the quality and diversity of LLMs [82.21278402856079]
我々はtextscLlama-2 や textscMistral のような大規模言語モデル (LLM) のための新しい評価フレームワークを提案する。
このアプローチにより、コーパスの整合を必要とせず、生成したテキストの品質と多様性を微妙に評価できる。
論文 参考訳(メタデータ) (2024-02-16T13:53:26Z) - Exploring OCR Capabilities of GPT-4V(ision) : A Quantitative and
In-depth Evaluation [33.66939971907121]
評価の結果,GPT-4Vはラテン内容の認識や理解に優れていたが,多言語シナリオや複雑なタスクに苦慮していることが明らかとなった。
一般に、多様なOCRタスクを扱う汎用性にもかかわらず、GPT-4Vは既存の最先端のOCRモデルより優れているわけではない。
論文 参考訳(メタデータ) (2023-10-25T17:38:55Z) - OCRBench: On the Hidden Mystery of OCR in Large Multimodal Models [122.27878464009181]
テキスト関連視覚タスクにおいて, GPT4V や Gemini などの大規模マルチモーダルモデルの包括的評価を行った。
OCRBenchには29のデータセットがあり、最も包括的なOCR評価ベンチマークが利用できる。
論文 参考訳(メタデータ) (2023-05-13T11:28:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。