論文の概要: When Good OCR Is Not Enough: Benchmarking OCR Robustness for Retrieval-Augmented Generation
- arxiv url: http://arxiv.org/abs/2605.00911v1
- Date: Wed, 29 Apr 2026 09:42:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-05 20:33:49.47519
- Title: When Good OCR Is Not Enough: Benchmarking OCR Robustness for Retrieval-Augmented Generation
- Title(参考訳): OCRが不十分な場合 - 検索拡張生成のためのOCRロバストネスのベンチマーク
- Authors: Lin Sun, Wang Dexian, Jingang Huang, Linglin Zhang, Change Jia, Zhengwei Cheng, Xiangzheng Zhang,
- Abstract要約: 産業検索・拡張生成(RAG)システムは、視覚文書をテキストに変換するために光学文字認識(OCR)に依存している。
既存のOCRベンチマークは、実際の条件下で下流RAGの有効性を不適切に測定する文字レベルメトリクスに依存している。
本稿では,産業用RAGシステムを対象としたOCRベンチマークを紹介する。
- 参考スコア(独自算出の注目度): 2.8437065210971872
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Industrial Retrieval-Augmented Generation (RAG) systems depend on optical character recognition (OCR) to transform visual documents into text. Existing OCR benchmarks rely on character-level metrics, which inadequately measure downstream RAG effectiveness under real-world conditions. We introduce an OCR benchmark for industrial RAG systems covering 11 challenging document types, including extreme layouts, high-resolution pages, complex or watermarked backgrounds, historical documents with non-standard reading orders, visually decorated text, and documents containing tables and mathematical formulas. Evaluating recent SOTA OCR models under a controlled OCR-first RAG pipeline shows clear performance degradation on realistic industrial documents despite strong conventional benchmark scores. We find that high OCR accuracy does not necessarily translate into strong downstream RAG performance: structural and semantic errors can cause substantial retrieval failures even when WER/CER remains low. Further analysis shows that this mismatch is category-dependent, arises through both retrieval-side and downstream generation-side failures, and remains stable across representative OCR-first pipeline choices. The benchmark is publicly available at https://github.com/Qihoo360/InduOCRBench.
- Abstract(参考訳): 産業検索・拡張生成(RAG)システムは、視覚文書をテキストに変換するために光学文字認識(OCR)に依存している。
既存のOCRベンチマークは、実際の条件下で下流RAGの有効性を不適切に測定する文字レベルメトリクスに依存している。
工業用RAGシステムのためのOCRベンチマークでは、極端なレイアウト、高解像度ページ、複雑または透かしの背景、非標準読影順序の歴史的文書、視覚的に装飾されたテキスト、テーブルや数式を含む文書を含む11の文書タイプについて紹介する。
制御されたOCR優先RAGパイプライン下での最近のSOTA OCRモデルの評価は,従来のベンチマークスコアが強いにもかかわらず,現実的な産業文書の性能劣化を示す。
構造的および意味的誤りは、WER/CERが低い場合でも、重大な検索障害を引き起こす可能性がある。
さらに分析したところ、このミスマッチはカテゴリ依存であり、検索側と下流のジェネレーション側の両方で発生し、OCRファーストのパイプライン選択で安定であることがわかった。
ベンチマークはhttps://github.com/Qihoo360/InduOCRBenchで公開されている。
関連論文リスト
- GLM-OCR Technical Report [65.42028025507491]
GLM-OCRは実世界の文書理解のために設計された効率的なコンパクトモデルである。
CogViTビジュアルエンコーダとGLM言語デコーダを組み合わせることで、計算効率と認識性能のバランスが強い。
公開ベンチマークと産業シナリオの大規模な評価は、GLM-OCRが競争力や最先端のパフォーマンスを達成することを示している。
論文 参考訳(メタデータ) (2026-03-11T15:55:47Z) - Lost in OCR Translation? Vision-Based Approaches to Robust Document Retrieval [38.569818461453394]
Retrieval-Augmented Generation (RAG)は、外部文書の応答をグラウンド化するための技術である。
従来のRAGシステムは、スキャンされた文書をテキストに最初に処理するために光学文字認識(OCR)に依存していた。
ColPaliのような近年の視覚言語アプローチでは、ドキュメントの直接的な視覚的埋め込みを提案しており、OCRの必要性を排除している。
論文 参考訳(メタデータ) (2025-05-08T21:54:02Z) - Retrieval is Not Enough: Enhancing RAG Reasoning through Test-Time Critique and Optimization [58.390885294401066]
Retrieval-augmented Generation (RAG) は知識基底型大規模言語モデル(LLM)を実現するためのパラダイムとして広く採用されている。
RAGパイプラインは、モデル推論が得られた証拠と整合性を維持するのに失敗することが多く、事実上の矛盾や否定的な結論につながる。
批判駆動アライメント(CDA)に基づく新しい反復的枠組みであるAlignRAGを提案する。
AlignRAG-autoは、動的に洗練を終了し、批判的な反復回数を事前に指定する必要がなくなる自律的な変種である。
論文 参考訳(メタデータ) (2025-04-21T04:56:47Z) - OCR Hinders RAG: Evaluating the Cascading Impact of OCR on Retrieval-Augmented Generation [39.83221375597683]
Retrieval-augmented Generation (RAG)は、幻覚を抑えるために外部知識を統合することで、言語モデル(LLM)を強化する。
RAGの本質的な部分として、光学文字認識(OCR)を用いて構造化されていないPDF文書から構造化されたデータを抽出して外部知識ベースを構築することが一般的である。
本稿では,RAGシステムにおけるOCRのカスケード効果を理解するための最初のベンチマークであるOHRBenchを紹介する。
論文 参考訳(メタデータ) (2024-12-03T17:23:47Z) - RAGEval: Scenario Specific RAG Evaluation Dataset Generation Framework [66.93260816493553]
本稿では,様々なシナリオにまたがってRAGシステムを評価するためのフレームワークであるRAGvalを紹介する。
事実の正確性に焦点をあてて,完全性,幻覚,不適切性の3つの新しい指標を提案する。
実験結果から, RAGEvalは, 生成した試料の明瞭度, 安全性, 適合性, 豊かさにおいて, ゼロショット法とワンショット法より優れていた。
論文 参考訳(メタデータ) (2024-08-02T13:35:11Z) - User-Centric Evaluation of OCR Systems for Kwak'wala [92.73847703011353]
OCRを利用すると、文化的に価値ある文書の書き起こしに費やした時間を50%以上削減できることを示す。
この結果から,OCRツールが下流言語ドキュメントや再生作業において持つ潜在的なメリットが示された。
論文 参考訳(メタデータ) (2023-02-26T21:41:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。