論文の概要: OCRTurk: A Comprehensive OCR Benchmark for Turkish
- arxiv url: http://arxiv.org/abs/2602.03693v1
- Date: Tue, 03 Feb 2026 16:11:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-04 18:37:15.566797
- Title: OCRTurk: A Comprehensive OCR Benchmark for Turkish
- Title(参考訳): OCRTurk - トルコの総合的なOCRベンチマーク
- Authors: Deniz Yılmaz, Evren Ayberk Munis, Çağrı Toraman, Süha Kağan Köse, Burak Aktaş, Mehmet Can Baytekin, Bilge Kaan Görür,
- Abstract要約: トルコ語で文書解析を行うベンチマークであるOCRTurkを紹介する。
OCRTurkは、学術論文、論文、スライドデッキ、非学術論文から抽出された180のトルコの文書で構成されている。
我々はOCRTurk上で7つのOCRモデルを評価する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Document parsing is now widely used in applications, such as large-scale document digitization, retrieval-augmented generation, and domain-specific pipelines in healthcare and education. Benchmarking these models is crucial for assessing their reliability and practical robustness. Existing benchmarks mostly target high-resource languages and provide limited coverage for low-resource settings, such as Turkish. Moreover, existing studies on Turkish document parsing lack a standardized benchmark that reflects real-world scenarios and document diversity. To address this gap, we introduce OCRTurk, a Turkish document parsing benchmark covering multiple layout elements and document categories at three difficulty levels. OCRTurk consists of 180 Turkish documents drawn from academic articles, theses, slide decks, and non-academic articles. We evaluate seven OCR models on OCRTurk using element-wise metrics. Across difficulty levels, PaddleOCR achieves the strongest overall results, leading most element-wise metrics except figures and attaining high Normalized Edit Distance scores in easy, medium, and hard subsets. We also observe performance variation by document type. Models perform well on non-academic documents, while slideshows become the most challenging.
- Abstract(参考訳): ドキュメント解析は、大規模ドキュメントのデジタル化、検索拡張生成、医療と教育におけるドメイン固有のパイプラインなど、アプリケーションで広く使われている。
これらのモデルのベンチマークは、信頼性と実用的な堅牢性を評価するために不可欠である。
既存のベンチマークは主に高リソース言語をターゲットにしており、トルコ語のような低リソース設定に対して限定的なカバレッジを提供する。
さらに、トルコの文書解析に関する既存の研究は、現実のシナリオと文書の多様性を反映した標準化されたベンチマークを欠いている。
このギャップに対処するため、トルコの文書解析ベンチマークであるOCRTurkを紹介し、複数のレイアウト要素と文書カテゴリを3つの難易度でカバーする。
OCRTurkは、学術論文、論文、スライドデッキ、非学術論文から抽出された180のトルコの文書で構成されている。
我々はOCRTurk上で7つのOCRモデルを評価する。
難易度全体にわたって、PaddleOCRは最も強力な総合的な結果を達成し、数字を除くほとんどの要素単位のメトリクスを導き、簡単で中堅なサブセットで高い正規化された編集距離のスコアを得る。
また,文書タイプによるパフォーマンスの変動も観察する。
モデルは非アカデミック文書でうまく機能するが、スライドショーは最も難しいものとなる。
関連論文リスト
- Typhoon OCR: Open Vision-Language Model For Thai Document Extraction [4.657998588885444]
本稿ではタイ語と英語に適した文書抽出用オープンVLMであるTyphoon OCRについて述べる。
このモデルは、タイ語に焦点を当てたトレーニングデータセットを使用して、視覚言語バックボーンから微調整される。
最新のモデルであるTyphoon OCR V1.5は、メタデータへの依存を減らし、デプロイを単純化するために設計された、コンパクトで推論効率の良いモデルです。
論文 参考訳(メタデータ) (2026-01-21T07:24:32Z) - Baseer: A Vision-Language Model for Arabic Document-to-Markdown OCR [1.7590081165362783]
本稿では,アラビア語文書OCR用に微調整された視覚言語モデルであるBaseerを紹介する。
合成と実世界のドキュメントを組み合わせた大規模なデータセットを活用することで、Baseerはデコーダのみの微調整戦略を使用してトレーニングされる。
実験の結果,Baseer は既存のオープンソースおよび商用ソリューションを著しく上回り,WER は 0.25 であることがわかった。
論文 参考訳(メタデータ) (2025-09-17T15:07:29Z) - VisR-Bench: An Empirical Study on Visual Retrieval-Augmented Generation for Multilingual Long Document Understanding [49.07705729597171]
VisR-Benchは、長い文書における質問駆動型マルチモーダル検索のベンチマークである。
ベンチマークは、1.2Kドキュメントで35K以上の高品質なQAペアで構成されています。
テキストベースの手法,マルチモーダルエンコーダ,MLLMなど,さまざまな検索モデルを評価する。
論文 参考訳(メタデータ) (2025-08-10T21:44:43Z) - WildDoc: How Far Are We from Achieving Comprehensive and Robust Document Understanding in the Wild? [64.62909376834601]
本稿では,自然環境における文書理解の評価に特化して設計されたWildDocについて紹介する。
WildDoc上での最先端MLLMの評価は、従来のベンチマークと比べて性能が大幅に低下し、モデルの頑健さが不十分であることを示す。
論文 参考訳(メタデータ) (2025-05-16T09:09:46Z) - Lost in OCR Translation? Vision-Based Approaches to Robust Document Retrieval [38.569818461453394]
Retrieval-Augmented Generation (RAG)は、外部文書の応答をグラウンド化するための技術である。
従来のRAGシステムは、スキャンされた文書をテキストに最初に処理するために光学文字認識(OCR)に依存していた。
ColPaliのような近年の視覚言語アプローチでは、ドキュメントの直接的な視覚的埋め込みを提案しており、OCRの必要性を排除している。
論文 参考訳(メタデータ) (2025-05-08T21:54:02Z) - KITAB-Bench: A Comprehensive Multi-Domain Benchmark for Arabic OCR and Document Understanding [24.9462694200992]
KITAB-Benchは、現在の評価システムのギャップを埋める包括的なアラビアOCRベンチマークである。
現代の視覚言語モデル(GPT-4o、Gemini、Qwenなど)は、従来のOCRアプローチを平均60%の文字誤り率(CER)で上回っている。
本研究はアラビア文書分析手法の改良を促進するための厳格な評価枠組みを確立する。
論文 参考訳(メタデータ) (2025-02-20T18:41:23Z) - CC-OCR: A Comprehensive and Challenging OCR Benchmark for Evaluating Large Multimodal Models in Literacy [50.78228433498211]
CC-OCRは、マルチシーンテキスト読取、多言語テキスト読取、文書解析、キー情報抽出の4つのOCR中心のトラックで構成されている。
39のサブセットと7,058のフルアノテートされたイメージが含まれており、そのうち41%が実際のアプリケーションからソースされ、初めてリリースされた。
我々は9つの顕著なLMMを評価し、これらのモデルの長所と短所、特にテキストの接地、多目的化、繰り返しの幻覚について明らかにした。
論文 参考訳(メタデータ) (2024-12-03T07:03:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。