論文の概要: KITAB-Bench: A Comprehensive Multi-Domain Benchmark for Arabic OCR and Document Understanding
- arxiv url: http://arxiv.org/abs/2502.14949v1
- Date: Thu, 20 Feb 2025 18:41:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-24 16:11:52.787596
- Title: KITAB-Bench: A Comprehensive Multi-Domain Benchmark for Arabic OCR and Document Understanding
- Title(参考訳): KITAB-Bench:アラビア語OCRと文書理解のための総合的マルチドメインベンチマーク
- Authors: Ahmed Heakl, Abdullah Sohail, Mukul Ranjan, Rania Hossam, Ghazi Ahmed, Mohamed El-Geish, Omar Maher, Zhiqiang Shen, Fahad Khan, Salman Khan,
- Abstract要約: KITAB-Benchは、現在の評価システムのギャップを埋める包括的なアラビアOCRベンチマークである。
現代の視覚言語モデル(GPT-4、Gemini、Qwenなど)は、従来のOCRアプローチを平均60%の文字誤り率(CER)で上回っている。
本研究はアラビア文書分析手法の改良を促進するための厳格な評価枠組みを確立する。
- 参考スコア(独自算出の注目度): 24.9462694200992
- License:
- Abstract: With the growing adoption of Retrieval-Augmented Generation (RAG) in document processing, robust text recognition has become increasingly critical for knowledge extraction. While OCR (Optical Character Recognition) for English and other languages benefits from large datasets and well-established benchmarks, Arabic OCR faces unique challenges due to its cursive script, right-to-left text flow, and complex typographic and calligraphic features. We present KITAB-Bench, a comprehensive Arabic OCR benchmark that fills the gaps in current evaluation systems. Our benchmark comprises 8,809 samples across 9 major domains and 36 sub-domains, encompassing diverse document types including handwritten text, structured tables, and specialized coverage of 21 chart types for business intelligence. Our findings show that modern vision-language models (such as GPT-4, Gemini, and Qwen) outperform traditional OCR approaches (like EasyOCR, PaddleOCR, and Surya) by an average of 60% in Character Error Rate (CER). Furthermore, we highlight significant limitations of current Arabic OCR models, particularly in PDF-to-Markdown conversion, where the best model Gemini-2.0-Flash achieves only 65% accuracy. This underscores the challenges in accurately recognizing Arabic text, including issues with complex fonts, numeral recognition errors, word elongation, and table structure detection. This work establishes a rigorous evaluation framework that can drive improvements in Arabic document analysis methods and bridge the performance gap with English OCR technologies.
- Abstract(参考訳): 文書処理にRAG(Retrieval-Augmented Generation)が採用されていくにつれ、知識抽出にはロバストテキスト認識がますます重要になっている。
英語や他の言語向けのOCR(Optical Character Recognition)は、大きなデータセットと確立されたベンチマークの恩恵を受けているが、アラビア語のOCRは、カーシブスクリプト、右から左へのテキストフロー、複雑なタイポグラフィーと書体の特徴のために、ユニークな課題に直面している。
我々は、現在の評価システムにおけるギャップを埋める包括的なアラビアOCRベンチマークであるKITAB-Benchを紹介する。
ベンチマークでは、9つの主要ドメインと36のサブドメインにまたがる8,809のサンプルからなり、手書きテキスト、構造化テーブル、ビジネスインテリジェンスのための21種類の特殊なカバレッジを含む多様なドキュメントタイプを網羅した。
その結果,現代の視覚言語モデル(GPT-4,Gemini,Qwenなど)は,従来のOCRアプローチ(EasyOCR,PaddleOCR,Suryaなど)を平均60%の文字誤り率(CER)で上回った。
特にPDF-to-Markdown変換では,最高のモデルであるGemini-2.0-Flashが65%の精度しか達成できない。
これは、複雑なフォント、数字認識エラー、単語伸長、テーブル構造検出などの問題を含む、アラビア語のテキストを正確に認識する際の課題を浮き彫りにする。
本研究は、アラビア文書分析手法の改善を推進し、英語のOCR技術と性能ギャップを埋めることのできる厳密な評価フレームワークを確立する。
関連論文リスト
- CC-OCR: A Comprehensive and Challenging OCR Benchmark for Evaluating Large Multimodal Models in Literacy [50.78228433498211]
CC-OCRは、マルチシーンテキスト読取、多言語テキスト読取、文書解析、キー情報抽出の4つのOCR中心のトラックで構成されている。
39のサブセットと7,058のフルアノテートされたイメージが含まれており、そのうち41%が実際のアプリケーションからソースされ、初めてリリースされた。
我々は9つの顕著なLMMを評価し、これらのモデルの長所と短所、特にテキストの接地、多目的化、繰り返しの幻覚について明らかにした。
論文 参考訳(メタデータ) (2024-12-03T07:03:25Z) - Arabic Handwritten Document OCR Solution with Binarization and Adaptive Scale Fusion Detection [1.1655046053160683]
テキスト行の正確な検出を保証するために,ラインセグメンテーションとAdaptive Scale Fusion技術から始まる完全なOCRパイプラインを提案する。
我々のシステムはアラビア多言語データセットに基づいて訓練され、7文字から10文字の単語サンプルに対して99.20%の文字認識率(CRR)と93.75%の単語認識率(WRR)を達成する。
論文 参考訳(メタデータ) (2024-12-02T15:21:09Z) - Qalam : A Multimodal LLM for Arabic Optical Character and Handwriting Recognition [18.280762424107408]
本研究はアラビア語 OCR と HWR 向けに設計された新しい基礎モデルである Qalam を紹介する。
提案手法は,HWRタスクが0.80%,OCRタスクが1.18%のワード誤り率(WER)を達成し,既存の手法よりも優れていた。
論文 参考訳(メタデータ) (2024-07-18T14:31:09Z) - LOCR: Location-Guided Transformer for Optical Character Recognition [55.195165959662795]
自動回帰中にトランスフォーマーアーキテクチャに位置案内を組み込むモデルであるLOCRを提案する。
125Kの学術文書ページから777万以上のテキスト配置ペアからなるデータセット上でモデルをトレーニングする。
これは、編集距離、BLEU、METEOR、F測定によって測定されたarXivから構築されたテストセットの既存のメソッドよりも優れています。
論文 参考訳(メタデータ) (2024-03-04T15:34:12Z) - Class-Aware Mask-Guided Feature Refinement for Scene Text Recognition [56.968108142307976]
CAM(Class-Aware Mask-Guided Feature refinement)と呼ばれる新しい手法を提案する。
本手法では,背景およびテキストスタイルのノイズを抑制するために,標準クラス対応グリフマスクを導入している。
標準マスク特徴とテキスト特徴とのアライメントを強化することにより、モジュールはより効果的な融合を保証する。
論文 参考訳(メタデータ) (2024-02-21T09:22:45Z) - OCRBench: On the Hidden Mystery of OCR in Large Multimodal Models [122.27878464009181]
テキスト関連視覚タスクにおいて, GPT4V や Gemini などの大規模マルチモーダルモデルの包括的評価を行った。
OCRBenchには29のデータセットがあり、最も包括的なOCR評価ベンチマークが利用できる。
論文 参考訳(メタデータ) (2023-05-13T11:28:37Z) - User-Centric Evaluation of OCR Systems for Kwak'wala [92.73847703011353]
OCRを利用すると、文化的に価値ある文書の書き起こしに費やした時間を50%以上削減できることを示す。
この結果から,OCRツールが下流言語ドキュメントや再生作業において持つ潜在的なメリットが示された。
論文 参考訳(メタデータ) (2023-02-26T21:41:15Z) - Rethinking Text Line Recognition Models [57.47147190119394]
2つのデコーダファミリー(コネクショニスト時間分類と変換器)と3つのエンコーダモジュール(双方向LSTM、自己認識、GRCL)を考える。
広く使用されているシーンと手書きテキストの公開データセットの精度とパフォーマンスを比較します。
より一般的なTransformerベースのモデルとは異なり、このアーキテクチャは任意の長さの入力を処理できる。
論文 参考訳(メタデータ) (2021-04-15T21:43:13Z) - An Efficient Language-Independent Multi-Font OCR for Arabic Script [0.0]
本稿では,アラビア文字のスキャン画像を入力として取り出し,対応するデジタル文書を生成する完全アラビアOCRシステムを提案する。
また,現在最先端のセグメンテーションアルゴリズムよりも優れたフォント非依存文字アルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-09-18T22:57:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。