論文の概要: Baseer: A Vision-Language Model for Arabic Document-to-Markdown OCR
- arxiv url: http://arxiv.org/abs/2509.18174v1
- Date: Wed, 17 Sep 2025 15:07:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-24 20:41:27.454834
- Title: Baseer: A Vision-Language Model for Arabic Document-to-Markdown OCR
- Title(参考訳): Baseer: アラビア語文書とマークダウンOCRのための視覚言語モデル
- Authors: Khalil Hennara, Muhammad Hreden, Mohamed Motasim Hamed, Ahmad Bastati, Zeina Aldallal, Sara Chrouf, Safwan AlModhayan,
- Abstract要約: 本稿では,アラビア語文書OCR用に微調整された視覚言語モデルであるBaseerを紹介する。
合成と実世界のドキュメントを組み合わせた大規模なデータセットを活用することで、Baseerはデコーダのみの微調整戦略を使用してトレーニングされる。
実験の結果,Baseer は既存のオープンソースおよび商用ソリューションを著しく上回り,WER は 0.25 であることがわかった。
- 参考スコア(独自算出の注目度): 1.7590081165362783
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Arabic document OCR remains a challenging task due to the language's cursive script, diverse fonts, diacritics, and right-to-left orientation. While modern Multimodal Large Language Models (MLLMs) have advanced document understanding for high-resource languages, their performance on Arabic remains limited. In this work, we introduce Baseer, a vision-language model fine- tuned specifically for Arabic document OCR. Leveraging a large-scale dataset combining synthetic and real-world documents, Baseer is trained using a decoder-only fine-tuning strategy to adapt a pre-trained MLLM while preserving general visual features. We also present Misraj-DocOCR, a high-quality, expert-verified benchmark designed for rigorous evaluation of Arabic OCR systems. Our experiments show that Baseer significantly outperforms existing open-source and commercial solutions, achieving a WER of 0.25 and establishing a new state-of-the-art in the domain of Arabic document OCR. Our results highlight the benefits of domain-specific adaptation of general-purpose MLLMs and establish a strong baseline for high-accuracy OCR on morphologically rich languages like Arabic.
- Abstract(参考訳): アラビア語の文書 OCR は、言語のカーシブスクリプト、多様なフォント、ダイアクリティカルマーク、右から左へのオリエンテーションのために、依然として難しい課題である。
現代のマルチモーダル大言語モデル(MLLM)は、高ソース言語に対する高度な文書理解を持っているが、アラビア語におけるその性能は限られている。
本稿では,アラビア語文書OCR用に微調整された視覚言語モデルであるBaseerを紹介する。
合成と実世界のドキュメントを組み合わせた大規模なデータセットを活用して、Baseerは、デコーダのみによる微調整戦略を使用して、一般的な視覚的特徴を保持しながら、トレーニング済みのMLLMに適応するように訓練されている。
また、アラビアOCRシステムの厳密な評価のために設計された、高品質で専門家が検証したベンチマークであるMisraj-DocOCRを提示する。
実験の結果,Baseer は既存のオープンソースおよび商用ソリューションを著しく上回り,WER 0.25 を達成し,アラビア語文書 OCR の領域で新たな最先端技術を確立した。
本研究は, 汎用MLLMのドメイン固有適応の利点を強調し, アラビア語のような形態的に豊かな言語上での高精度OCRの強力なベースラインを確立することを目的とした。
関連論文リスト
- Improving MLLM's Document Image Machine Translation via Synchronously Self-reviewing Its OCR Proficiency [31.095908827004695]
MLLM(Multimodal Large Language Models)は,文書画像タスクにおいて高い性能を示す。
彼らはDocument Image Machine Translation (DIMT)と闘っている。
我々は,「バイリンガル認知アドバンテージ」の概念に触発されて,SSR(Synchronously Self-Reviewing)という新たな微調整パラダイムを導入した。
論文 参考訳(メタデータ) (2025-07-11T05:02:06Z) - QARI-OCR: High-Fidelity Arabic Text Recognition through Multimodal Large Language Model Adaptation [0.8944616102795021]
本稿では、アラビア語に段階的に最適化された視覚言語モデルであるQari-OCRを紹介する。
Qari-OCRは、ワード誤り率(WER)0.0160、文字誤り率(CER)0.061、BLEUスコア0.737の新たなオープンソースステート・オブ・ザ・アートを確立している。
論文 参考訳(メタデータ) (2025-06-02T22:21:06Z) - SARD: A Large-Scale Synthetic Arabic OCR Dataset for Book-Style Text Recognition [0.995313069446686]
SARDは、書籍スタイルのドキュメントをシミュレートするための、大規模で合成的に生成されたデータセットである。
6億9千万の単語を含む843,622の文書画像からなり、10の異なるアラビア語のフォントに散らばって、タイポグラフィーのカバー範囲を広く確保している。
スキャンされた文書から得られたデータセットとは異なり、SARDは現実世界のノイズや歪みをなくし、モデルトレーニングのためのクリーンで制御された環境を提供する。
論文 参考訳(メタデータ) (2025-05-30T13:47:54Z) - KITAB-Bench: A Comprehensive Multi-Domain Benchmark for Arabic OCR and Document Understanding [24.9462694200992]
KITAB-Benchは、現在の評価システムのギャップを埋める包括的なアラビアOCRベンチマークである。
現代の視覚言語モデル(GPT-4o、Gemini、Qwenなど)は、従来のOCRアプローチを平均60%の文字誤り率(CER)で上回っている。
本研究はアラビア文書分析手法の改良を促進するための厳格な評価枠組みを確立する。
論文 参考訳(メタデータ) (2025-02-20T18:41:23Z) - CC-OCR: A Comprehensive and Challenging OCR Benchmark for Evaluating Large Multimodal Models in Literacy [50.78228433498211]
CC-OCRは、マルチシーンテキスト読取、多言語テキスト読取、文書解析、キー情報抽出の4つのOCR中心のトラックで構成されている。
39のサブセットと7,058のフルアノテートされたイメージが含まれており、そのうち41%が実際のアプリケーションからソースされ、初めてリリースされた。
我々は9つの顕著なLMMを評価し、これらのモデルの長所と短所、特にテキストの接地、多目的化、繰り返しの幻覚について明らかにした。
論文 参考訳(メタデータ) (2024-12-03T07:03:25Z) - AceGPT, Localizing Large Language Models in Arabic [73.39989503874634]
本稿では,アラビア語のテキストによる事前学習,ネイティブなアラビア語命令を利用したSFT(Supervised Fine-Tuning),アラビア語のGPT-4応答を含む総合的なソリューションを提案する。
目標は、文化的に認知され、価値に整合したアラビア語のLLMを、多様で応用特有のアラビア語コミュニティのニーズに適応させることである。
論文 参考訳(メタデータ) (2023-09-21T13:20:13Z) - OCRBench: On the Hidden Mystery of OCR in Large Multimodal Models [122.27878464009181]
テキスト関連視覚タスクにおいて, GPT4V や Gemini などの大規模マルチモーダルモデルの包括的評価を行った。
OCRBenchには29のデータセットがあり、最も包括的なOCR評価ベンチマークが利用できる。
論文 参考訳(メタデータ) (2023-05-13T11:28:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。