論文の概要: QARI-OCR: High-Fidelity Arabic Text Recognition through Multimodal Large Language Model Adaptation
- arxiv url: http://arxiv.org/abs/2506.02295v1
- Date: Mon, 02 Jun 2025 22:21:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-05 01:42:09.37666
- Title: QARI-OCR: High-Fidelity Arabic Text Recognition through Multimodal Large Language Model Adaptation
- Title(参考訳): QARI-OCR:多モーダル大言語モデル適応による高忠実アラビア語テキスト認識
- Authors: Ahmed Wasfy, Omer Nacar, Abdelakreem Elkhateb, Mahmoud Reda, Omar Elshehy, Adel Ammar, Wadii Boulila,
- Abstract要約: 本稿では、アラビア語に段階的に最適化された視覚言語モデルであるQari-OCRを紹介する。
Qari-OCRは、ワード誤り率(WER)0.0160、文字誤り率(CER)0.061、BLEUスコア0.737の新たなオープンソースステート・オブ・ザ・アートを確立している。
- 参考スコア(独自算出の注目度): 0.8944616102795021
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: The inherent complexities of Arabic script; its cursive nature, diacritical marks (tashkeel), and varied typography, pose persistent challenges for Optical Character Recognition (OCR). We present Qari-OCR, a series of vision-language models derived from Qwen2-VL-2B-Instruct, progressively optimized for Arabic through iterative fine-tuning on specialized synthetic datasets. Our leading model, QARI v0.2, establishes a new open-source state-of-the-art with a Word Error Rate (WER) of 0.160, Character Error Rate (CER) of 0.061, and BLEU score of 0.737 on diacritically-rich texts. Qari-OCR demonstrates superior handling of tashkeel, diverse fonts, and document layouts, alongside impressive performance on low-resolution images. Further explorations (QARI v0.3) showcase strong potential for structural document understanding and handwritten text. This work delivers a marked improvement in Arabic OCR accuracy and efficiency, with all models and datasets released to foster further research.
- Abstract(参考訳): アラビア文字の本質的な複雑さ、そのカール性、ダイアクリティカルマーク(タシュケル)、そして様々なタイポグラフィーは、光学文字認識(OCR)に永続的な課題をもたらす。
本稿では,Qwen2-VL-2B-Instructから派生した視覚言語モデルであるQari-OCRについて述べる。
我々の指導的モデルであるQARI v0.2は、ワード誤り率0.160、文字誤り率0.061、BLEUスコア0.737の新たなオープンソース・オブ・ザ・アートを確立している。
Qari-OCRは、タシュキール、多種多様なフォント、文書レイアウトの優れたハンドリングと、低解像度画像における印象的なパフォーマンスを実証している。
さらなる調査 (QARI v0.3) は、構造文書の理解と手書きテキストに対する強い可能性を示している。
この研究はアラビア語のOCR精度と効率を大幅に改善し、さらなる研究を促進するためにすべてのモデルとデータセットがリリースされた。
関連論文リスト
- SARD: A Large-Scale Synthetic Arabic OCR Dataset for Book-Style Text Recognition [0.995313069446686]
SARDは、書籍スタイルのドキュメントをシミュレートするための、大規模で合成的に生成されたデータセットである。
6億9千万の単語を含む843,622の文書画像からなり、10の異なるアラビア語のフォントに散らばって、タイポグラフィーのカバー範囲を広く確保している。
スキャンされた文書から得られたデータセットとは異なり、SARDは現実世界のノイズや歪みをなくし、モデルトレーニングのためのクリーンで制御された環境を提供する。
論文 参考訳(メタデータ) (2025-05-30T13:47:54Z) - PsOCR: Benchmarking Large Multimodal Models for Optical Character Recognition in Low-resource Pashto Language [2.1540520105079697]
我々はPashto OCRデータセット(PsOCR)を開発し、単語、行、文書レベルで境界ボックスを付加した100万枚の画像からなる。
PsOCRは1000種類のフォントファミリ、色、画像サイズ、レイアウトをカバーしている。
7つのオープンソースモデルを含む複数のLMMの性能を評価するため、10K画像のベンチマークサブセットが選択された。
Geminiはすべてのモデルの中で最高のパフォーマンスを達成しているが、オープンソースモデルではQwen-7Bが際立っている。
論文 参考訳(メタデータ) (2025-05-15T07:58:38Z) - KITAB-Bench: A Comprehensive Multi-Domain Benchmark for Arabic OCR and Document Understanding [24.9462694200992]
KITAB-Benchは、現在の評価システムのギャップを埋める包括的なアラビアOCRベンチマークである。
現代の視覚言語モデル(GPT-4、Gemini、Qwenなど)は、従来のOCRアプローチを平均60%の文字誤り率(CER)で上回っている。
本研究はアラビア文書分析手法の改良を促進するための厳格な評価枠組みを確立する。
論文 参考訳(メタデータ) (2025-02-20T18:41:23Z) - Detecting Document-level Paraphrased Machine Generated Content: Mimicking Human Writing Style and Involving Discourse Features [57.34477506004105]
機械生成コンテンツは、学術プラジャリズムや誤報の拡散といった課題を提起する。
これらの課題を克服するために、新しい方法論とデータセットを導入します。
人間の筆記スタイルをエミュレートするエンコーダデコーダモデルであるMhBARTを提案する。
また,PDTB前処理による談話解析を統合し,構造的特徴を符号化するモデルであるDTransformerを提案する。
論文 参考訳(メタデータ) (2024-12-17T08:47:41Z) - Arabic Handwritten Document OCR Solution with Binarization and Adaptive Scale Fusion Detection [1.1655046053160683]
テキスト行の正確な検出を保証するために,ラインセグメンテーションとAdaptive Scale Fusion技術から始まる完全なOCRパイプラインを提案する。
我々のシステムはアラビア多言語データセットに基づいて訓練され、7文字から10文字の単語サンプルに対して99.20%の文字認識率(CRR)と93.75%の単語認識率(WRR)を達成する。
論文 参考訳(メタデータ) (2024-12-02T15:21:09Z) - Qalam : A Multimodal LLM for Arabic Optical Character and Handwriting Recognition [18.280762424107408]
本研究はアラビア語 OCR と HWR 向けに設計された新しい基礎モデルである Qalam を紹介する。
提案手法は,HWRタスクが0.80%,OCRタスクが1.18%のワード誤り率(WER)を達成し,既存の手法よりも優れていた。
論文 参考訳(メタデータ) (2024-07-18T14:31:09Z) - Exploring Precision and Recall to assess the quality and diversity of LLMs [82.21278402856079]
我々はtextscLlama-2 や textscMistral のような大規模言語モデル (LLM) のための新しい評価フレームワークを提案する。
このアプローチにより、コーパスの整合を必要とせず、生成したテキストの品質と多様性を微妙に評価できる。
論文 参考訳(メタデータ) (2024-02-16T13:53:26Z) - OCRBench: On the Hidden Mystery of OCR in Large Multimodal Models [122.27878464009181]
テキスト関連視覚タスクにおいて, GPT4V や Gemini などの大規模マルチモーダルモデルの包括的評価を行った。
OCRBenchには29のデータセットがあり、最も包括的なOCR評価ベンチマークが利用できる。
論文 参考訳(メタデータ) (2023-05-13T11:28:37Z) - Scaling Autoregressive Models for Content-Rich Text-to-Image Generation [95.02406834386814]
Partiは、テキスト・ツー・イメージ生成をシーケンス・ツー・シーケンス・モデリング問題として扱う。
PartiはTransformerベースの画像トークンライザViT-VQGANを使用して、画像を離散トークンのシーケンスとしてエンコードする。
PartiPrompts (P2)は1600以上の英語のプロンプトの総合的なベンチマークである。
論文 参考訳(メタデータ) (2022-06-22T01:11:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。