論文の概要: AtlasOCR: Building the First Open-Source Darija OCR Model with Vision Language Models
- arxiv url: http://arxiv.org/abs/2604.08070v1
- Date: Thu, 09 Apr 2026 10:38:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-10 18:34:05.86545
- Title: AtlasOCR: Building the First Open-Source Darija OCR Model with Vision Language Models
- Title(参考訳): AtlasOCR:ビジョン言語モデルによる初のオープンソースDarija OCRモデルの構築
- Authors: Imane Momayiz, Soufiane Ait Elaouad, Abdeljalil Elmajjodi, Haitame Bouanane,
- Abstract要約: モロッコのアラビア方言であるダリヤは視覚コンテンツに富んでいるが、特殊な光学文字認識(OCR)ツールが欠けている。
本稿では,3Bパラメータビジョン言語モデル(VLM)を微調整して構築した,最初のオープンソースDarija OCRモデルであるAtlasOCRを紹介する。
- 参考スコア(独自算出の注目度): 0.11217533312318166
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Darija, the Moroccan Arabic dialect, is rich in visual content yet lacks specialized Optical Character Recognition (OCR) tools. This paper introduces AtlasOCR, the first open-source Darija OCR model built by fine-tuning a 3B parameter Vision Language Model (VLM). We detail our comprehensive approach, from curating a unique Darija-specific dataset leveraging both synthetic generation with our OCRSmith library and carefully sourced real-world data, to implementing efficient fine-tuning strategies. We utilize QLoRA and Unsloth for parameter-efficient training of Qwen2.5-VL 3B and present comprehensive ablation studies optimizing key hyperparameters. Our evaluation on the newly curated AtlasOCRBench and the established KITAB-Bench demonstrates state-of-the-art performance, challenging larger models and highlighting AtlasOCR's robustness and generalization capabilities for both Darija and standard Arabic OCR tasks.
- Abstract(参考訳): モロッコのアラビア方言であるダリヤは視覚コンテンツに富んでいるが、特殊な光学文字認識(OCR)ツールが欠けている。
本稿では,3Bパラメータビジョン言語モデル(VLM)を微調整して構築した,最初のオープンソースDarija OCRモデルであるAtlasOCRを紹介する。
我々は、OCRSmithライブラリと注意深くソースした実世界のデータの両方を利用して独自のDarija固有のデータセットをキュレートすることから、効率的な微調整戦略を実装することまで、包括的なアプローチについて詳述する。
我々はQwen2.5-VL 3Bのパラメータ効率訓練にQLoRAとUnslothを用い,鍵ハイパーパラメータを最適化する包括的アブレーション研究を行った。
新たにキュレートされたAtlasOCRBenchとKITAB-Benchに対する評価は、最先端の性能を示し、より大きなモデルに挑戦し、Darijaタスクと標準アラビアOCRタスクの両方に対してAtlasOCRの堅牢性と一般化能力を強調している。
関連論文リスト
- FireRed-OCR Technical Report [30.019999826760003]
本稿では,汎用VLMを専門家を解析するピクセル精度構造文書に変換するフレームワークFireRed-OCRを紹介する。
高品質な構造化データの不足に対処するため,Geometry + Semantics's Data Factoryを構築した。
本稿では,画素レベルの認識から論理構造生成へモデルを導く三段階プログレッシブトレーニング戦略を提案する。
論文 参考訳(メタデータ) (2026-03-02T13:19:23Z) - HunyuanOCR Technical Report [28.160663178408864]
HunyuanOCRは、OCRタスク専用の商用グレード、オープンソース、軽量(1Bパラメータ)ビジョンランゲージモデル(VLM)である。
認識タスク(テキストスポッティング、パーシング)における現在の公開ソリューションを超え、セマンティックタスク(IE、テキスト画像翻訳)において優れています。
3Bパラメータ未満のVLMのうち、OCRBenchのSOTA(State-of-the-art)結果が得られる。
論文 参考訳(メタデータ) (2025-11-24T17:59:59Z) - Baseer: A Vision-Language Model for Arabic Document-to-Markdown OCR [1.7590081165362783]
本稿では,アラビア語文書OCR用に微調整された視覚言語モデルであるBaseerを紹介する。
合成と実世界のドキュメントを組み合わせた大規模なデータセットを活用することで、Baseerはデコーダのみの微調整戦略を使用してトレーニングされる。
実験の結果,Baseer は既存のオープンソースおよび商用ソリューションを著しく上回り,WER は 0.25 であることがわかった。
論文 参考訳(メタデータ) (2025-09-17T15:07:29Z) - DianJin-OCR-R1: Enhancing OCR Capabilities via a Reasoning-and-Tool Interleaved Vision-Language Model [9.557159109747372]
大型視覚言語モデル(LVLM)は、入力画像に存在しない単語を生成する幻覚を引き起こす傾向がある。
DianJin-OCR-R1は、ドメイン固有のデータセットに基づいて訓練された推論とツールをインターリーブしたVLMである。
論文 参考訳(メタデータ) (2025-08-18T03:28:57Z) - OCRBench: On the Hidden Mystery of OCR in Large Multimodal Models [122.27878464009181]
テキスト関連視覚タスクにおいて, GPT4V や Gemini などの大規模マルチモーダルモデルの包括的評価を行った。
OCRBenchには29のデータセットがあり、最も包括的なOCR評価ベンチマークが利用できる。
論文 参考訳(メタデータ) (2023-05-13T11:28:37Z) - Neural Model Reprogramming with Similarity Based Mapping for
Low-Resource Spoken Command Recognition [71.96870151495536]
低リソース音声コマンド認識(SCR)のための新しいAR手法を提案する。
ARプロシージャは、(対象領域から)音響信号を修正して、事前訓練されたSCRモデルを再利用することを目的としている。
提案したAR-SCRシステムについて,アラビア語,リトアニア語,マンダリン語を含む3つの低リソースSCRデータセットを用いて評価した。
論文 参考訳(メタデータ) (2021-10-08T05:07:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。