論文の概要: FireRed-OCR Technical Report
- arxiv url: http://arxiv.org/abs/2603.01840v1
- Date: Mon, 02 Mar 2026 13:19:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-03 19:50:56.885359
- Title: FireRed-OCR Technical Report
- Title(参考訳): FireRed-OCR技術報告
- Authors: Hao Wu, Haoran Lou, Xinyue Li, Zuodong Zhong, Zhaojun Sun, Phellon Chen, Xuanhe Zhou, Kai Zuo, Yibo Chen, Xu Tang, Yao Hu, Boxiang Zhou, Jian Wu, Yongji Wu, Wenxin Yu, Yingmiao Liu, Yuhao Huang, Manjie Xu, Gang Liu, Yidong Ma, Zhichao Sun, Changhao Qiao,
- Abstract要約: 本稿では,汎用VLMを専門家を解析するピクセル精度構造文書に変換するフレームワークFireRed-OCRを紹介する。
高品質な構造化データの不足に対処するため,Geometry + Semantics's Data Factoryを構築した。
本稿では,画素レベルの認識から論理構造生成へモデルを導く三段階プログレッシブトレーニング戦略を提案する。
- 参考スコア(独自算出の注目度): 30.019999826760003
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present FireRed-OCR, a systematic framework to specialize general VLMs into high-performance OCR models. Large Vision-Language Models (VLMs) have demonstrated impressive general capabilities but frequently suffer from ``structural hallucination'' when processing complex documents, limiting their utility in industrial OCR applications. In this paper, we introduce FireRed-OCR, a novel framework designed to transform general-purpose VLMs (based on Qwen3-VL) into pixel-precise structural document parsing experts. To address the scarcity of high-quality structured data, we construct a ``Geometry + Semantics'' Data Factory. Unlike traditional random sampling, our pipeline leverages geometric feature clustering and multi-dimensional tagging to synthesize and curate a highly balanced dataset, effectively handling long-tail layouts and rare document types. Furthermore, we propose a Three-Stage Progressive Training strategy that guides the model from pixel-level perception to logical structure generation. This curriculum includes: (1) Multi-task Pre-alignment to ground the model's understanding of document structure; (2) Specialized SFT for standardizing full-image Markdown output; and (3) Format-Constrained Group Relative Policy Optimization (GRPO), which utilizes reinforcement learning to enforce strict syntactic validity and structural integrity (e.g., table closure, formula syntax). Extensive evaluations on OmniDocBench v1.5 demonstrate that FireRed-OCR achieves state-of-the-art performance with an overall score of 92.94\%, significantly outperforming strong baselines such as DeepSeek-OCR 2 and OCRVerse across text, formula, table, and reading order metrics. We open-source our code and model weights to facilitate the ``General VLM to Specialized Structural Expert'' paradigm.
- Abstract(参考訳): 我々は、一般的なVLMを高性能なOCRモデルに特化するための体系的なフレームワークFireRed-OCRを提案する。
VLM(Large Vision-Language Models)は、複雑なドキュメントを処理する際に「構造幻覚」に悩まされることが多いが、産業用OCRアプリケーションでの利用を制限している。
本稿では,汎用VLM(Qwen3-VLに基づく)を画素精度で解析可能な構造文書に変換するための新しいフレームワークであるFireRed-OCRを紹介する。
高品質な構造化データの不足に対処するため、我々は ``Geometry + Semantics'' のデータファクトリを構築した。
従来のランダムサンプリングとは異なり、我々のパイプラインは幾何学的特徴クラスタリングと多次元タグ付けを利用して、高度にバランスのとれたデータセットを合成し、キュレートし、長いテールレイアウトと稀なドキュメントタイプを効果的に扱う。
さらに,画素レベルの認識から論理構造生成へモデルを導く三段階プログレッシブトレーニング戦略を提案する。
本カリキュラムは,(1)モデルの文書構造理解の基盤となるマルチタスク事前調整,(2)フルイメージマークダウン出力の標準化のための特別SFT,(3)強化学習を利用して厳密な構文的妥当性と構造的整合性(例えば,表のクロージャ,公式構文)を強制するフォーマト制約群相対的ポリシー最適化(GRPO)を含む。
OmniDocBench v1.5の大規模な評価によると、FireRed-OCRは92.94\%のスコアで最先端のパフォーマンスを達成し、テキスト、公式、テーブル、読み込み順序のメトリクスでDeepSeek-OCR 2やOCRVerseといった強力なベースラインをはるかに上回っている。
当社はコードとモデルウェイトをオープンソースとして公開し、 ``General VLM to Specialized Structure Expert'' パラダイムを促進する。
関連論文リスト
- Training-Free Acceleration for Document Parsing Vision-Language Model with Hierarchical Speculative Decoding [102.88996030431662]
本稿では,文書解析タスクの学習自由かつ高効率な高速化手法を提案する。
投機的復号化にインスパイアされた私たちは、将来のトークンのバッチを予測するために、ドラフトモデルとして軽量な文書解析パイプラインを使用します。
汎用OmniDocBenchに対するアプローチの有効性を示す。
論文 参考訳(メタデータ) (2026-02-13T14:22:10Z) - Reading or Reasoning? Format Decoupled Reinforcement Learning for Document OCR [19.56202762840295]
本研究では, 高度なOCRモデルであっても, テキストのエントロピーが極めて高いことを観察する。
ターゲット最適化に高エントロピーパターンを利用する形式分離強化学習(FD-RL)を提案する。
FD-RLはOmniDocBenchの平均スコア90.41に達し、この非常に人気のあるベンチマークでエンドツーエンドモデルの新記録を樹立した。
論文 参考訳(メタデータ) (2025-12-11T12:24:45Z) - HunyuanOCR Technical Report [28.160663178408864]
HunyuanOCRは、OCRタスク専用の商用グレード、オープンソース、軽量(1Bパラメータ)ビジョンランゲージモデル(VLM)である。
認識タスク(テキストスポッティング、パーシング)における現在の公開ソリューションを超え、セマンティックタスク(IE、テキスト画像翻訳)において優れています。
3Bパラメータ未満のVLMのうち、OCRBenchのSOTA(State-of-the-art)結果が得られる。
論文 参考訳(メタデータ) (2025-11-24T17:59:59Z) - MonkeyOCR v1.5 Technical Report: Unlocking Robust Document Parsing for Complex Patterns [80.05126590825121]
MonkeyOCR v1.5は、レイアウト理解とコンテンツ認識の両方を強化する統合ビジョン言語フレームワークである。
複雑なテーブル構造に対処するために,視覚的整合性に基づく強化学習手法を提案する。
2つの特別なモジュール、Image-Decoupled Table ParsingとType-Guided Table Mergingを導入し、テーブルの信頼性の高いパースを可能にする。
論文 参考訳(メタデータ) (2025-11-13T15:12:17Z) - Automated Invoice Data Extraction: Using LLM and OCR [0.0]
この研究は、OCR、ディープラーニング、LLM(Large Language Models)、グラフ分析を組み合わせた総合人工知能(AI)プラットフォームを導入し、前例のない抽出品質と一貫性を実現する。
論文 参考訳(メタデータ) (2025-11-01T19:05:09Z) - Scaling Beyond Context: A Survey of Multimodal Retrieval-Augmented Generation for Document Understanding [61.36285696607487]
文書理解は、財務分析から科学的発見への応用に不可欠である。
現在のアプローチでは、OCRベースのパイプラインがLarge Language Models(LLM)やネイティブのMultimodal LLMs(MLLM)に制限されている。
Retrieval-Augmented Generation (RAG)は、外部データの基底モデルを支援するが、文書のマルチモーダルな性質は、テキスト、テーブル、チャート、レイアウトを組み合わせることで、より高度なパラダイムを必要とする。
論文 参考訳(メタデータ) (2025-10-17T02:33:16Z) - Table2LaTeX-RL: High-Fidelity LaTeX Code Generation from Table Images via Reinforced Multimodal Language Models [53.03670032402846]
視覚的な入力から,高品質で出版可能なテーブルの再構築を自動化することを目的として,表画像からコード生成への課題に対処する。
このタスクの中心的な課題は、大きなサイズ、深くネストされた構造、セマンティックにリッチか不規則かという複雑なテーブルを正確に扱うことである。
本稿では,大規模テーブル・トゥ・ラデータセット上で事前学習したMLLMを微調整する,強化型マルチモーダル大規模言語モデル(MLLM)を提案する。
論文 参考訳(メタデータ) (2025-09-22T11:13:48Z) - VISTA-OCR: Towards generative and interactive end to end OCR models [3.7548609506798494]
VISTA-OCRは、単一の生成モデル内でテキストの検出と認識を統合する軽量アーキテクチャである。
エンコーダ-デコーダアーキテクチャに基づいて構築されたVISTA-OCRは、視覚的特徴抽出フェーズから始まり、徐々に訓練される。
モデルの性能を高めるために、バウンディングボックスアノテーションと合成サンプルで強化された実世界のサンプルからなる新しいデータセットを構築した。
論文 参考訳(メタデータ) (2025-04-04T17:39:53Z) - OmniParser V2: Structured-Points-of-Thought for Unified Visual Text Parsing and Its Generality to Multimodal Large Language Models [58.45517851437422]
VsTP(Visually-situated text parsing)は、自動化された文書理解の需要が高まり、最近顕著な進歩を遂げている。
既存のソリューションは、タスク固有のアーキテクチャと個々のタスクの目的に依存していることが多い。
本稿では,テキストスポッティング,キー情報抽出,テーブル認識,レイアウト解析など,VsTPの典型的なタスクを統一する汎用モデルであるOmni V2を紹介する。
論文 参考訳(メタデータ) (2025-02-22T09:32:01Z) - Long Document Summarization with Top-down and Bottom-up Inference [113.29319668246407]
本稿では、2つの側面の要約モデルを改善するための原則的推論フレームワークを提案する。
我々のフレームワークは、トップレベルが長距離依存性をキャプチャするドキュメントの階層的な潜在構造を前提としています。
本稿では,様々な要約データセットに対して提案手法の有効性を示す。
論文 参考訳(メタデータ) (2022-03-15T01:24:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。