論文の概要: DianJin-OCR-R1: Enhancing OCR Capabilities via a Reasoning-and-Tool Interleaved Vision-Language Model
- arxiv url: http://arxiv.org/abs/2508.13238v2
- Date: Thu, 04 Sep 2025 08:05:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-05 14:03:58.988626
- Title: DianJin-OCR-R1: Enhancing OCR Capabilities via a Reasoning-and-Tool Interleaved Vision-Language Model
- Title(参考訳): DianJin-OCR-R1:Reasoning-and-Tool Interleaved Vision-Language ModelによるOCR機能向上
- Authors: Qian Chen, Xianyin Zhang, Lifan Guo, Feng Chen, Chi Zhang,
- Abstract要約: 大型視覚言語モデル(LVLM)は、入力画像に存在しない単語を生成する幻覚を引き起こす傾向がある。
DianJin-OCR-R1は、ドメイン固有のデータセットに基づいて訓練された推論とツールをインターリーブしたVLMである。
- 参考スコア(独自算出の注目度): 9.557159109747372
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Recent advances in large vision-language models (LVLMs) have enabled a new paradigm of end-to-end document image parsing, excelling in Optical Character Recognition (OCR) tasks such as text, table, and formula recognition. However, generative LVLMs, similarly to large language models (LLMs), are prone to hallucinations--generating words that do not exist in input images. Furthermore, LVLMs are designed for general purposes and tend to be less effective on OCR tasks compared to expert models that are trained on domain-specific datasets. In this paper, we propose DianJin-OCR-R1, a reasoning-enhanced framework designed to address these limitations through training reasoning-and-tool interleaved VLMs. Given a recognition instruction, our DianJin-OCR-R1 model first recognizes the content in the input image by its own OCR capabilities, and then calls other tools (i.e., other expert models) to obtain their results as references, finally "looks again" the image and rethinks about the reasoning process to provide the final recognized content. Since architectures of expert models are tailored for specific OCR tasks, which makes them less prone to hallucinations, their results can help VLMs mitigate hallucinations. We evaluate our model on ReST and OmniDocBench, and experimental results show that our DianJin-OCR-R1 models consistently outperform their non-reasoning counterparts and expert OCR models, which proves the effectiveness of our method. Additionally, the results indicate that enhancing expert models, which are typically small and easy to iterate, enable performance improvements for VLMs.
- Abstract(参考訳): 大規模視覚言語モデル(LVLM)の最近の進歩により、テキスト、表、公式認識などの光学文字認識(OCR)タスクに優れたエンドツーエンドの文書画像解析の新しいパラダイムが実現された。
しかし、LVLMは、大型言語モデル(LLM)と同様に、入力画像に存在しない幻覚生成語が生じる傾向にある。
さらに、LVLMは一般的な目的のために設計されており、ドメイン固有のデータセットで訓練されたエキスパートモデルに比べてOCRタスクでは効果が低い傾向にある。
本稿では,DianJin-OCR-R1を提案する。
認識命令を与えられたDianJin-OCR-R1モデルは、まず入力画像の内容を独自のOCR機能で認識し、その後、他のツール(例えば、他のエキスパートモデル)を呼び出して、結果を参照として取得し、最終的に画像を見て、最終的な認識されたコンテンツを提供するための推論プロセスについて再考する。
専門家モデルのアーキテクチャは特定のOCRタスク用に調整されているため、幻覚の傾向が小さくなるため、VLMが幻覚を緩和するのに役立ちます。
我々は、ReSTとOmniDocBenchのモデルを評価し、実験結果により、我々のDianJin-OCR-R1モデルは、その非推論モデルと専門家OCRモデルより一貫して優れており、この手法の有効性が証明されている。
さらに、通常は小さくてイテレーションが容易なエキスパートモデルの強化は、VLMの性能改善を可能にすることを示唆している。
関連論文リスト
- Improving MLLM's Document Image Machine Translation via Synchronously Self-reviewing Its OCR Proficiency [31.095908827004695]
MLLM(Multimodal Large Language Models)は,文書画像タスクにおいて高い性能を示す。
彼らはDocument Image Machine Translation (DIMT)と闘っている。
我々は,「バイリンガル認知アドバンテージ」の概念に触発されて,SSR(Synchronously Self-Reviewing)という新たな微調整パラダイムを導入した。
論文 参考訳(メタデータ) (2025-07-11T05:02:06Z) - VISTA-OCR: Towards generative and interactive end to end OCR models [3.7548609506798494]
VISTA-OCRは、単一の生成モデル内でテキストの検出と認識を統合する軽量アーキテクチャである。
エンコーダ-デコーダアーキテクチャに基づいて構築されたVISTA-OCRは、視覚的特徴抽出フェーズから始まり、徐々に訓練される。
モデルの性能を高めるために、バウンディングボックスアノテーションと合成サンプルで強化された実世界のサンプルからなる新しいデータセットを構築した。
論文 参考訳(メタデータ) (2025-04-04T17:39:53Z) - CoLLM: A Large Language Model for Composed Image Retrieval [76.29725148964368]
Composed Image Retrieval (CIR)は、マルチモーダルクエリに基づいた画像検索を目的とした複雑なタスクである。
本稿では,イメージキャプションペアからトリプレットをオンザフライで生成するワンストップフレームワークであるCoLLMを提案する。
我々はLarge Language Models (LLMs) を利用して参照画像の埋め込みと修正テキストを生成する。
論文 参考訳(メタデータ) (2025-03-25T17:59:50Z) - OpenVLThinker: Complex Vision-Language Reasoning via Iterative SFT-RL Cycles [91.88062410741833]
我々はOpenVLThinkerを紹介した。OpenVLThinkerはオープンソースの大規模視覚言語モデル(LVLM)の1つである。
OpenVLThinker-7Bは、数学的および一般的な推論を必要とする6つのベンチマークで一貫して性能を向上することを示す。
論文 参考訳(メタデータ) (2025-03-21T17:52:43Z) - Visual Delta Generator with Large Multi-modal Models for Semi-supervised Composed Image Retrieval [50.72924579220149]
Composed Image Retrieval (CIR)は、提供されるテキスト修正に基づいて、クエリに似たイメージを取得するタスクである。
現在の技術は、基準画像、テキスト、ターゲット画像のラベル付き三重項を用いたCIRモデルの教師あり学習に依存している。
本稿では,参照とその関連対象画像を補助データとして検索する半教師付きCIR手法を提案する。
論文 参考訳(メタデータ) (2024-04-23T21:00:22Z) - Mixed Text Recognition with Efficient Parameter Fine-Tuning and Transformer [12.966765239586994]
本稿では,事前学習したOCR変換器に基づくパラメータ効率の高いハイブリッドテキストスポッティング手法であるDLoRA-TrOCRを提案する。
重み分解されたDoRAモジュールを画像エンコーダに、LoRAモジュールをテキストデコーダに埋め込むことで、様々な下流タスクを効率的に微調整することができる。
実験により,提案したDLoRA-TrOCRは,手書き,印刷,ストリートテキストを混合した複雑なシーン認識において,他のパラメータ効率の高い微調整手法よりも優れていた。
論文 参考訳(メタデータ) (2024-04-19T09:28:16Z) - Vision-by-Language for Training-Free Compositional Image Retrieval [78.60509831598745]
合成画像検索(CIR)は、データベース内の関連する対象画像を検索することを目的としている。
大規模視覚言語モデル(VLM)を用いた最近の研究動向
我々は、CIReVL(Vision-by-Language)による学習自由なCIRへの取り組みを提案する。
論文 参考訳(メタデータ) (2023-10-13T17:59:38Z) - Retrieval-Enhanced Contrastive Vision-Text Models [61.783728119255365]
そこで本研究では,メモリから取得したクロスモーダルな情報を推論時に表現することで,その埋め込みを洗練できる視覚テキストモデルを提案する。
注目すべきことに、これは凍ったCLIPの上に軽量の単層核融合トランスを用いて行うことができる。
検索強化コントラスト訓練(RECO)がCLIPの性能を大幅に向上することを示す。
論文 参考訳(メタデータ) (2023-06-12T15:52:02Z) - Donut: Document Understanding Transformer without OCR [17.397447819420695]
我々は,OCRフレームワークを基盤にすることなく,エンドツーエンドのトレーニングが可能な新しいVDUモデルを提案する。
提案手法は,公開ベンチマークデータセットとプライベート産業サービスデータセットの各種文書理解タスクにおける最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2021-11-30T18:55:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。