論文の概要: OCRVerse: Towards Holistic OCR in End-to-End Vision-Language Models
- arxiv url: http://arxiv.org/abs/2601.21639v2
- Date: Wed, 04 Feb 2026 12:53:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-05 15:07:33.598523
- Title: OCRVerse: Towards Holistic OCR in End-to-End Vision-Language Models
- Title(参考訳): OCRVerse: エンド・ツー・エンド視覚言語モデルにおけるホロスティックなOCRを目指して
- Authors: Yufeng Zhong, Lei Chen, Xuanle Zhao, Wenkang Han, Liming Zheng, Jing Huang, Deyang Jiang, Yilin Cao, Lin Ma, Zhixiong Zeng,
- Abstract要約: OCRVerseは、テキスト中心のOCRと視覚中心のOCRを統一する、エンドツーエンドで最初の総合的なOCR手法である。
我々は、広範囲のテキスト中心のドキュメントと、チャート、Webページ、科学的なプロットを含む視覚中心のレンダリングコンポジットをカバーするために、包括的データエンジニアリングを構築します。
- 参考スコア(独自算出の注目度): 13.375954596561469
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The development of large vision language models drives the demand for managing, and applying massive amounts of multimodal data, making OCR technology, which extracts information from visual images, increasingly popular. However, existing OCR methods primarily focus on recognizing text elements from images or scanned documents (Text-centric OCR), neglecting the identification of visual elements from visually information-dense image sources (Vision-centric OCR), such as charts, web pages and science plots. In reality, these visually information-dense images are widespread on the internet and have significant real-world application value, such as data visualization and web page analysis. In this technical report, we propose OCRVerse, the first holistic OCR method in end-to-end manner that enables unified text-centric OCR and vision-centric OCR. To this end, we constructe comprehensive data engineering to cover a wide range of text-centric documents, such as newspapers, magazines and books, as well as vision-centric rendered composites, including charts, web pages and scientific plots. Moreover, we propose a two-stage SFT-RL multi-domain training method for OCRVerse. SFT directly mixes cross-domain data to train and establish initial domain knowledge, while RL focuses on designing personalized reward strategies for the characteristics of each domain. Specifically, since different domains require various output formats and expected outputs, we provide sufficient flexibility in the RL stage to customize flexible reward signals for each domain, thereby improving cross-domain fusion and avoiding data conflicts. Experimental results demonstrate the effectiveness of OCRVerse, achieving competitive results across text-centric and vision-centric data types, even comparable to large-scale open-source and closed-source models.
- Abstract(参考訳): 大規模な視覚言語モデルの開発は、大量のマルチモーダルデータの管理と適用の需要を加速させ、視覚画像から情報を抽出するOCR技術が人気を博している。
しかし、既存のOCR法は主に画像やスキャンされた文書(テキスト中心のOCR)からのテキスト要素の認識に重点を置いており、図表、Webページ、サイエンスプロットなどの視覚的情報密度の画像ソース(視覚中心のOCR)からの視覚要素の識別を無視している。
実際には、これらの視覚的な情報密度の画像はインターネットに広まっており、データ可視化やWebページ分析など、現実世界のアプリケーション価値がかなり高い。
本技術報告では,テキスト中心のOCRと視覚中心のOCRを統一する,エンドツーエンドで初の総合的なOCR手法であるOCRVerseを提案する。
この目的のために、我々は総合的なデータ工学を構築し、新聞、雑誌、書籍などの幅広いテキスト中心の文書や、図表、ウェブページ、科学的プロットを含む視覚中心の描画複合物を網羅する。
さらに,OCRVerseの2段階SFT-RLマルチドメイントレーニング手法を提案する。
SFTはクロスドメインデータを直接混ぜて、最初のドメイン知識をトレーニングし確立し、RLは各ドメインの特徴に対してパーソナライズされた報酬戦略を設計することに焦点を当てる。
具体的には、異なるドメインが様々な出力フォーマットと期待出力を必要とするため、各ドメインに対して柔軟な報酬信号をカスタマイズするRLステージに十分な柔軟性を提供し、ドメイン間の融合を改善し、データ衝突を回避する。
実験の結果、OCRVerseの有効性が示され、テキスト中心およびビジョン中心のデータタイプ間で競合する結果が得られ、大規模なオープンソースモデルやクローズドソースモデルに匹敵する。
関連論文リスト
- When Text-as-Vision Meets Semantic IDs in Generative Recommendation: An Empirical Study [48.67151986743594]
テキストを視覚信号として扱うことでセマンティックID学習の表現設計を再考する。
項目記述を画像に描画することで得られるOCRに基づくテキスト表現の体系的な実証的研究を行う。
OCR-text は, セマンティックID 学習における標準テキスト埋め込みと一意に一致しているか, 上回っていることがわかった。
論文 参考訳(メタデータ) (2026-01-21T06:18:57Z) - Exploring a Unified Vision-Centric Contrastive Alternatives on Multi-Modal Web Documents [99.62178668680578]
本稿では,単一の視覚変換器を用いてテキスト,画像,それらの組み合わせをモデル化する統合フレームワークであるビジョン中心コントラスト学習(VC2L)を提案する。
VC2Lは完全にピクセル空間で動作し、テキスト、ビジュアル、または組み合わせのいずれでも、すべての入力を画像として描画する。
ウェブ文書における複雑なクロスモーダル関係を捉えるため、VC2Lは連続するマルチモーダルセグメントを整列するスニペットレベルのコントラスト学習目標を採用している。
論文 参考訳(メタデータ) (2025-10-21T14:59:29Z) - VISTA-OCR: Towards generative and interactive end to end OCR models [3.7548609506798494]
VISTA-OCRは、単一の生成モデル内でテキストの検出と認識を統合する軽量アーキテクチャである。
エンコーダ-デコーダアーキテクチャに基づいて構築されたVISTA-OCRは、視覚的特徴抽出フェーズから始まり、徐々に訓練される。
モデルの性能を高めるために、バウンディングボックスアノテーションと合成サンプルで強化された実世界のサンプルからなる新しいデータセットを構築した。
論文 参考訳(メタデータ) (2025-04-04T17:39:53Z) - See then Tell: Enhancing Key Information Extraction with Vision Grounding [32.445618057103324]
STNet(See then Tell Net)は、視覚基盤の正確な答えを提供するために設計された、新しいエンドツーエンドモデルである。
モデルの可視性を高めるため、広範囲に構造化されたテーブル認識データセットを収集する。
提案手法は,KIE性能の大幅な向上を実証し,公開データセットの最先端化を実現している。
論文 参考訳(メタデータ) (2024-09-29T06:21:05Z) - VisFocus: Prompt-Guided Vision Encoders for OCR-Free Dense Document Understanding [18.609441902943445]
VisFocusは、視覚エンコーダのキャパシティを言語プロンプトと直接結合することにより、OCRフリーな手法である。
視覚的エンコーダに入力された文書テキストのスニペットに言語マスキングを用いて,アーキテクチャ拡張と新たな事前学習タスクを組み合わせた。
我々の実験は、このプロンプト誘導型視覚符号化アプローチが性能を著しく向上させることを示した。
論文 参考訳(メタデータ) (2024-07-17T14:16:46Z) - OCRBench: On the Hidden Mystery of OCR in Large Multimodal Models [122.27878464009181]
テキスト関連視覚タスクにおいて, GPT4V や Gemini などの大規模マルチモーダルモデルの包括的評価を行った。
OCRBenchには29のデータセットがあり、最も包括的なOCR評価ベンチマークが利用できる。
論文 参考訳(メタデータ) (2023-05-13T11:28:37Z) - One-shot Key Information Extraction from Document with Deep Partial
Graph Matching [60.48651298832829]
ドキュメントからキー情報抽出(KIE)は、多くの産業シナリオにおいて効率、生産性、セキュリティを改善する。
KIEタスクのための既存の教師付き学習手法は、多数のラベル付きサンプルを供給し、異なる種類の文書の別々のモデルを学ぶ必要がある。
部分グラフマッチングを用いたワンショットKIEのためのディープエンド・ツー・エンド・トレーニング可能なネットワークを提案する。
論文 参考訳(メタデータ) (2021-09-26T07:45:53Z) - Rethinking Text Line Recognition Models [57.47147190119394]
2つのデコーダファミリー(コネクショニスト時間分類と変換器)と3つのエンコーダモジュール(双方向LSTM、自己認識、GRCL)を考える。
広く使用されているシーンと手書きテキストの公開データセットの精度とパフォーマンスを比較します。
より一般的なTransformerベースのモデルとは異なり、このアーキテクチャは任意の長さの入力を処理できる。
論文 参考訳(メタデータ) (2021-04-15T21:43:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。