論文の概要: GutenOCR: A Grounded Vision-Language Front-End for Documents
- arxiv url: http://arxiv.org/abs/2601.14490v2
- Date: Thu, 22 Jan 2026 18:58:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-23 13:30:18.488728
- Title: GutenOCR: A Grounded Vision-Language Front-End for Documents
- Title(参考訳): GutenOCR: ドキュメントのための接地型視覚言語フロントエンド
- Authors: Hunter Heidenreich, Ben Elliott, Olivia Dinica, Yosheb Getachew,
- Abstract要約: 我々はQwen2.5-VL-3BとQwen2.5-VL-7Bを微調整して得られた接地型OCRフロントエンド群を紹介する。
結果として得られる単一チェックポイントビジョン言語モデルは、読み出し、検出、グラウンド化を、統一されたプロンプトベースのインターフェースを通じて公開する。
グッテンOCR-7Bは,Qwen2.5-VL-7Bバックボーンの複合接地OCRスコアを10.5Kの保留ビジネスページと科学ページの2倍以上に向上させることを示した。
- 参考スコア(独自算出の注目度): 0.42776193697639947
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: GutenOCR is a family of grounded OCR front-ends obtained by fine-tuning Qwen2.5-VL-3B and Qwen2.5-VL-7B. The resulting single-checkpoint vision-language models expose reading, detection, and grounding through a unified, prompt-based interface. Trained on business documents, scientific articles, and synthetic grounding data, the models support full-page and localized reading with line- and paragraph-level bounding boxes and conditional ``where is x?'' queries. We introduce a grounded OCR evaluation protocol and show that GutenOCR-7B more than doubles the composite grounded OCR score of its Qwen2.5-VL-7B backbone on 10.5K held-out business and scientific pages (0.40 to 0.82). On Fox and OmniDocBench v1.5, our approach substantially improves region- and line-level OCR as well as text-detection recall, but reveals trade-offs in page-level linearization, color-guided OCR, and formula-heavy layouts.
- Abstract(参考訳): グテンOCR(GutenOCR)は、Qwen2.5-VL-3BとQwen2.5-VL-7Bを微調整して得られる接地型OCRフロントエンドのファミリーである。
結果として得られる単一チェックポイントビジョン言語モデルは、読み出し、検出、グラウンド化を、統一されたプロンプトベースのインターフェースを通じて公開する。
ビジネス文書、科学論文、および合成グラウンドデータに基づいてトレーニングされたモデルは、行と段落レベルのバウンディングボックスと条件付き '`where is x?'' クエリでフルページおよびローカライズド読書をサポートする。
グッテンOCR-7Bは10.5Kのホールドアウトビジネスおよび科学ページ(0.40~0.82)上のQwen2.5-VL-7Bバックボーンの複合グッテンOCR-7Bの2倍以上のスコアを示す。
Fox と OmniDocBench v1.5 では,領域レベルの OCR と行レベルの OCR とテキスト検出リコールが大幅に改善されている。
関連論文リスト
- LightOnOCR: A 1B End-to-End Multilingual Vision-Language Model for State-of-the-Art OCR [0.29410438275861583]
我々は,多言語視覚言語モデルである textbfLightOnOCR-2-1B を提案する。
大規模で高品質な蒸留混合物でスキャン、フランス語文書、科学PDFを強くカバーし、LightOnOCR-2はOlmOCR-Benchの最先端の結果を得る。
私たちはApache 2.0でモデルチェックポイントをリリースし、データセットと textbfLightOnOCR-bbox-bench の評価をそれぞれのライセンスで公開しています。
論文 参考訳(メタデータ) (2026-01-20T18:58:32Z) - PubMed-OCR: PMC Open Access OCR Annotations [0.4277619369763994]
PubMed-OCR(PubMed-OCR)は、PubMed Central Open Access PDFから派生した科学論文のOCR中心のコーパスである。
各ページイメージはGoogle Cloud Visionで注釈付けされ、ワード、行、段落レベルのバウンディングボックスを備えたコンパクトなスキーマでリリースされている。
コーパスは209.5K記事(1.5Mページ、1.3Bワード)に及び、レイアウト対応モデリング、座標基底QA、OCR依存パイプラインの評価をサポートする。
論文 参考訳(メタデータ) (2026-01-16T16:44:50Z) - MonkeyOCR v1.5 Technical Report: Unlocking Robust Document Parsing for Complex Patterns [80.05126590825121]
MonkeyOCR v1.5は、レイアウト理解とコンテンツ認識の両方を強化する統合ビジョン言語フレームワークである。
複雑なテーブル構造に対処するために,視覚的整合性に基づく強化学習手法を提案する。
2つの特別なモジュール、Image-Decoupled Table ParsingとType-Guided Table Mergingを導入し、テーブルの信頼性の高いパースを可能にする。
論文 参考訳(メタデータ) (2025-11-13T15:12:17Z) - olmOCR 2: Unit Test Rewards for Document OCR [29.547676834557105]
olmOCR 2は、PDFのようなデジタル化された印刷文書を、クリーンで自然に順序付けられたプレーンテキストに変換する強力なOCRシステム群の最新版です。
olmOCR 2は、強化学習を用いて訓練された7B視覚言語モデル(VLM)であるolmOCR-2-7B-1025で駆動される。
これらのテストケースに対するRLトレーニングは、我々の英語OCRベンチマークであるolmOCR-Benchにおける最先端のパフォーマンスをもたらすことを示す。
論文 参考訳(メタデータ) (2025-10-22T17:53:02Z) - MonkeyOCR: Document Parsing with a Structure-Recognition-Relation Triplet Paradigm [60.14048367611333]
MonkeyOCRはドキュメント解析のためのビジョン言語モデルである。
SRR(Structure-Recognition-Relation)三重項パラダイムを活用することで、最先端の技術の進歩を図っている。
論文 参考訳(メタデータ) (2025-06-05T16:34:57Z) - Lost in OCR Translation? Vision-Based Approaches to Robust Document Retrieval [38.569818461453394]
Retrieval-Augmented Generation (RAG)は、外部文書の応答をグラウンド化するための技術である。
従来のRAGシステムは、スキャンされた文書をテキストに最初に処理するために光学文字認識(OCR)に依存していた。
ColPaliのような近年の視覚言語アプローチでは、ドキュメントの直接的な視覚的埋め込みを提案しており、OCRの必要性を排除している。
論文 参考訳(メタデータ) (2025-05-08T21:54:02Z) - LOCR: Location-Guided Transformer for Optical Character Recognition [55.195165959662795]
自動回帰中にトランスフォーマーアーキテクチャに位置案内を組み込むモデルであるLOCRを提案する。
125Kの学術文書ページから777万以上のテキスト配置ペアからなるデータセット上でモデルをトレーニングする。
これは、編集距離、BLEU、METEOR、F測定によって測定されたarXivから構築されたテストセットの既存のメソッドよりも優れています。
論文 参考訳(メタデータ) (2024-03-04T15:34:12Z) - Text Embeddings by Weakly-Supervised Contrastive Pre-training [98.31785569325402]
E5は最先端のテキスト埋め込みのファミリーであり、幅広いタスクにうまく転送される。
E5は、テキストの単一ベクトル表現を必要とするタスクに対して、汎用的な埋め込みモデルとして簡単に使用できる。
論文 参考訳(メタデータ) (2022-12-07T09:25:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。