論文の概要: TexOCR: Advancing Document OCR Models for Compilable Page-to-LaTeX Reconstruction
- arxiv url: http://arxiv.org/abs/2604.22880v1
- Date: Fri, 24 Apr 2026 03:34:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-28 17:12:07.023797
- Title: TexOCR: Advancing Document OCR Models for Compilable Page-to-LaTeX Reconstruction
- Title(参考訳): TexOCR:Page-to-LaTeX再構成のためのドキュメントOCRモデルの改良
- Authors: Chengye Wang, Lin Fu, Zexi Kuang, Yilun Zhao,
- Abstract要約: 学術PDFのページレベルでの再構築について検討し,TexOCR-BenchとTexOCR-Trainを紹介する。
TexOCR-Benchは、転写の忠実性、構造的忠実性、エンドツーエンドのコンパイル性などを共同で評価する多次元評価スイートを備えている。
さらに, 検証可能な報酬を持つRLは, SFT単独よりも一貫した改善をもたらすことが明らかとなった。
- 参考スコア(独自算出の注目度): 18.280524101821452
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Existing document OCR largely targets plain text or Markdown, discarding the structural and executable properties that make LaTeX essential for scientific publishing. We study page-level reconstruction of scientific PDFs into compilable LaTeX and introduce TexOCR-Bench, a benchmark, and TexOCR-Train, a large-scale training corpus, for this task. TexOCR-Bench features a multi-dimensional evaluation suite that jointly assesses transcription fidelity, structural faithfulness, and end-to-end compilability. Leveraging TexOCR-Train, we train a 2B-parameter model, TexOCR, using supervised fine-tuning (SFT) and reinforcement learning (RL) with verifiable rewards derived from LaTeX unit tests that directly enforce compilability and referential integrity. Experiments across 21 frontier models on TexOCR-Bench show that existing systems frequently violate key document invariants, including consistent section structure, correct float placement, and valid label-reference links, which undermines compilation reliability and downstream usability. Our analysis further reveals that RL with verifiable rewards yields consistent improvements over SFT alone, particularly on structural and compilation metrics.
- Abstract(参考訳): 既存の文書OCRは主に平文やMarkdownをターゲットとしており、LaTeXを科学出版に欠かせない構造的および実行可能なプロパティを捨てている。
本稿では,学術PDFをコンパイル可能なLaTeXにページレベルで再構築し,ベンチマークであるTexOCR-Benchと大規模トレーニングコーパスであるTexOCR-Trainを紹介する。
TexOCR-Benchは、転写の忠実性、構造的忠実性、エンドツーエンドのコンパイル性などを共同で評価する多次元評価スイートを備えている。
TexOCR-Trainを応用し、2BパラメータモデルであるTexOCRを教師付き微調整(SFT)と強化学習(RL)を用いて訓練する。
TexOCR-Bench上での21のフロンティアモデルに対する実験では、既存のシステムは、一貫性のあるセクション構造、正しいフロート配置、有効なラベル参照リンクなど、重要なドキュメント不変性に頻繁に違反し、コンパイルの信頼性とダウンストリームのユーザビリティを損なうことが示されている。
我々の分析により、検証可能な報酬を持つRLは、特に構造的およびコンパイル的メトリクスにおいて、SFTのみよりも一貫した改善をもたらすことが明らかとなった。
関連論文リスト
- MonkeyOCR v1.5 Technical Report: Unlocking Robust Document Parsing for Complex Patterns [80.05126590825121]
MonkeyOCR v1.5は、レイアウト理解とコンテンツ認識の両方を強化する統合ビジョン言語フレームワークである。
複雑なテーブル構造に対処するために,視覚的整合性に基づく強化学習手法を提案する。
2つの特別なモジュール、Image-Decoupled Table ParsingとType-Guided Table Mergingを導入し、テーブルの信頼性の高いパースを可能にする。
論文 参考訳(メタデータ) (2025-11-13T15:12:17Z) - Table2LaTeX-RL: High-Fidelity LaTeX Code Generation from Table Images via Reinforced Multimodal Language Models [53.03670032402846]
視覚的な入力から,高品質で出版可能なテーブルの再構築を自動化することを目的として,表画像からコード生成への課題に対処する。
このタスクの中心的な課題は、大きなサイズ、深くネストされた構造、セマンティックにリッチか不規則かという複雑なテーブルを正確に扱うことである。
本稿では,大規模テーブル・トゥ・ラデータセット上で事前学習したMLLMを微調整する,強化型マルチモーダル大規模言語モデル(MLLM)を提案する。
論文 参考訳(メタデータ) (2025-09-22T11:13:48Z) - LaTeXTrans: Structured LaTeX Translation with Multi-Agent Coordination [46.53643691093418]
本稿では,構造化文書の翻訳を目的とした協調型マルチエージェントシステムMTTransを紹介する。
Transは、6つの特殊エージェントを通じてフォーマットの保存、構造的忠実性、一貫性を保証する。
論文 参考訳(メタデータ) (2025-08-26T08:17:26Z) - VISTA-OCR: Towards generative and interactive end to end OCR models [3.7548609506798494]
VISTA-OCRは、単一の生成モデル内でテキストの検出と認識を統合する軽量アーキテクチャである。
エンコーダ-デコーダアーキテクチャに基づいて構築されたVISTA-OCRは、視覚的特徴抽出フェーズから始まり、徐々に訓練される。
モデルの性能を高めるために、バウンディングボックスアノテーションと合成サンプルで強化された実世界のサンプルからなる新しいデータセットを構築した。
論文 参考訳(メタデータ) (2025-04-04T17:39:53Z) - LOCR: Location-Guided Transformer for Optical Character Recognition [55.195165959662795]
自動回帰中にトランスフォーマーアーキテクチャに位置案内を組み込むモデルであるLOCRを提案する。
125Kの学術文書ページから777万以上のテキスト配置ペアからなるデータセット上でモデルをトレーニングする。
これは、編集距離、BLEU、METEOR、F測定によって測定されたarXivから構築されたテストセットの既存のメソッドよりも優れています。
論文 参考訳(メタデータ) (2024-03-04T15:34:12Z) - Distilling Text Style Transfer With Self-Explanation From LLMs [28.595450029172124]
Text Style Transfer (TST)は、中核的なコンテンツを保持しながら、テキストのスタイルを変えようとしている。
大型言語モデル(LLM)とチェーン・オブ・シント(CoT)を併用したフレームワークを提案する。
Coは従来の微調整法や知識蒸留法を超越していることが示されている。
論文 参考訳(メタデータ) (2024-03-02T06:38:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。