論文の概要: Reading or Reasoning? Format Decoupled Reinforcement Learning for Document OCR
- arxiv url: http://arxiv.org/abs/2601.08834v1
- Date: Thu, 11 Dec 2025 12:24:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-25 16:54:51.651643
- Title: Reading or Reasoning? Format Decoupled Reinforcement Learning for Document OCR
- Title(参考訳): 読み書きと推論 : 文書OCRのための非結合強化学習
- Authors: Yufeng Zhong, Lei Chen, Zhixiong Zeng, Xuanle Zhao, Deyang Jiang, Liming Zheng, Jing Huang, Haibo Qiu, Peng Shi, Siqi Yang, Lin Ma,
- Abstract要約: 本研究では, 高度なOCRモデルであっても, テキストのエントロピーが極めて高いことを観察する。
ターゲット最適化に高エントロピーパターンを利用する形式分離強化学習(FD-RL)を提案する。
FD-RLはOmniDocBenchの平均スコア90.41に達し、この非常に人気のあるベンチマークでエンドツーエンドモデルの新記録を樹立した。
- 参考スコア(独自算出の注目度): 19.56202762840295
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Reading text from images or scanned documents via OCR models has been a longstanding focus of researchers. Intuitively, text reading is perceived as a straightforward perceptual task, and existing work primarily focuses on constructing enriched data engineering to enhance SFT capabilities. In this work, we observe that even advanced OCR models exhibit significantly higher entropy in formatted text (\emph{e.g.}, formula, table, etc.) compared to plain text, often by an order of magnitude. These statistical patterns reveal that advanced OCR models struggle with high output uncertainty when dealing with format sensitive document, suggesting that reasoning over diverse reading pathways may improve OCR performance. To address this, we propose format decoupled reinforcement learning (FD-RL), which leverages high-entropy patterns for targeted optimization. Our approach employs entropy-based data filtration strategy to identify format-intensive instances, and adopt format decoupled rewards tailored to different format types, enabling format-level validation rather than token-level memorization. FD-RL achieves an average score of 90.41 on OmniDocBench, setting a new record for end-to-end models on this highly popular benchmark. More importantly, we conduct comprehensive ablation studies over data, training, filtering, and rewarding strategies, thoroughly validating their effectiveness.
- Abstract(参考訳): 画像からテキストを読み込むか、OCRモデルでスキャンした文書を読むことは、長い間研究者の焦点だった。
直感的には、テキスト読解は直感的なタスクとして認識され、既存の研究は主にSFT能力を高めるために強化されたデータエンジニアリングの構築に焦点を当てている。
本研究では, 高度なOCRモデルでさえ, 形式化されたテキスト (\emph{e g }, 公式, 表など) において, かなり高いエントロピーを示すことを観察する。
) 平文と比較して, 多くの場合, 桁違いの順で表される。
これらの統計的パターンから,フォーマットセンシティブな文書を扱う場合,高度なOCRモデルは高い出力不確実性に苦しむことが明らかとなり,多様な読み出し経路の推論によりOCR性能が向上する可能性が示唆された。
そこで本稿では,高エントロピーパターンを利用したFD-RL(form decoupled reinforcement learning)を提案する。
提案手法では,エントロピーに基づくデータフィルタリング手法を用いて,フォーマット集約型のインスタンスを識別し,異なるフォーマットタイプに適した形式分離報酬を採用することにより,トークンレベルの記憶よりもフォーマットレベルの検証を可能にする。
FD-RLはOmniDocBenchの平均スコア90.41に達し、この非常に人気のあるベンチマークでエンドツーエンドモデルの新記録を樹立した。
さらに重要なのは、データ、トレーニング、フィルタリング、報酬戦略に関する包括的なアブレーション研究を行い、その効果を徹底的に検証することです。
関連論文リスト
- Writing-RL: Advancing Long-form Writing via Adaptive Curriculum Reinforcement Learning [55.41828729623907]
本稿では,適応型カリキュラム強化学習フレームワーク「Ling-RL: An Adaptive Curriculum Reinforcement Learning」について紹介する。
フレームワークは3つの重要なコンポーネントで構成されている。高い学習可能性を持つサンプルを優先するMargin-aware Data Selection戦略、差別的な学習信号を提供するPairwise Comparison Rewardメカニズム、動的参照スケジューリングアプローチである。
論文 参考訳(メタデータ) (2025-06-06T05:40:39Z) - Discourse Features Enhance Detection of Document-Level Machine-Generated Content [53.41994768824785]
機械生成コンテンツは、学術プラジャリズムや誤報の拡散といった課題を提起する。
既存のMGC検出器は、しばしば表面レベルの情報のみに焦点を当て、暗黙的かつ構造的な特徴を見渡す。
これらの課題を克服するために、新しい方法論とデータセットを導入します。
論文 参考訳(メタデータ) (2024-12-17T08:47:41Z) - Large Language Models for Page Stream Segmentation [0.03495246564946555]
ページストリーム(PSS)は、大規模に自動化されたドキュメント処理に必要な必須条件である。
本稿では,商用光文字認識(OCR)アノテーションを特徴とする拡張ベンチマークであるTABME++を紹介する。
我々は,パラメータ効率のよいデコーダモデルに着目し,大規模言語モデル(LLM)の性能評価を行った。
論文 参考訳(メタデータ) (2024-08-21T20:28:42Z) - Mixed Text Recognition with Efficient Parameter Fine-Tuning and Transformer [12.966765239586994]
本稿では,事前学習したOCR変換器に基づくパラメータ効率の高いハイブリッドテキストスポッティング手法であるDLoRA-TrOCRを提案する。
重み分解されたDoRAモジュールを画像エンコーダに、LoRAモジュールをテキストデコーダに埋め込むことで、様々な下流タスクを効率的に微調整することができる。
実験により,提案したDLoRA-TrOCRは,手書き,印刷,ストリートテキストを混合した複雑なシーン認識において,他のパラメータ効率の高い微調整手法よりも優れていた。
論文 参考訳(メタデータ) (2024-04-19T09:28:16Z) - Contrastive Transformer Learning with Proximity Data Generation for
Text-Based Person Search [60.626459715780605]
記述的なテキストクエリーを与えられたテキストベースの人物検索は、画像ギャラリーからベストマッチした人物を検索することを目的としている。
このようなクロスモーダル検索タスクは、重要なモダリティギャップ、きめ細かい相違、注釈付きデータの不十分さのため、かなり難しい。
本稿では,テキストに基づく人物検索のための2つのトランスフォーマーモデルを提案する。
論文 参考訳(メタデータ) (2023-11-15T16:26:49Z) - Noise-Robust Dense Retrieval via Contrastive Alignment Post Training [89.29256833403167]
Contrastive Alignment POst Training (CAPOT) は、指数再生を必要とせず、モデルロバスト性を改善する高効率な微調整法である。
CAPOTはドキュメントエンコーダを凍結することで堅牢な検索を可能にし、クエリエンコーダはノイズの多いクエリを修正されていないルートに整列させる。
MSMARCO、Natural Questions、Trivia QAパス検索のCAPOTノイズ変動を評価し、CAPOTがオーバーヘッドを伴わないデータ増大に類似した影響があることを発見した。
論文 参考訳(メタデータ) (2023-04-06T22:16:53Z) - Long Document Summarization with Top-down and Bottom-up Inference [113.29319668246407]
本稿では、2つの側面の要約モデルを改善するための原則的推論フレームワークを提案する。
我々のフレームワークは、トップレベルが長距離依存性をキャプチャするドキュメントの階層的な潜在構造を前提としています。
本稿では,様々な要約データセットに対して提案手法の有効性を示す。
論文 参考訳(メタデータ) (2022-03-15T01:24:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。