論文の概要: DocCogito: Aligning Layout Cognition and Step-Level Grounded Reasoning for Document Understanding
- arxiv url: http://arxiv.org/abs/2603.07494v1
- Date: Sun, 08 Mar 2026 06:34:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-10 15:13:14.689328
- Title: DocCogito: Aligning Layout Cognition and Step-Level Grounded Reasoning for Document Understanding
- Title(参考訳): DocCogito: ドキュメント理解のためのレイアウト認知とステップレベルグラウンドド推論
- Authors: Yuchuan Wu, Minghan Zhuo, Teng Fu, Mengyang Zhao, Bin Li, Xiangyang Xue,
- Abstract要約: 我々は,グローバルなレイアウト認識と,構造化された地域的推論を統合した統合フレームワークDocCogitoを提案する。
6つのベンチマークで行った実験では,4つのベンチマークで最先端の結果が得られた。
- 参考スコア(独自算出の注目度): 33.438739790416655
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Document understanding with multimodal large language models (MLLMs) requires not only accurate answers but also explicit, evidence-grounded reasoning, especially in high-stakes scenarios. However, current document MLLMs still fall short of forming a complete, human-like reasoning process, because even when they improve both layout encoding and CoT-style prompting, the interaction between the two is typically learned implicitly and remains loosely coupled rather than being enforced as a systematic mechanism. So we propose DocCogito, a unified framework that integrates global layout perception with structured, region-grounded reasoning. DocCogito introduces a lightweight layout tower that distills page structure into learnable global layout prior tokens, and a deterministic Visual-Semantic Chain (VSC)-a concise structured representation less ambiguous than free-form natural-language CoT-to supervise fine-grained intermediate reasoning aligned with evidence regions. Training follows a progressive recipe, including layout perception pretraining, VSC-guided cold start, rejection sampling, and GRPO. To further strengthen the internal coupling between layout priors and VSC execution, we augment standard rewards with a fine-grained region-confidence signal that encourages reasoning traces to stay aligned with corresponding evidence regions. Extensive experiments on six benchmarks (DocVQA, WTQ, ChartQA, TextVQA, OCRBench, and InfoVQA) demonstrate strong generalization, achieving state-of-the-art results on four benchmarks.
- Abstract(参考訳): マルチモーダルな大言語モデル (MLLM) による文書理解には、正確な答えだけでなく、特に高度なシナリオにおいて、明確な根拠に基づく推論が必要である。
しかし、現在の文書MLLMは、レイアウトエンコーディングとCoTスタイルのプロンプトの両方を改善したとしても、通常、両者の相互作用は暗黙的に学習され、体系的なメカニズムとして強制されるのではなく、疎結合のままである。
そこで我々は、グローバルなレイアウト認識と、構造化された地域的推論を統合する統合フレームワークDocCogitoを提案する。
DocCogitoは、ページ構造を学習可能なグローバルなレイアウト先トークンに蒸留する軽量なレイアウトタワーと、決定論的ビジュアルセマンティックチェイン(VSC)- 自由形式の自然言語CoTよりも簡潔な構造表現で、エビデンス領域に整合した微粒な中間推論を監督する。
トレーニングは、レイアウト知覚事前学習、VSC誘導型コールドスタート、拒絶サンプリング、GRPOなど、進歩的なレシピに従っている。
レイアウト先とVSC実行間の内部結合をさらに強化するため、我々は、推論トレースが対応するエビデンス領域と一致し続けることを奨励する、きめ細かい領域信頼信号で標準報酬を強化する。
6つのベンチマーク(DocVQA、WTQ、ChartQA、TextVQA、OCRBench、InfoVQA)の大規模な実験は、強力な一般化を示し、4つのベンチマークで最先端の結果を達成する。
関連論文リスト
- CoTZero: Annotation-Free Human-Like Vision Reasoning via Hierarchical Synthetic CoT [9.44589968698834]
CoTZeroはアノテーションなしのパラダイムで、2つのコンポーネントがある。
CoTZeroは視覚的プリミティブを抽出し、構造化された質問推論形式に構成する。
合成されたCoTデータに基づいて構築された認知対応トレーニングコンポーネントでは,認知的コヒーレントな検証リワードを導入する。
論文 参考訳(メタデータ) (2026-02-09T07:26:40Z) - FocalOrder: Focal Preference Optimization for Reading Order Detection [23.497081928689525]
我々はtextbfFocal Preference Optimization (FPO) によって駆動されるフレームワーク textbfFocalOrder を提案する。
FocalOrderは適応的難易度発見と指数的な移動平均機構を用いて動的にピンポイントのハード・ツー・ラーン遷移を行う。
FocalOrder は OmniDocBench v1.0 と Comp-HRDoc で新しい最先端の結果を確立する。
論文 参考訳(メタデータ) (2026-01-12T12:37:04Z) - BRIDGE: Building Representations In Domain Guided Program Verification [67.36686119518441]
BRIDGEは、検証をコード、仕様、証明の3つの相互接続ドメインに分解する。
提案手法は, 標準誤差フィードバック法よりも精度と効率を著しく向上することを示す。
論文 参考訳(メタデータ) (2025-11-26T06:39:19Z) - Look As You Think: Unifying Reasoning and Visual Evidence Attribution for Verifiable Document RAG via Reinforcement Learning [55.232400251303794]
Look As You Think (LAT)は、モデルをトレーニングし、一貫した帰属性を持った検証可能な推論パスを生成するための強化学習フレームワークである。
LATはシングルイメージとマルチイメージの両方でバニラモデルを一貫して改善し、平均ゲインは8.23%、IoU@0.5では47.0%となる。
論文 参考訳(メタデータ) (2025-11-15T02:50:23Z) - MonkeyOCR v1.5 Technical Report: Unlocking Robust Document Parsing for Complex Patterns [80.05126590825121]
MonkeyOCR v1.5は、レイアウト理解とコンテンツ認識の両方を強化する統合ビジョン言語フレームワークである。
複雑なテーブル構造に対処するために,視覚的整合性に基づく強化学習手法を提案する。
2つの特別なモジュール、Image-Decoupled Table ParsingとType-Guided Table Mergingを導入し、テーブルの信頼性の高いパースを可能にする。
論文 参考訳(メタデータ) (2025-11-13T15:12:17Z) - Implicit Reasoning in Large Language Models: A Comprehensive Survey [67.53966514728383]
大規模言語モデル(LLM)は、幅広いタスクにまたがる強力な一般化を実証している。
最近の研究は、暗黙の推論に拍車をかけた、明示的な思考の連鎖から注意を向けている。
本調査では,表現形式から計算戦略へ焦点を移し,実行パラダイムを中心とした分類を紹介した。
論文 参考訳(メタデータ) (2025-09-02T14:16:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。