論文の概要: DocSeeker: Structured Visual Reasoning with Evidence Grounding for Long Document Understanding
- arxiv url: http://arxiv.org/abs/2604.12812v4
- Date: Tue, 21 Apr 2026 09:19:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-22 17:34:20.976347
- Title: DocSeeker: Structured Visual Reasoning with Evidence Grounding for Long Document Understanding
- Title(参考訳): DocSeeker: 長いドキュメント理解のためのエビデンスグラウンドによる構造化ビジュアル推論
- Authors: Hao Yan, Yuliang Liu, Xingchen Liu, Yuyi Zhang, Minghui Liao, Jihao Wu, Wei Chen, Xiang Bai,
- Abstract要約: 本稿では、構造化解析、局所化、推論のワークフローを実行するためにモデルを必要とするパラダイムを提案する。
ショートページトレーニングから超長文書への堅牢な一般化を示し、視覚的検索・拡張生成システムと自然に相乗効果を示す。
- 参考スコア(独自算出の注目度): 63.257540233507626
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Existing Multimodal Large Language Models (MLLMs) suffer from significant performance degradation on the long document understanding task as document length increases. This stems from two fundamental challenges: 1) a low Signal-to-Noise Ratio (SNR), with crucial evidence buried in irrelevant pages; and 2) supervision scarcity, as datasets offering only final short answers provide a weak learning signal. In this paper, we address these challenges by proposing a paradigm that requires the model to execute a structured Analysis, Localization and Reasoning workflow. To instill this capability, we design a two-stage training framework: we first perform Supervised Fine-Tuning on high-quality data generated via an efficient knowledge distillation strategy. Subsequently, we employ an Evidence-aware Group Relative Policy Optimization which jointly optimizes for both evidence localization and answer accuracy. Additionally, we introduce a Evidence-Guided Resolution Allocation strategy to mitigate memory constraints of training on multi-pages documents. Extensive experiments demonstrate that DocSeeker achieves superior performance on both in-domain and out-of-domain tasks. We show it robustly generalizes from short-page training to ultra-long documents and is naturally synergistic with visual Retrieval-Augmented Generation systems, serving as a solid foundation for their implementation.
- Abstract(参考訳): 既存のMLLM(Multimodal Large Language Models)は、文書長が増加するにつれて、長い文書理解タスクにおいて大きなパフォーマンス劣化を被る。
これは2つの根本的な課題に由来する。
1)無関係なページに重要な証拠が埋蔵されている低信号対雑音比(SNR)
2) 最終的な短い回答のみを提供するデータセットは、弱い学習信号を提供するため、監督不足が生じる。
本稿では,モデルが構造化解析・局所化・推論のワークフローを実行するために必要なパラダイムを提案することによって,これらの課題に対処する。
この能力を具現化するために,我々は,効率的な知識蒸留戦略によって生成された高品質なデータに対して,まずSupervised Fine-Tuningを実行する2段階のトレーニングフレームワークを設計した。
その後、エビデンス対応グループ相対政策最適化を採用し、エビデンスローカライゼーションと解答精度の両立を共同で最適化する。
さらに,マルチページ文書におけるトレーニングのメモリ制約を軽減するために,Evidence-Guided Resolution Allocation戦略を導入する。
大規模な実験では、DocSeekerはドメイン内タスクとドメイン外タスクの両方で優れたパフォーマンスを実現している。
ショートページトレーニングから超長文書への堅牢な一般化を示し、視覚的検索・拡張生成システムと自然にシナジスティックであり、それらの実装の確固たる基盤となっている。
関連論文リスト
- Resolving Evidence Sparsity: Agentic Context Engineering for Long-Document Understanding [49.26132236798123]
視覚言語モデル(VLM)は、文書理解における主要なアプローチになりつつある。
本稿では,粗いプロセスにおいて,検索者と4つの協調エージェントを編成するマルチエージェントフレームワークSLEUTHを提案する。
このフレームワークは、検索したページ内の重要なテキストおよび視覚的手がかりを特定し、テーブルやチャートなどの健全な視覚的エビデンスをフィルタし、クエリを分析して推論戦略を考案する。
論文 参考訳(メタデータ) (2025-11-28T03:09:40Z) - URaG: Unified Retrieval and Generation in Multimodal LLMs for Efficient Long Document Understanding [55.45331924836242]
MLLM内での検索と生成を統一するフレームワークであるURaGについて述べる。
URaGは,計算オーバーヘッドを44~56%削減し,最先端性能を実現する。
論文 参考訳(メタデータ) (2025-11-13T17:54:09Z) - DocR1: Evidence Page-Guided GRPO for Multi-Page Document Understanding [100.29587871213624]
本稿では,新しいRLフレームワークであるEvidence Page-Guided GRPOで学習したMLLMであるDocR1を紹介する。
EviGRPOには、粗大な推論戦略を促進するエビデンス対応報酬機構が組み込まれている。
我々は,DocR1が複数ページのタスクに対して最先端のパフォーマンスを達成し,シングルページのベンチマークにおいて強い結果を維持していることを示す。
論文 参考訳(メタデータ) (2025-08-10T12:03:45Z) - RetroLLM: Empowering Large Language Models to Retrieve Fine-grained Evidence within Generation [21.764973680014368]
RetroLLMは、検索と生成を単一の凝集プロセスに統合する統合フレームワークである。
制約付きエビデンス生成の過程での偽プルーニングを軽減するために,階層的FM-Index制約を導入する。
5つのオープンドメインQAデータセットの実験では、ドメイン内タスクとドメイン外タスクの両方にわたって、RetroLLMの優れたパフォーマンスが示されている。
論文 参考訳(メタデータ) (2024-12-16T16:03:25Z) - Long Document Summarization with Top-down and Bottom-up Inference [113.29319668246407]
本稿では、2つの側面の要約モデルを改善するための原則的推論フレームワークを提案する。
我々のフレームワークは、トップレベルが長距離依存性をキャプチャするドキュメントの階層的な潜在構造を前提としています。
本稿では,様々な要約データセットに対して提案手法の有効性を示す。
論文 参考訳(メタデータ) (2022-03-15T01:24:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。