論文の概要: DocLens : A Tool-Augmented Multi-Agent Framework for Long Visual Document Understanding
- arxiv url: http://arxiv.org/abs/2511.11552v1
- Date: Fri, 14 Nov 2025 18:42:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-17 22:42:18.760311
- Title: DocLens : A Tool-Augmented Multi-Agent Framework for Long Visual Document Understanding
- Title(参考訳): DocLens : 長期視覚文書理解のためのツール強化マルチエージェントフレームワーク
- Authors: Dawei Zhu, Rui Meng, Jiefeng Chen, Sujian Li, Tomas Pfister, Jinsung Yoon,
- Abstract要約: 我々は、レンズのようなエビデンスに対して「効果的にズームインする」ツール強化マルチエージェントフレームワークであるDocLensを提案する。
最初はドキュメント全体から、関連するページの特定のビジュアル要素にナビゲートし、次にサンプリング・アジュディテーション機構を使用して、信頼できる1つの回答を生成する。
MMLongBench-DocとFinRAG-Vで最先端のパフォーマンスを達成し、人間専門家さえ超えている。
- 参考スコア(独自算出の注目度): 59.4112754806335
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Comprehending long visual documents, where information is distributed across extensive pages of text and visual elements, is a critical but challenging task for modern Vision-Language Models (VLMs). Existing approaches falter on a fundamental challenge: evidence localization. They struggle to retrieve relevant pages and overlook fine-grained details within visual elements, leading to limited performance and model hallucination. To address this, we propose DocLens, a tool-augmented multi-agent framework that effectively ``zooms in'' on evidence like a lens. It first navigates from the full document to specific visual elements on relevant pages, then employs a sampling-adjudication mechanism to generate a single, reliable answer. Paired with Gemini-2.5-Pro, DocLens achieves state-of-the-art performance on MMLongBench-Doc and FinRAGBench-V, surpassing even human experts. The framework's superiority is particularly evident on vision-centric and unanswerable queries, demonstrating the power of its enhanced localization capabilities.
- Abstract(参考訳): 情報をテキストや視覚要素の広範なページに分散する長い視覚文書を補完することは、現代の視覚言語モデル(VLM)にとって重要な課題である。
既存のアプローチは、エビデンスローカライゼーション(エビデンスローカライゼーション)という、基本的な課題に固執する。
彼らは関連ページの検索に苦労し、視覚要素の細かい詳細を見落とし、パフォーマンスとモデル幻覚に繋がる。
そこで我々は,レンズのようなエビデンスに対して,効果的に ‘zooms in’ を行うツール拡張マルチエージェントフレームワークであるDocLensを提案する。
最初はドキュメント全体から、関連するページの特定のビジュアル要素にナビゲートし、次にサンプリング・アジュディテーション機構を使用して、信頼できる1つの回答を生成する。
Gemini-2.5-Proと組み合わせて、DocLensはMMLongBench-DocとFinRAGBench-Vで最先端のパフォーマンスを達成し、人間専門家でさえ超えた。
このフレームワークの優位性は、特に視覚中心のクエリと不可解なクエリに顕著であり、そのローカライゼーション能力の強化の力を示している。
関連論文リスト
- ALDEN: Reinforcement Learning for Active Navigation and Evidence Gathering in Long Documents [17.497004687630742]
視覚言語モデル(VLM)は、テキストリッチな画像の解釈に優れるが、長い、視覚的に複雑な文書に苦しむ。
対話型エージェントとしてVLMを微調整する多ターン強化学習フレームワークであるActive Long-DocumEnt Navigation (ALDEN)を提案する。
論文 参考訳(メタデータ) (2025-10-29T16:32:26Z) - mPLUG-DocOwl2: High-resolution Compressing for OCR-free Multi-page Document Understanding [103.05835688963947]
本稿では,高解像度文書画像を324個のトークンに圧縮する高解像度DocCompressorモジュールを提案する。
DocOwl2は、マルチページ文書理解ベンチマークにまたがる最先端の新たなベンチマークを設定し、最初のトークンレイテンシを50%以上削減する。
同様のデータで訓練されたシングルイメージMLLMと比較して、DocOwl2はビジュアルトークンの20%未満で、同等のシングルページ理解性能を実現しています。
論文 参考訳(メタデータ) (2024-09-05T11:09:00Z) - ColPali: Efficient Document Retrieval with Vision Language Models [15.369861972085136]
我々は、複数のドメイン、言語、実用的な設定にまたがる様々なページレベルの検索タスクからなるVisual Document Retrieval Benchmark ViDoReを紹介する。
現代のシステムの本質的な複雑さと性能上の欠点は、ドキュメントページのイメージを直接埋め込むことで文書検索を行うという新しい概念を動機付けている。
文書ページの画像から高品質なマルチベクトル埋め込みを生成するために訓練されたビジョン言語モデルColPaliをリリースする。
論文 参考訳(メタデータ) (2024-06-27T15:45:29Z) - DocPedia: Unleashing the Power of Large Multimodal Model in the Frequency Domain for Versatile Document Understanding [91.17151775296234]
本研究は, OCRフリー文書理解のための新しい大規模マルチモーダルモデル(LMM)であるDocPediaを提案する。
既存の作業では高解像度のドキュメントで苦労したり、大きな言語モデルを捨てたり、視覚や言語能力に制約があったりするのに対して、DocPediaでは、ピクセル空間ではなく、周波数領域の視覚入力を直接処理しています。
論文 参考訳(メタデータ) (2023-11-20T14:42:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。