論文の概要: BBox DocVQA: A Large Scale Bounding Box Grounded Dataset for Enhancing Reasoning in Document Visual Question Answer
- arxiv url: http://arxiv.org/abs/2511.15090v1
- Date: Wed, 19 Nov 2025 04:03:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-20 15:51:28.625005
- Title: BBox DocVQA: A Large Scale Bounding Box Grounded Dataset for Enhancing Reasoning in Document Visual Question Answer
- Title(参考訳): BBox DocVQA: ドキュメントビジュアル質問応答における推論強化のための大規模境界ボックス接地データセット
- Authors: Wenhan Yu, Wang Chen, Guanqiang Qi, Weikang Li, Yang Li, Lei Sha, Deguo Xia, Jizhou Huang,
- Abstract要約: BBox DocVQAは、空間的推論と視覚文書のエビデンスローカライゼーションを強化するために設計された、大規模で有界なボックス基底データセットである。
得られたデータセットは3.6Kの多様なドキュメントと32KのQAペアを含み、単一の領域と複数ページのシナリオを含む。
我々のデータセットとコードは公開され、解釈可能で空間的に基底付けられた視覚言語推論の研究が進められる。
- 参考スコア(独自算出の注目度): 21.016544020685668
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Document Visual Question Answering (DocVQA) is a fundamental task for multimodal document understanding and a key testbed for vision language reasoning. However, most existing DocVQA datasets are limited to the page level and lack fine grained spatial grounding, constraining the interpretability and reasoning capability of Vision Language Models (VLMs). To address this gap, we introduce BBox DocVQA a large scale, bounding box grounded dataset designed to enhance spatial reasoning and evidence localization in visual documents. We further present an automated construction pipeline, Segment Judge and Generate, which integrates a segment model for region segmentation, a VLM for semantic judgment, and another advanced VLM for question answer generation, followed by human verification for quality assurance. The resulting dataset contains 3.6 K diverse documents and 32 K QA pairs, encompassing single and multi region as well as single and multi page scenarios. Each QA instance is grounded on explicit bounding boxes, enabling fine grained evaluation of spatial semantic alignment. Benchmarking multiple state of the art VLMs (e.g., GPT 5, Qwen2.5 VL, and InternVL) on BBox DocVQA reveals persistent challenges in spatial grounding and reasoning accuracy. Furthermore, fine tuning on BBox DocVQA substantially improves both bounding box localization and answer generation, validating its effectiveness for enhancing the reasoning ability of VLMs. Our dataset and code will be publicly released to advance research on interpretable and spatially grounded vision language reasoning.
- Abstract(参考訳): Document Visual Question Answering (DocVQA)は、マルチモーダル文書理解のための基本的なタスクであり、視覚言語推論のための重要なテストベッドである。
しかし、既存のDocVQAデータセットのほとんどはページレベルに制限されており、細粒度の空間接地が欠如しており、視覚言語モデル(VLM)の解釈可能性や推論能力が制限されている。
このギャップに対処するため,視覚文書における空間的推論とエビデンスローカライゼーションを強化するために,BBox DocVQAを大規模で有界なボックス基底データセットとして導入する。
さらに、領域分割のためのセグメントモデル、意味判断のためのVLM、質問応答生成のためのVLMと、品質保証のための人間の検証を統合した自動構築パイプライン、セグメンションジャッジとジェネレーションを提案する。
得られたデータセットは3.6Kの多様なドキュメントと32KのQAペアを含み、単一の領域と複数ページのシナリオを含む。
各QAインスタンスは明示的な境界ボックスに基づいており、空間的意味的アライメントのきめ細かい評価を可能にする。
BBox DocVQA上で複数の最先端VLM(例えば、GPT 5、Qwen2.5 VL、InternVL)をベンチマークすると、空間的接地と推論精度において永続的な課題が明らかになる。
さらに、BBox DocVQAの微調整により、境界ボックスのローカライゼーションと応答生成が大幅に改善され、VLMの推論能力を高める効果が検証された。
我々のデータセットとコードは公開され、解釈可能で空間的に基底付けられた視覚言語推論の研究が進められる。
関連論文リスト
- OIDA-QA: A Multimodal Benchmark for Analyzing the Opioid Industry Documents Archive [50.468138755368805]
オピオイド危機は公衆衛生にとって重要な瞬間である。
UCSF-JHU Opioid Industry Documents Archive(OIDA)に公開されているデータと文書
本稿では,文書属性に応じて元のデータセットを整理することで,この問題に対処する。
論文 参考訳(メタデータ) (2025-11-13T03:27:32Z) - Towards Reliable and Interpretable Document Question Answering via VLMs [2.4010013736806206]
本稿では,空間的局所化から解答生成を分離する,プラグアンドプレイバウンディングボックス予測モジュールDocExplainerV0を紹介する。
体系的な評価を通して、正しい答えには信頼性のある局所化が欠如していることが示される。
我々の標準化されたフレームワークはこれらの欠点を強調し、将来の研究のベンチマークを確立します。
論文 参考訳(メタデータ) (2025-09-12T10:44:24Z) - MMESGBench: Pioneering Multimodal Understanding and Complex Reasoning Benchmark for ESG Tasks [56.350173737493215]
環境・社会・ガバナンス(ESG)報告は、持続可能性の実践の評価、規制コンプライアンスの確保、財務透明性の促進に不可欠である。
MMESGBenchは、マルチモーダル理解と複雑な推論を、構造的に多種多様なマルチソースESG文書間で評価するための、最初のベンチマークデータセットである。
MMESGBenchは、45のESG文書から得られた933の検証済みQAペアで構成され、7つの異なるドキュメントタイプと3つの主要なESGソースカテゴリにまたがる。
論文 参考訳(メタデータ) (2025-07-25T03:58:07Z) - DRISHTIKON: Visual Grounding at Multiple Granularities in Documents [21.376466879737855]
DRISHTIKON (DRISHTIKON) は、マルチグラニュラおよびマルチブロックのビジュアルグラウンドフレームワークである。
提案手法は,多言語OCR,大規模言語モデル,および応答スパンをローカライズする新しい領域マッチングアルゴリズムを統合する。
我々の発見は、より堅牢で解釈可能な文書理解システムへの道を開いた。
論文 参考訳(メタデータ) (2025-06-26T14:32:23Z) - MTabVQA: Evaluating Multi-Tabular Reasoning of Language Models in Visual Space [16.35255926212628]
MTabVQAは,多変数の視覚的質問応答に特化して設計された新しいベンチマークである。
MTabVQAは3,745組の複雑な質問応答対で構成されており、複数の視覚的に描画されたテーブルイメージに対してマルチホップ推論を必要とする。
MTabVQA-Instructを用いた微調整VLMでは,視覚的マルチタブラル推論の性能が大幅に向上することを示す。
論文 参考訳(メタデータ) (2025-06-13T11:21:00Z) - Towards Complex Document Understanding By Discrete Reasoning [77.91722463958743]
VQA(Document Visual Question Answering)は、自然言語による質問に答えるために、視覚的に豊富なドキュメントを理解することを目的としている。
我々は3,067の文書ページと16,558の質問応答ペアからなる新しいドキュメントVQAデータセットTAT-DQAを紹介する。
我々は,テキスト,レイアウト,視覚画像など,多要素の情報を考慮に入れたMHSTという新しいモデルを開発し,異なるタイプの質問にインテリジェントに対処する。
論文 参考訳(メタデータ) (2022-07-25T01:43:19Z) - MGA-VQA: Multi-Granularity Alignment for Visual Question Answering [75.55108621064726]
視覚的な質問に答えることを学ぶことは、マルチモーダル入力が2つの特徴空間内にあるため、難しい作業である。
視覚質問応答タスク(MGA-VQA)のための多言語アライメントアーキテクチャを提案する。
我々のモデルはアライメントを異なるレベルに分割し、追加のデータやアノテーションを必要とせずにより良い相関関係を学習します。
論文 参考訳(メタデータ) (2022-01-25T22:30:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。