論文の概要: Towards Reliable and Interpretable Document Question Answering via VLMs
- arxiv url: http://arxiv.org/abs/2509.10129v2
- Date: Mon, 15 Sep 2025 02:38:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-16 13:19:47.991775
- Title: Towards Reliable and Interpretable Document Question Answering via VLMs
- Title(参考訳): VLMによる信頼性・解釈可能な文書質問応答の実現に向けて
- Authors: Alessio Chen, Simone Giovannini, Andrea Gemelli, Fabio Coppini, Simone Marinai,
- Abstract要約: 本稿では,空間的局所化から解答生成を分離する,プラグアンドプレイバウンディングボックス予測モジュールDocExplainerV0を紹介する。
体系的な評価を通して、正しい答えには信頼性のある局所化が欠如していることが示される。
我々の標準化されたフレームワークはこれらの欠点を強調し、将来の研究のベンチマークを確立します。
- 参考スコア(独自算出の注目度): 2.4010013736806206
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Vision-Language Models (VLMs) have shown strong capabilities in document understanding, particularly in identifying and extracting textual information from complex documents. Despite this, accurately localizing answers within documents remains a major challenge, limiting both interpretability and real-world applicability. To address this, we introduce DocExplainerV0, a plug-and-play bounding-box prediction module that decouples answer generation from spatial localization. This design makes it applicable to existing VLMs, including proprietary systems where fine-tuning is not feasible. Through systematic evaluation, we provide quantitative insights into the gap between textual accuracy and spatial grounding, showing that correct answers often lack reliable localization. Our standardized framework highlights these shortcomings and establishes a benchmark for future research toward more interpretable and robust document information extraction VLMs.
- Abstract(参考訳): VLM(Vision-Language Models)は、文書理解において特に複雑な文書からテキスト情報を識別・抽出する能力を示す。
それにもかかわらず、文書内の答えを正確にローカライズすることは大きな課題であり、解釈可能性と現実の応用性の両方を制限する。
そこで我々は,空間的局所化から解答生成を分離する,プラグアンドプレイバウンディングボックス予測モジュールDocExplainerV0を紹介する。
この設計は既存のVLMに適用でき、微調整が不可能なプロプライエタリなシステムを含む。
体系的な評価を通じて,テキストの精度と空間的接地とのギャップを定量的に把握し,正しい解答がしばしば信頼性のある局所化を欠いていることを示す。
我々の標準化されたフレームワークは、これらの欠点を強調し、より解釈可能で堅牢な文書情報抽出VLMに向けた将来の研究のためのベンチマークを確立する。
関連論文リスト
- DRISHTIKON: Visual Grounding at Multiple Granularities in Documents [21.376466879737855]
DRISHTIKON (DRISHTIKON) は、マルチグラニュラおよびマルチブロックのビジュアルグラウンドフレームワークである。
提案手法は,多言語OCR,大規模言語モデル,および応答スパンをローカライズする新しい領域マッチングアルゴリズムを統合する。
我々の発見は、より堅牢で解釈可能な文書理解システムへの道を開いた。
論文 参考訳(メタデータ) (2025-06-26T14:32:23Z) - Structured Attention Matters to Multimodal LLMs in Document Understanding [52.37530640460363]
入力形式が文書理解性能に与える影響について検討する。
生のOCRテキストはMLLMの性能を向上するのではなく、しばしば機能不全であることがわかった。
本稿では,LaTexパラダイムを用いて文書要素を符号化する構造保存手法を提案する。
論文 参考訳(メタデータ) (2025-06-19T07:16:18Z) - QID: Efficient Query-Informed ViTs in Data-Scarce Regimes for OCR-free Visual Document Understanding [53.69841526266547]
トレーニング済みのVision-Language Modelを新しいデータセットで微調整することは、ビジョンエンコーダの最適化に不足することが多い。
視覚エンコーダにクエリの埋め込みを統合する,新しい,合理化されたアーキテクチャ保存アプローチであるQIDを導入する。
論文 参考訳(メタデータ) (2025-04-03T18:47:16Z) - M-DocSum: Do LVLMs Genuinely Comprehend Interleaved Image-Text in Document Summarization? [49.53982792497275]
本稿では,LVLM(Large Vision-Language Models)が文書中のインターリーブ画像テキストを真に理解しているかどうかを検討する。
既存の文書理解ベンチマークは、しばしば質問応答形式を用いてLVLMを評価する。
マルチモーダル文書要約ベンチマーク(M-DocSum-Bench)について紹介する。
M-DocSum-Benchは500の高品質なarXiv論文と、人間の好みに合わせたインターリーブされたマルチモーダル要約で構成されている。
論文 参考訳(メタデータ) (2025-03-27T07:28:32Z) - DLaVA: Document Language and Vision Assistant for Answer Localization with Enhanced Interpretability and Trustworthiness [34.170341753045776]
VQA (Document Visual Question Answering) は、テキストの検出、認識、空間的推論の堅牢な統合を要求する。
DLaVAは、マルチモーダル大言語モデル(MLLM)を利用して、ゼロショット応答のローカライゼーションを行う訓練不要パイプラインである。
論文 参考訳(メタデータ) (2024-11-29T06:17:11Z) - Peering into the Mind of Language Models: An Approach for Attribution in Contextual Question Answering [9.86691461253151]
大規模言語モデル(LLM)の隠れ状態表現を利用した文脈質問応答における帰属手法を提案する。
提案手法は,より詳細な属性を提供し,生成した回答の質を保ちながら,広範囲なモデル再訓練および検索モデルオーバーヘッドの必要性を回避している。
本稿では,LLM世代に対するトークンレベルのアノテーションを文脈質問応答設定に有する属性データセットであるVerifiability-granularを提案する。
論文 参考訳(メタデータ) (2024-05-28T09:12:44Z) - DIVKNOWQA: Assessing the Reasoning Ability of LLMs via Open-Domain
Question Answering over Knowledge Base and Text [73.68051228972024]
大きな言語モデル(LLM)は印象的な生成能力を示すが、内部知識に依存すると幻覚に悩まされる。
検索拡張LDMは、外部知識においてLLMを基盤とする潜在的な解決策として出現している。
論文 参考訳(メタデータ) (2023-10-31T04:37:57Z) - Zero-Shot Video Moment Retrieval from Frozen Vision-Language Models [58.17315970207874]
モーメント・テキストアライメントを容易にするため、任意のVLMから一般化可能なビジュアル・テクスチャの事前適応のためのゼロショット手法を提案する。
3つのVMRベンチマークデータセットで実施された実験は、ゼロショットアルゴリズムの顕著なパフォーマンス上の利点を示している。
論文 参考訳(メタデータ) (2023-09-01T13:06:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。