論文の概要: Benchmarking Visual LLMs Resilience to Unanswerable Questions on Visually Rich Documents
- arxiv url: http://arxiv.org/abs/2511.11468v1
- Date: Fri, 14 Nov 2025 16:41:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-17 22:42:18.72596
- Title: Benchmarking Visual LLMs Resilience to Unanswerable Questions on Visually Rich Documents
- Title(参考訳): Visual LLMs Resilienceのベンチマーク - Visually Rich Documentsに関する疑問に答える
- Authors: Davide Napolitano, Luca Cagliero, Fabrizio Battiloro,
- Abstract要約: 本稿では,VRD-UQA (viSUALLY RICH DOCUMENT UNANSWERABLE QUESTION ANSWERING) について述べる。
我々の研究は、VLLMsの頑健さを、証明不可能な疑問に当てはめている。
VLLMsの限界を明らかにし,VRD-UQAがレジリエントな文書VQAシステムの開発のための評価フレームワークとして機能することを示す。
- 参考スコア(独自算出の注目度): 7.765294037858163
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: The evolution of Visual Large Language Models (VLLMs) has revolutionized the automatic understanding of Visually Rich Documents (VRDs), which contain both textual and visual elements. Although VLLMs excel in Visual Question Answering (VQA) on multi-page VRDs, their ability to detect unanswerable questions is still an open research question. Our research delves into the robustness of the VLLMs to plausible yet unanswerable questions, i.e., questions that appear valid but cannot be answered due to subtle corruptions caused by swaps between related concepts or plausible question formulations. Corruptions are generated by replacing the original natural language entities with other ones of the same type, belonging to different document elements, and in different layout positions or pages of the related document. To this end, we present VRD-UQA (VISUALLY RICH DOCUMENT UNANSWERABLE QUESTION ANSWERING), a benchmark for evaluating VLLMs' resilience to plausible yet unanswerable questions across multiple dimensions. It automatically alters the questions of existing VQA datasets consisting of multi-page VRDs, verifies their unanswerability using a VLLM-as-a-judge approach, and then thoroughly evaluates VLLMs' performance. Experiments, run on 12 models, analyze: (1) The VLLMs' accuracy in detecting unanswerable questions at both page and document levels; (2) The effect of different types of corruption (NLP entity, document element, layout); (3) The effectiveness of different knowledge injection strategies based on in-context learning (OCR, multi-page selection, or the possibility of unanswerability). Our findings reveal VLLMs' limitations and demonstrate that VRD-UQA can serve as an evaluation framework for developing resilient document VQA systems.
- Abstract(参考訳): Visual Large Language Models (VLLMs)の進化は、テキスト要素とビジュアル要素の両方を含むVisually Rich Documents (VRDs)の自動理解に革命をもたらした。
VLLMは多ページVRDのビジュアル質問回答(VQA)に優れていますが、未解決の質問を検出する能力は依然としてオープンな研究課題です。
我々の研究は、VLLMsの頑健さを実証不可能な質問、すなわち、有効なように見えるが、関連する概念間のスワップや妥当な質問の定式化によって引き起こされる微妙な汚職によって答えられない質問に掘り下げている。
破損は、元の自然言語エンティティを同じタイプの他のエンティティに置き換え、異なるドキュメント要素に属し、関連するドキュメントの異なるレイアウト位置またはページで発生する。
そこで本研究では,VRD-UQA (viSUALLY RICH DOCUMENT UNANSWERABLE QUESTION ANSWERING) を,VLLMのレジリエンスを,複数の次元にまたがる検証不可能な質問に対して評価するためのベンチマークとして提示する。
マルチページVRDで構成された既存のVQAデータセットの質問を自動的に修正し、VLLM-as-a-judgeアプローチを使用してその未解決性を検証し、VLLMのパフォーマンスを徹底的に評価する。
実験は,(1) ページレベルと文書レベルの両方で解答不能な質問を検出するVLLMsの精度,(2) 異なるタイプの汚職(NLPエンティティ,文書要素,レイアウト)の影響,(3) コンテキスト内学習(OCR,複数ページ選択,あるいは解答不能の可能性)に基づく異なる知識注入戦略の有効性について分析した。
VLLMsの限界を明らかにし,VRD-UQAがレジリエントな文書VQAシステムの開発のための評価フレームワークとして機能することを示す。
関連論文リスト
- ELOQ: Resources for Enhancing LLM Detection of Out-of-Scope Questions [52.33835101586687]
本研究では,検索した文書が意味的に類似しているように見えるスコープ外質問について検討するが,答えるために必要な情報がない。
本稿では,閉経後の文書から多様なスコープ外質問を自動的に生成するための,幻覚に基づくELOQを提案する。
論文 参考訳(メタデータ) (2024-10-18T16:11:29Z) - Trust but Verify: Programmatic VLM Evaluation in the Wild [62.14071929143684]
プログラム型VLM評価(Programmatic VLM Evaluation、PROVE)は、オープンなクエリに対するVLM応答を評価するための新しいベンチマークパラダイムである。
我々は,PROVE上でのVLMの有効性-実効性トレードオフをベンチマークした結果,両者のバランスが良好であることは極めて少ないことがわかった。
論文 参考訳(メタデータ) (2024-10-17T01:19:18Z) - RAGEval: Scenario Specific RAG Evaluation Dataset Generation Framework [66.93260816493553]
本稿では,様々なシナリオにまたがってRAGシステムを評価するためのフレームワークであるRAGvalを紹介する。
事実の正確性に焦点をあてて,完全性,幻覚,不適切性の3つの新しい指標を提案する。
実験結果から, RAGEvalは, 生成した試料の明瞭度, 安全性, 適合性, 豊かさにおいて, ゼロショット法とワンショット法より優れていた。
論文 参考訳(メタデータ) (2024-08-02T13:35:11Z) - Multi-Head RAG: Solving Multi-Aspect Problems with LLMs [18.48202014877111]
MRAG(Multi-Head RAG)は、マルチアスペクト文書を取得するための新しいスキームである。
MRAGは18RAGベースラインに対して設計上の優位性を示し,検索成功率の最大20%を実証的に改善した。
論文 参考訳(メタデータ) (2024-06-07T16:59:38Z) - Improving Zero-shot Visual Question Answering via Large Language Models
with Reasoning Question Prompts [22.669502403623166]
本稿では,VQAタスクに対する推論質問プロンプトを提案する。
自己完結した質問は、教師なし質問セットモジュールを介して推論された質問プロンプトとして生成する。
各推論質問は、元の質問の意図を明確に示す。
そして、回答整合性として働く信頼度スコアに関連する候補回答をLSMに入力する。
論文 参考訳(メタデータ) (2023-11-15T15:40:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。