論文の概要: Benchmarking Visual LLMs Resilience to Unanswerable Questions on Visually Rich Documents
- arxiv url: http://arxiv.org/abs/2511.11468v1
- Date: Fri, 14 Nov 2025 16:41:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-17 22:42:18.72596
- Title: Benchmarking Visual LLMs Resilience to Unanswerable Questions on Visually Rich Documents
- Title(参考訳): Visual LLMs Resilienceのベンチマーク - Visually Rich Documentsに関する疑問に答える
- Authors: Davide Napolitano, Luca Cagliero, Fabrizio Battiloro,
- Abstract要約: 本稿では,VRD-UQA (viSUALLY RICH DOCUMENT UNANSWERABLE QUESTION ANSWERING) について述べる。
我々の研究は、VLLMsの頑健さを、証明不可能な疑問に当てはめている。
VLLMsの限界を明らかにし,VRD-UQAがレジリエントな文書VQAシステムの開発のための評価フレームワークとして機能することを示す。
- 参考スコア(独自算出の注目度): 7.765294037858163
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: The evolution of Visual Large Language Models (VLLMs) has revolutionized the automatic understanding of Visually Rich Documents (VRDs), which contain both textual and visual elements. Although VLLMs excel in Visual Question Answering (VQA) on multi-page VRDs, their ability to detect unanswerable questions is still an open research question. Our research delves into the robustness of the VLLMs to plausible yet unanswerable questions, i.e., questions that appear valid but cannot be answered due to subtle corruptions caused by swaps between related concepts or plausible question formulations. Corruptions are generated by replacing the original natural language entities with other ones of the same type, belonging to different document elements, and in different layout positions or pages of the related document. To this end, we present VRD-UQA (VISUALLY RICH DOCUMENT UNANSWERABLE QUESTION ANSWERING), a benchmark for evaluating VLLMs' resilience to plausible yet unanswerable questions across multiple dimensions. It automatically alters the questions of existing VQA datasets consisting of multi-page VRDs, verifies their unanswerability using a VLLM-as-a-judge approach, and then thoroughly evaluates VLLMs' performance. Experiments, run on 12 models, analyze: (1) The VLLMs' accuracy in detecting unanswerable questions at both page and document levels; (2) The effect of different types of corruption (NLP entity, document element, layout); (3) The effectiveness of different knowledge injection strategies based on in-context learning (OCR, multi-page selection, or the possibility of unanswerability). Our findings reveal VLLMs' limitations and demonstrate that VRD-UQA can serve as an evaluation framework for developing resilient document VQA systems.
- Abstract(参考訳): Visual Large Language Models (VLLMs)の進化は、テキスト要素とビジュアル要素の両方を含むVisually Rich Documents (VRDs)の自動理解に革命をもたらした。
VLLMは多ページVRDのビジュアル質問回答(VQA)に優れていますが、未解決の質問を検出する能力は依然としてオープンな研究課題です。
我々の研究は、VLLMsの頑健さを実証不可能な質問、すなわち、有効なように見えるが、関連する概念間のスワップや妥当な質問の定式化によって引き起こされる微妙な汚職によって答えられない質問に掘り下げている。
破損は、元の自然言語エンティティを同じタイプの他のエンティティに置き換え、異なるドキュメント要素に属し、関連するドキュメントの異なるレイアウト位置またはページで発生する。
そこで本研究では,VRD-UQA (viSUALLY RICH DOCUMENT UNANSWERABLE QUESTION ANSWERING) を,VLLMのレジリエンスを,複数の次元にまたがる検証不可能な質問に対して評価するためのベンチマークとして提示する。
マルチページVRDで構成された既存のVQAデータセットの質問を自動的に修正し、VLLM-as-a-judgeアプローチを使用してその未解決性を検証し、VLLMのパフォーマンスを徹底的に評価する。
実験は,(1) ページレベルと文書レベルの両方で解答不能な質問を検出するVLLMsの精度,(2) 異なるタイプの汚職(NLPエンティティ,文書要素,レイアウト)の影響,(3) コンテキスト内学習(OCR,複数ページ選択,あるいは解答不能の可能性)に基づく異なる知識注入戦略の有効性について分析した。
VLLMsの限界を明らかにし,VRD-UQAがレジリエントな文書VQAシステムの開発のための評価フレームワークとして機能することを示す。
関連論文リスト
- Beyond Isolated Dots: Benchmarking Structured Table Construction as Deep Knowledge Extraction [80.88654868264645]
Arranged and Organized extract Benchmarkは、断片化された文書を理解するための大規模言語モデルの能力を評価するために設計された。
AOEには3つの異なるドメインにまたがる11のタスクが含まれており、さまざまな入力クエリに適したコンテキスト固有のスキーマを生成するモデルが必要である。
結果は、最も先進的なモデルでさえ、かなり苦労したことを示している。
論文 参考訳(メタデータ) (2025-07-22T06:37:51Z) - Benchmarking Multimodal Retrieval Augmented Generation with Dynamic VQA Dataset and Self-adaptive Planning Agent [92.5712549836791]
マルチモーダル大規模言語モデル(MLLM)に固有の「ハロシン化」問題を緩和する上で,mRAG(Multimodal Retrieval Augmented Generation)が重要な役割を果たしている。
マルチモーダル検索のための自己適応型計画エージェントOmniSearchを提案する。
論文 参考訳(メタデータ) (2024-11-05T09:27:21Z) - ELOQ: Resources for Enhancing LLM Detection of Out-of-Scope Questions [52.33835101586687]
本研究では,検索した文書が意味的に類似しているように見えるスコープ外質問について検討するが,答えるために必要な情報がない。
本稿では,閉経後の文書から多様なスコープ外質問を自動的に生成するための,幻覚に基づくELOQを提案する。
論文 参考訳(メタデータ) (2024-10-18T16:11:29Z) - Trust but Verify: Programmatic VLM Evaluation in the Wild [62.14071929143684]
プログラム型VLM評価(Programmatic VLM Evaluation、PROVE)は、オープンなクエリに対するVLM応答を評価するための新しいベンチマークパラダイムである。
我々は,PROVE上でのVLMの有効性-実効性トレードオフをベンチマークした結果,両者のバランスが良好であることは極めて少ないことがわかった。
論文 参考訳(メタデータ) (2024-10-17T01:19:18Z) - Learning to Compress Contexts for Efficient Knowledge-based Visual Question Answering [44.54319663913782]
圧縮文脈(RACC)を用いたtextbfRetrieval-textbfAugmented MLLMを提案する。
RACCは、与えられた画像検索ペアの取得した知識を圧縮して集約することを学ぶ。
これはOK-VQAで63.92%の最先端(SOTA)性能を達成する。
論文 参考訳(メタデータ) (2024-09-11T15:11:39Z) - RAGEval: Scenario Specific RAG Evaluation Dataset Generation Framework [66.93260816493553]
本稿では,様々なシナリオにまたがってRAGシステムを評価するためのフレームワークであるRAGvalを紹介する。
事実の正確性に焦点をあてて,完全性,幻覚,不適切性の3つの新しい指標を提案する。
実験結果から, RAGEvalは, 生成した試料の明瞭度, 安全性, 適合性, 豊かさにおいて, ゼロショット法とワンショット法より優れていた。
論文 参考訳(メタデータ) (2024-08-02T13:35:11Z) - Multi-Head RAG: Solving Multi-Aspect Problems with LLMs [18.48202014877111]
MRAG(Multi-Head RAG)は、マルチアスペクト文書を取得するための新しいスキームである。
MRAGは18RAGベースラインに対して設計上の優位性を示し,検索成功率の最大20%を実証的に改善した。
論文 参考訳(メタデータ) (2024-06-07T16:59:38Z) - Towards Top-Down Reasoning: An Explainable Multi-Agent Approach for Visual Question Answering [47.668572102657684]
本稿では,視覚言語モデル(VLM)の能力を高めるために,LLM(Large Language Models)の拡張的知識を活用することで,新しいマルチエージェントコラボレーションフレームワークを導入する。
論文 参考訳(メタデータ) (2023-11-29T03:10:42Z) - Filling the Image Information Gap for VQA: Prompting Large Language
Models to Proactively Ask Questions [15.262736501208467]
大規模言語モデル(LLM)は、驚くべき推論能力と世界知識の維持を実証する。
画像がLLMに見えないため、研究者は画像からテキストに変換してLLMを視覚的疑問推論の手順に変換する。
我々は、LLMが積極的に関連する質問をし、画像のより詳細な情報を公開できるフレームワークを設計する。
論文 参考訳(メタデータ) (2023-11-20T08:23:39Z) - Improving Zero-shot Visual Question Answering via Large Language Models
with Reasoning Question Prompts [22.669502403623166]
本稿では,VQAタスクに対する推論質問プロンプトを提案する。
自己完結した質問は、教師なし質問セットモジュールを介して推論された質問プロンプトとして生成する。
各推論質問は、元の質問の意図を明確に示す。
そして、回答整合性として働く信頼度スコアに関連する候補回答をLSMに入力する。
論文 参考訳(メタデータ) (2023-11-15T15:40:46Z) - DIVKNOWQA: Assessing the Reasoning Ability of LLMs via Open-Domain
Question Answering over Knowledge Base and Text [73.68051228972024]
大きな言語モデル(LLM)は印象的な生成能力を示すが、内部知識に依存すると幻覚に悩まされる。
検索拡張LDMは、外部知識においてLLMを基盤とする潜在的な解決策として出現している。
論文 参考訳(メタデータ) (2023-10-31T04:37:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。