論文の概要: Enhancing Document VQA Models via Retrieval-Augmented Generation
- arxiv url: http://arxiv.org/abs/2508.18984v2
- Date: Thu, 28 Aug 2025 10:31:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-29 11:47:01.196481
- Title: Enhancing Document VQA Models via Retrieval-Augmented Generation
- Title(参考訳): 検索拡張生成による文書VQAモデルの強化
- Authors: Eric López, Artemis Llabrés, Ernest Valveny,
- Abstract要約: ドキュメントVQAは数十ページに及ぶドキュメントに対処しなければならないが、主要なシステムは依然として非常に大きな視覚言語モデルに依存している。
Retrieval-Augmented Generation (RAG) は魅力的な代替手段を提供する。
- 参考スコア(独自算出の注目度): 1.6769365072542683
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Document Visual Question Answering (Document VQA) must cope with documents that span dozens of pages, yet leading systems still concatenate every page or rely on very large vision-language models, both of which are memory-hungry. Retrieval-Augmented Generation (RAG) offers an attractive alternative, first retrieving a concise set of relevant segments before generating answers from this selected evidence. In this paper, we systematically evaluate the impact of incorporating RAG into Document VQA through different retrieval variants - text-based retrieval using OCR tokens and purely visual retrieval without OCR - across multiple models and benchmarks. Evaluated on the multi-page datasets MP-DocVQA, DUDE, and InfographicVQA, the text-centric variant improves the "concatenate-all-pages" baseline by up to +22.5 ANLS, while the visual variant achieves +5.0 ANLS improvement without requiring any text extraction. An ablation confirms that retrieval and reranking components drive most of the gain, whereas the layout-guided chunking strategy - proposed in several recent works to leverage page structure - fails to help on these datasets. Our experiments demonstrate that careful evidence selection consistently boosts accuracy across multiple model sizes and multi-page benchmarks, underscoring its practical value for real-world Document VQA.
- Abstract(参考訳): Document Visual Question Answering (Document VQA)は数十ページに及ぶドキュメントに対処しなければならないが、主要なシステムは依然としてすべてのページを結合するか、非常に大きな視覚言語モデルに依存している。
Retrieval-Augmented Generation (RAG) は、この選択された証拠から回答を生成する前に、まず関連セグメントの簡潔な集合を検索する、魅力的な代替手段を提供する。
本稿では,文書VQAにRAGを組み込むことが,OCRトークンを用いたテキストベースの検索や,OCRを使わずに純粋に視覚的に検索することによる,複数のモデルやベンチマークにおける影響を系統的に評価する。
MP-DocVQA、DUDE、InfographicVQAのマルチページデータセットに基づいて評価され、テキスト中心の変種は、"concatenate-all-pages"ベースラインを22.5 ANLSまで改善し、ビジュアル変種はテキスト抽出を必要とせずに+5.0 ANLSの改善を達成している。
ページ構造を活用するために最近提案されたレイアウト誘導型チャンキング戦略は、これらのデータセットでは役に立たない。
本実験は,複数のモデルサイズと複数ページのベンチマークにおいて,慎重なエビデンス選択が常に精度を向上することを示し,実世界の文書VQAの実用的価値を裏付けるものである。
関連論文リスト
- Vision-Guided Chunking Is All You Need: Enhancing RAG with Multimodal Document Understanding [0.0]
Retrieval-Augmented Generation (RAG) システムは情報検索と質問応答に革命をもたらした。
従来のテキストベースのチャンキング手法は、複雑なドキュメント構造、マルチページテーブル、埋め込みフィギュア、ページ境界を越えたコンテキスト依存に苦労する。
本稿では,Large Multimodal Models(LMM)を利用してPDF文書をバッチで処理する,新しいマルチモーダル文書チャンキング手法を提案する。
論文 参考訳(メタデータ) (2025-06-19T05:11:43Z) - mmRAG: A Modular Benchmark for Retrieval-Augmented Generation over Text, Tables, and Knowledge Graphs [11.861763118322136]
マルチモーダルRAGシステムを評価するためのモジュール型ベンチマークであるmmRAGを紹介する。
我々のベンチマークでは、テキスト、テーブル、知識グラフにまたがる6つの多様な問合せデータセットからのクエリを統合する。
文書関連性を注釈化し、データセット関連性を導出するための標準情報検索手順に従う。
論文 参考訳(メタデータ) (2025-05-16T12:31:29Z) - VDocRAG: Retrieval-Augmented Generation over Visually-Rich Documents [30.012487475552575]
本稿では,新たなRAGフレームワークであるVDocRAGを導入し,様々な文書やモダリティを統一された画像形式で直接理解する。
また、OpenDocVQAは、オープンドメイン文書の視覚的質問応答データセットを統合化した最初のコレクションである。
論文 参考訳(メタデータ) (2025-04-14T01:50:33Z) - QID: Efficient Query-Informed ViTs in Data-Scarce Regimes for OCR-free Visual Document Understanding [53.69841526266547]
トレーニング済みのVision-Language Modelを新しいデータセットで微調整することは、ビジョンエンコーダの最適化に不足することが多い。
視覚エンコーダにクエリの埋め込みを統合する,新しい,合理化されたアーキテクチャ保存アプローチであるQIDを導入する。
論文 参考訳(メタデータ) (2025-04-03T18:47:16Z) - VISA: Retrieval Augmented Generation with Visual Source Attribution [100.78278689901593]
RAGの既存のアプローチは主に生成されたコンテンツをドキュメントレベルの参照にリンクする。
本稿では,視覚的ソース属性と解答生成を組み合わせた新しい手法として,視覚的ソース属性を用いた検索補助生成(VISA)を提案する。
本手法の有効性を評価するため,ウィキペディアのWebページスクリーンショットをクロールしたWiki-VISAとPubLayNetから派生したPaper-VISAの2つのデータセットを作成した。
論文 参考訳(メタデータ) (2024-12-19T02:17:35Z) - VisDoM: Multi-Document QA with Visually Rich Elements Using Multimodal Retrieval-Augmented Generation [100.06122876025063]
本稿では,マルチドキュメント設定でQAシステムを評価するために設計された,初の総合ベンチマークであるVisDoMBenchを紹介する。
視覚とテキストのRAGを同時に利用する新しいマルチモーダル検索拡張生成(RAG)手法であるVisDoMRAGを提案する。
論文 参考訳(メタデータ) (2024-12-14T06:24:55Z) - Multi-Head RAG: Solving Multi-Aspect Problems with LLMs [18.581518952488093]
MRAG(Multi-Head RAG)は、マルチアスペクト文書を取得するための新しいスキームである。
MRAGは18RAGベースラインに対して設計上の優位性を示し,検索成功率の最大20%を実証的に改善した。
論文 参考訳(メタデータ) (2024-06-07T16:59:38Z) - Generate rather than Retrieve: Large Language Models are Strong Context
Generators [74.87021992611672]
本稿では,文書検索を大規模言語モデル生成器に置き換えることで,知識集約型タスクを解く新しい視点を提案する。
我々は,提案手法をgenRead (genRead) と呼び,まず大きな言語モデルに対して,与えられた質問に基づいて文脈文書を生成し,次に生成された文書を読み出して最終回答を生成する。
論文 参考訳(メタデータ) (2022-09-21T01:30:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。