論文の概要: Index Light, Reason Deep: Deferred Visual Ingestion for Visual-Dense Document Question Answering
- arxiv url: http://arxiv.org/abs/2602.14162v1
- Date: Sun, 15 Feb 2026 14:23:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-17 14:17:28.678723
- Title: Index Light, Reason Deep: Deferred Visual Ingestion for Visual-Dense Document Question Answering
- Title(参考訳): インデクシングライトと推論ディープ:ビジュアルディエンス文書質問回答のための視覚的介入
- Authors: Tao Xu,
- Abstract要約: 本稿では,マルチモーダル文書質問応答のための要求側取り込み戦略を提案する。
総括精度は、摂取VLMコストゼロで達成される。
また、インタラクティブな洗練とプログレッシブキャッシングをサポートし、「QA精度」問題を「ページローカライゼーション」問題に変換する。
- 参考スコア(独自算出の注目度): 3.0028612998967894
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Existing multimodal document question answering methods universally adopt a supply-side ingestion strategy: running a Vision-Language Model (VLM) on every page during indexing to generate comprehensive descriptions, then answering questions through text retrieval. However, this "pre-ingestion" approach is costly (a 113-page engineering drawing package requires approximately 80,000 VLM tokens), end-to-end unreliable (VLM outputs may fail to be correctly retrieved due to format mismatches in the retrieval infrastructure), and irrecoverable once it fails. This paper proposes the Deferred Visual Ingestion (DVI) framework, adopting a demand-side ingestion strategy: the indexing phase performs only lightweight metadata extraction, deferring visual understanding to the moment users pose specific questions. DVI's core principle is "Index for locating, not understanding"--achieving page localization through structured metadata indexes and BM25 full-text search, then sending original images along with specific questions to a VLM for targeted analysis. Experiments on two real industrial engineering drawings (113 pages + 7 pages) demonstrate that DVI achieves comparable overall accuracy at zero ingestion VLM cost (46.7% vs. 48.9%), an effectiveness rate of 50% on visually necessary queries (vs. 0% for pre-ingestion), and 100% page localization (98% search space compression). DVI also supports interactive refinement and progressive caching, transforming the "QA accuracy" problem into a "page localization" problem--once the correct drawing page is found, obtaining the answer becomes a matter of interaction rounds.
- Abstract(参考訳): 既存のマルチモーダル文書質問応答手法は、インデクシング中に全ページで視覚言語モデル(VLM)を実行し、包括的な記述を生成し、テキスト検索を通じて質問に回答する。
しかし、この「事前設定」アプローチはコストがかかる(約113ページのエンジニアリング描画パッケージは、約80,000 VLMトークンを必要とする)、エンドツーエンドの信頼できない(VLM出力は、検索インフラストラクチャのフォーマットミスマッチのために正しく取得できない)、そして一度失敗すると発見できない。
本稿では,デファレント・ビジュアル・インジェクション(DVI)フレームワークを提案する。デファレント・ビジュアル・インジェクション(DVI)では,インデクシング・フェーズは軽量なメタデータ抽出のみを実行し,ユーザが特定の質問をしたときの視覚的理解を優先する。
DVIの中核的な原理は「Index for locating, not understanding」であり、構造化メタデータインデックスとBM25のフルテキスト検索によるページローカライゼーションを実現し、ターゲット分析のためにVLMに特定の質問と共に原画像を送信する。
2つの実際の産業工学図面(113ページ+7ページ)の実験では、DVIはゼロ摂取VLMコスト(46.7%対48.9%)、視覚的に必要なクエリ(vs.0%)、100%ページのローカライゼーション(98%の検索空間圧縮)で同等の全体的な精度を達成している。
DVIはまた、インタラクティブな洗練とプログレッシブキャッシングをサポートし、「QA精度」問題を「ページローカライゼーション」問題に変換する。
関連論文リスト
- Nüwa: Mending the Spatial Integrity Torn by VLM Token Pruning [82.39668822222386]
ビジョントークンプルーニングは、効率的なビジョン言語モデル(VLM)のための効果的なアクセラレーション手法であることが証明された。
空間的整合性を維持しつつ,効率的な特徴集約を実現するための2段階のトークンプルーニングフレームワークである$textNwa$を提案する。
実験によると、textNwa$は複数のVQAベンチマーク(94%から95%)でSOTAのパフォーマンスを達成し、視覚的グラウンドタスク(7%から47%)を大幅に改善している。
論文 参考訳(メタデータ) (2026-02-03T00:51:03Z) - CARES: Context-Aware Resolution Selector for VLMs [29.734101330721263]
大規模な視覚言語モデル(VLM)は、通常、ネイティブまたは高解像度で画像を処理し、タスク全体にわたって効果的に維持する。
本稿では,簡単な事前処理モジュールであるemphCARESを紹介する。
CARESはタスク性能を最大80%削減しながら維持する。
論文 参考訳(メタデータ) (2025-10-22T11:44:31Z) - Knowledge-based Visual Question Answer with Multimodal Processing, Retrieval and Filtering [55.49652734090316]
知識に基づく視覚的質問応答(KB-VQA)は、視覚的理解と外部知識検索を統合するために視覚言語モデル(VLM)を必要とする。
本稿では,処理,検索,フィルタリングといった3段階の手法をWiki-PRFと呼ぶ。
ベンチマークデータセット(E-VQAとInfoSeek)の実験では、回答の品質が大幅に向上し、最先端のパフォーマンスが達成された。
論文 参考訳(メタデータ) (2025-10-16T12:10:00Z) - VisualOverload: Probing Visual Understanding of VLMs in Really Dense Scenes [36.370533774426555]
2,720組の質問応答対からなる視覚的質問応答(VQA)ベンチマークであるVisualOverloadを提案する。
通常、地球近傍の画像理解に焦点を当てた以前のVQAデータセットとは異なり、VisualOverloadは、密集したシーンでシンプルで知識のない視覚タスクを実行するためにモデルに挑戦する。
37の試験モデルのうち最高のモデル(o3)でさえ、最も難しいテスト分割で19.6%、すべての質問で69.5%の精度しか達成できない。
論文 参考訳(メタデータ) (2025-09-29T18:00:25Z) - WikiMixQA: A Multimodal Benchmark for Question Answering over Tables and Charts [14.966795545558474]
本稿では,4000ページのウィキペディアページから抽出したテーブルとチャートの相互モーダル推論を評価するベンチマークであるWikiMixQAを紹介する。
本研究では,12種類の最先端の視覚言語モデルを評価し,プロプライエタリなモデルでは直接コンテキストで70%の精度が得られたが,長い文書からの検索が必要な場合,その性能は著しく低下することを示した。
論文 参考訳(メタデータ) (2025-06-18T16:09:18Z) - DocVLM: Make Your VLM an Efficient Reader [16.11678886224833]
我々は、OCRに基づくモダリティを視覚言語モデル(VLM)に統合するDocVLMを紹介する。
提案手法では,OCRエンコーダを用いてテキストの内容とレイアウトをキャプチャし,それらをVLMに組み込まれた学習クエリのコンパクトなセットに圧縮する。
制限付き(448$times$448)では、64の学習クエリを持つDocVLMが、InternVL2に統合された場合のDocVQAの結果を56.4%から86.6%に改善し、Qwen2-VLでは84.4%から91.2%に改善した。
論文 参考訳(メタデータ) (2024-12-11T19:35:06Z) - Look Before You Leap: A Universal Emergent Decomposition of Retrieval
Tasks in Language Models [58.57279229066477]
本研究では,言語モデル(LM)が様々な状況下での検索タスクをどのように解決するかを検討する。
ORIONは6つのドメインにまたがる構造化された検索タスクの集合である。
LMは内部的にモジュール方式で検索タスクを分解する。
論文 参考訳(メタデータ) (2023-12-13T18:36:43Z) - Rephrase, Augment, Reason: Visual Grounding of Questions for Vision-Language Models [59.05769810380928]
Rephrase, Augment and Reason (RepARe) は勾配のないフレームワークで、基礎となる視覚言語モデルを用いて画像に関する詳細な情報を抽出する。
その結果、VQAv2では3.85%(絶対)、A-OKVQAでは6.41%、VizWizでは7.94%の増加が見られた。
論文 参考訳(メタデータ) (2023-10-09T16:57:57Z) - Dynamic Focus-aware Positional Queries for Semantic Segmentation [94.6834904076914]
本稿では,動的焦点認識型位置情報クエリと呼ばれるセマンティックセグメンテーションのための,シンプルで効果的なクエリ設計を提案する。
我々のフレームワークはSOTAの性能を達成し、ResNet-50、Swin-T、Swin-Bのバックボーンによる1.1%、1.9%、および1.1%の単一スケールmIoUでMask2formerより優れています。
論文 参考訳(メタデータ) (2022-04-04T05:16:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。