論文の概要: AVIR: Adaptive Visual In-Document Retrieval for Efficient Multi-Page Document Question Answering
- arxiv url: http://arxiv.org/abs/2601.11976v1
- Date: Sat, 17 Jan 2026 09:13:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-21 22:47:22.402464
- Title: AVIR: Adaptive Visual In-Document Retrieval for Efficient Multi-Page Document Question Answering
- Title(参考訳): AVIR: 効率的なマルチページ文書質問応答のための適応型ビジュアルインドキュメント検索
- Authors: Zongmin Li, Yachuan Li, Lei Kang, Dimosthenis Karatzas, Wenkang Ma,
- Abstract要約: 本稿では,視覚的質問応答を文書化するための適応型ビジュアル文書検索(AVIR)フレームワークを提案する。
提案手法は,質問応答に必要なページ数の平均を70%削減する。
MP-DocVQAデータセットをバイパスする従来の手法に対して,計算コストを大幅に削減したANLSの84.58%を達成している。
- 参考スコア(独自算出の注目度): 12.485072511419688
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multi-page Document Visual Question Answering (MP-DocVQA) remains challenging because long documents not only strain computational resources but also reduce the effectiveness of the attention mechanism in large vision-language models (LVLMs). We tackle these issues with an Adaptive Visual In-document Retrieval (AVIR) framework. A lightweight retrieval model first scores each page for question relevance. Pages are then clustered according to the score distribution to adaptively select relevant content. The clustered pages are screened again by Top-K to keep the context compact. However, for short documents, clustering reliability decreases, so we use a relevance probability threshold to select pages. The selected pages alone are fed to a frozen LVLM for answer generation, eliminating the need for model fine-tuning. The proposed AVIR framework reduces the average page count required for question answering by 70%, while achieving an ANLS of 84.58% on the MP-DocVQA dataset-surpassing previous methods with significantly lower computational cost. The effectiveness of the proposed AVIR is also verified on the SlideVQA and DUDE benchmarks. The code is available at https://github.com/Li-yachuan/AVIR.
- Abstract(参考訳): MP-DocVQA (Multi-page Document Visual Question Answering) は、長いドキュメントが計算資源を歪ませるだけでなく、大きな視覚言語モデル(LVLM)における注意機構の有効性を低下させるため、依然として困難である。
このような問題に,Adaptive Visual In-document Retrieval (AVIR) フレームワークで対処する。
軽量検索モデルはまず、質問関連のために各ページをスコアする。
ページはスコア分布に応じてクラスタ化され、関連するコンテンツを適応的に選択する。
クラスタ化されたページは、コンテキストをコンパクトに保つために、Top-Kによって再びスクリーンされる。
しかし、短い文書の場合、クラスタリングの信頼性は低下するため、関連確率閾値を用いてページを選択する。
選択したページは、解答生成のために冷凍LVLMに供給され、モデル微調整の必要がなくなる。
提案したAVIRフレームワークは,MP-DocVQAデータセットに84.58%のANLSを達成しつつ,質問応答に必要な平均ページ数を70%削減する。
提案したAVIRの有効性はSlideVQAおよびDUDEベンチマークでも検証されている。
コードはhttps://github.com/Li-yachuan/AVIR.comで公開されている。
関連論文リスト
- Resolving Evidence Sparsity: Agentic Context Engineering for Long-Document Understanding [49.26132236798123]
視覚言語モデル(VLM)は、文書理解における主要なアプローチになりつつある。
本稿では,粗いプロセスにおいて,検索者と4つの協調エージェントを編成するマルチエージェントフレームワークSLEUTHを提案する。
このフレームワークは、検索したページ内の重要なテキストおよび視覚的手がかりを特定し、テーブルやチャートなどの健全な視覚的エビデンスをフィルタし、クエリを分析して推論戦略を考案する。
論文 参考訳(メタデータ) (2025-11-28T03:09:40Z) - ReAG: Reasoning-Augmented Generation for Knowledge-based Visual Question Answering [54.72902502486611]
ReAG(Reasoning-Augmented Multimodal RAG)は、粗い部分ときめ細かい部分の検索と、無関係な通路をフィルタリングする批評家モデルを組み合わせた手法である。
ReAGは従来の手法よりも優れており、解答精度が向上し、検索された証拠に根ざした解釈可能な推論を提供する。
論文 参考訳(メタデータ) (2025-11-27T19:01:02Z) - Cluster-based Adaptive Retrieval: Dynamic Context Selection for RAG Applications [8.946586077722822]
クラスタベースのAdaptive Retrieval (CAR) は、順序付きクエリ文書類似度距離のクラスタリングパターンを分析して、最適な文書数を決定するアルゴリズムである。
CARは、常に最適な検索深度を選択し、最高TESスコアを達成し、固定されたトップkベースラインを全て上回る。
論文 参考訳(メタデータ) (2025-10-02T05:11:12Z) - Enhancing Document VQA Models via Retrieval-Augmented Generation [1.6769365072542683]
ドキュメントVQAは数十ページに及ぶドキュメントに対処しなければならないが、主要なシステムは依然として非常に大きな視覚言語モデルに依存している。
Retrieval-Augmented Generation (RAG) は魅力的な代替手段を提供する。
論文 参考訳(メタデータ) (2025-08-26T12:32:55Z) - Improving Document Retrieval Coherence for Semantically Equivalent Queries [63.97649988164166]
同じ文書を検索する際のモデルのコヒーレンスを改善する訓練DRにおける多段階ランク付け損失のバリエーションを提案する。
この損失は、多様だがセマンティックな等価なクエリのために検索されたトップkランクのドキュメント間の不一致を罰する。
論文 参考訳(メタデータ) (2025-08-11T13:34:59Z) - Gumbel Reranking: Differentiable End-to-End Reranker Optimization [61.16471123356738]
RAGシステムは関連する文書を識別するためにリランカーに依存している。
注釈付きクエリ-ドキュメントペアが不足しているため、これらのモデルの微調整は依然として難しい。
我々は,トレーニングと推論のギャップを最小限に抑えることを目的とした,リランカーのためのエンドツーエンドのトレーニングフレームワークであるGumbel Re rankを提案する。
論文 参考訳(メタデータ) (2025-02-16T13:23:39Z) - Quam: Adaptive Retrieval through Query Affinity Modelling [15.3583908068962]
ユーザ情報要求に基づいて文書をランク付けする関連モデルを構築することは,情報検索とNLPコミュニティの中心的な課題である。
提案するQuamにより,適応検索の初期段階の統一的な視点を提案する。
提案手法であるQuamは,リコール性能を26%向上させる。
論文 参考訳(メタデータ) (2024-10-26T22:52:12Z) - Read and Think: An Efficient Step-wise Multimodal Language Model for Document Understanding and Reasoning [0.0]
既存の文書理解モデルは、1つの単語やフレーズで直接答えを生成する傾向がある。
文書画像の段階的問合せ対を生成するためにMLLM(Multi-modal Large Language Models)を用いる。
次に、生成された高品質なデータを使用して、DocAssistantと呼ばれる、人間化された文書理解と推論モデルをトレーニングします。
論文 参考訳(メタデータ) (2024-02-26T01:17:50Z) - Query Focused Multi-Document Summarization with Distant Supervision [88.39032981994535]
既存の作業は、クエリとテキストセグメント間の関連性を推定する検索スタイルの手法に大きく依存している。
本稿では,クエリに関連するセグメントを推定するための個別モジュールを導入した粗大なモデリングフレームワークを提案する。
我々のフレームワークは、標準QFSベンチマークにおいて、強力な比較システムよりも優れていることを実証する。
論文 参考訳(メタデータ) (2020-04-06T22:35:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。