論文の概要: MAB-DQA: Addressing Query Aspect Importance in Document Question Answering with Multi-Armed Bandits
- arxiv url: http://arxiv.org/abs/2604.08952v2
- Date: Thu, 16 Apr 2026 07:20:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-17 16:09:14.134331
- Title: MAB-DQA: Addressing Query Aspect Importance in Document Question Answering with Multi-Armed Bandits
- Title(参考訳): MAB-DQA:マルチアーマッド帯域を用いた文書質問応答におけるクエリの重要度に対処する
- Authors: Yixin Xiang, Yunshan Ma, Xiaoyu Du, Yibing Chen, Yanxin Zhang, Jinhui Tang,
- Abstract要約: 問合せにおける複数の暗黙的側面の異なる重要性を明示的にモデル化するために,Multi-Armed Bandit-based DQA framework (MAB-DQA)を提案する。
MAB-DQAは、クエリをアスペクト対応サブクエリに分解し、アスペクト固有の候補セットをそれぞれ検索する。
4つのベンチマークでは、MAB-DQAは最先端の手法よりも平均で5%-18%改善している。
- 参考スコア(独自算出の注目度): 34.78327984628085
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Document Question Answering (DQA) involves generating answers from a document based on a user's query, representing a key task in document understanding. This task requires interpreting visual layouts, which has prompted recent studies to adopt multimodal Retrieval-Augmented Generation (RAG) that processes page images for answer generation. However, in multimodal RAG, visual DQA struggles to utilize a large number of images effectively, as the retrieval stage often retains only a few candidate pages (e.g., Top-4), causing informative but less visually salient content to be overlooked in favor of common yet low-information pages. To address this issue, we propose a Multi-Armed Bandit-based DQA framework (MAB-DQA) to explicitly model the varying importance of multiple implicit aspects in a query. Specifically, MAB-DQA decomposes a query into aspect-aware subqueries and retrieves an aspect-specific candidate set for each. It treats each subquery as an arm and uses preliminary reasoning results from a small number of representative pages as reward signals to estimate aspect utility. Guided by an exploration-exploitation policy, MAB-DQA dynamically reallocates retrieval budgets toward high-value aspects. With the most informative pages and their correlations, MAB-DQA generates the expected results. On four benchmarks, MAB-DQA shows an average improvement of 5%-18% over the state-of-the-art method, consistently enhancing document understanding. Codes are available at https://github.com/ElephantOH/MAB-DQA.
- Abstract(参考訳): 文書質問回答 (Document Question Answering, DQA) は、ユーザのクエリに基づいて文書から回答を生成し、文書理解における重要なタスクを表現する。
この課題には視覚的レイアウトの解釈が必要であり、近年の研究では、回答生成のためにページイメージを処理するマルチモーダル検索拡張生成(RAG)を採用する研究が進められている。
しかし、マルチモーダルRAGでは、検索段階が少数の候補ページ(Top-4など)しか保持していないため、視覚的DQAは多数の画像の有効利用に苦慮している。
この問題に対処するために、クエリにおける複数の暗黙的アスペクトのさまざまな重要性を明示的にモデル化するために、Multi-Armed Bandit-based DQA framework (MAB-DQA)を提案する。
具体的には、MAB-DQAは、クエリをアスペクト対応サブクエリに分解し、アスペクト固有の候補セットをそれぞれ検索する。
各サブクエリをアームとして扱い、少数の代表ページからの予備的推論結果を報酬信号として使用してアスペクトユーティリティを推定する。
MAB-DQAは探索・探索政策によって誘導され、高価値な側面に検索予算を動的に再配置する。
最も情報性の高いページとその相関により、MAB-DQAは期待される結果を生成する。
4つのベンチマークでは、MAB-DQAは最先端の手法よりも平均で5%-18%改善し、文書理解を継続的に強化している。
コードはhttps://github.com/ElephantOH/MAB-DQA.comで公開されている。
関連論文リスト
- LITTA: Late-Interaction and Test-Time Alignment for Visually-Grounded Multimodal Retrieval [0.0]
LITTAは、エビデンスページ検索のためのクエリ拡張中心の検索フレームワークである。
ユーザクエリが与えられた後、LITTAは大きな言語モデルを使用して補完的なクエリ変種を生成する。
拡張されたクエリからの候補は、エビデンスカバレッジを改善するために、相互のランクフュージョンを通じて集約される。
論文 参考訳(メタデータ) (2026-03-10T13:25:39Z) - Pixel-Grounded Retrieval for Knowledgeable Large Multimodal Models [58.46663983451155]
PixSearchは、地域レベルの認識と検索強化推論を統合する、エンドツーエンドのLMM(Large Multimodal Model)である。
エンコーディング中、PixSearchは検索をトリガーする検索>トークンを出力し、クエリのモダリティ(テキスト、画像、リージョン)を選択し、ビジュアルクエリとして直接機能するピクセルレベルのマスクを生成する。
エゴセントリックでエンティティ中心のVQAベンチマークでは、PixSearchは事実整合性と一般化を大幅に改善する。
論文 参考訳(メタデータ) (2026-01-27T00:46:08Z) - Resolving Evidence Sparsity: Agentic Context Engineering for Long-Document Understanding [49.26132236798123]
視覚言語モデル(VLM)は、文書理解における主要なアプローチになりつつある。
本稿では,粗いプロセスにおいて,検索者と4つの協調エージェントを編成するマルチエージェントフレームワークSLEUTHを提案する。
このフレームワークは、検索したページ内の重要なテキストおよび視覚的手がかりを特定し、テーブルやチャートなどの健全な視覚的エビデンスをフィルタし、クエリを分析して推論戦略を考案する。
論文 参考訳(メタデータ) (2025-11-28T03:09:40Z) - ReAG: Reasoning-Augmented Generation for Knowledge-based Visual Question Answering [54.72902502486611]
ReAG(Reasoning-Augmented Multimodal RAG)は、粗い部分ときめ細かい部分の検索と、無関係な通路をフィルタリングする批評家モデルを組み合わせた手法である。
ReAGは従来の手法よりも優れており、解答精度が向上し、検索された証拠に根ざした解釈可能な推論を提供する。
論文 参考訳(メタデータ) (2025-11-27T19:01:02Z) - MAVIS: A Benchmark for Multimodal Source Attribution in Long-form Visual Question Answering [44.41273615523289]
マルチモーダルソース属性システムを評価するための最初のベンチマークであるMAVISを紹介する。
我々のデータセットは157Kの視覚的QAインスタンスで構成されており、各回答にはマルチモーダル文書を参照したファクトレベルの引用が注釈付けされている。
本研究では,情報性,接地性,流感の3次元に沿って細粒度自動測定値を作成し,人間の判断と強い相関関係を示す。
論文 参考訳(メタデータ) (2025-11-15T10:14:59Z) - Benchmarking Retrieval-Augmented Multimodal Generation for Document Question Answering [60.062194349648195]
Document Visual Question Answering (DocVQA)は、長いマルチモーダル文書の処理において2つの課題に直面している。
現在の文書検索拡張生成法(DocRAG)はテキスト中心のアプローチによって制限されている。
MMDocRAGは,多ページのクロスモーダルエビデンスチェーンを持つ4,055のエキスパートアノテーション付きQAペアを特徴とする総合ベンチマークである。
論文 参考訳(メタデータ) (2025-05-22T09:52:57Z) - VisDoM: Multi-Document QA with Visually Rich Elements Using Multimodal Retrieval-Augmented Generation [100.06122876025063]
本稿では,マルチドキュメント設定でQAシステムを評価するために設計された,初の総合ベンチマークであるVisDoMBenchを紹介する。
視覚とテキストのRAGを同時に利用する新しいマルチモーダル検索拡張生成(RAG)手法であるVisDoMRAGを提案する。
論文 参考訳(メタデータ) (2024-12-14T06:24:55Z) - HiQA: A Hierarchical Contextual Augmentation RAG for Multi-Documents QA [13.000411428297813]
コンテンツにカスケードメタデータと複数ルート検索機構を統合した,高度な多文書質問応答(MDQA)フレームワークであるHiQAを提案する。
また、MDQAの評価と研究を行うMasQAというベンチマークもリリースしました。
論文 参考訳(メタデータ) (2024-02-01T02:24:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。