論文の概要: SimpleDoc: Multi-Modal Document Understanding with Dual-Cue Page Retrieval and Iterative Refinement
- arxiv url: http://arxiv.org/abs/2506.14035v1
- Date: Mon, 16 Jun 2025 22:15:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-18 17:34:59.257509
- Title: SimpleDoc: Multi-Modal Document Understanding with Dual-Cue Page Retrieval and Iterative Refinement
- Title(参考訳): SimpleDoc: デュアルキューページ検索と反復リファインメントによるマルチモーダルドキュメント理解
- Authors: Chelsi Jain, Yiran Wu, Yifan Zeng, Jiale Liu, S hengyu Dai, Zhenwen Shao, Qingyun Wu, Huazheng Wang,
- Abstract要約: Document Visual Question Answering (DocVQA)は実用的で難しいタスクである。
最近の手法は、同様のRAG(Retrieval Augmented Generation)パイプラインに従う。
DocVQA用の拡張フレームワークであるSimpleDocを紹介します。
- 参考スコア(独自算出の注目度): 17.272061289197342
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Document Visual Question Answering (DocVQA) is a practical yet challenging task, which is to ask questions based on documents while referring to multiple pages and different modalities of information, e.g, images and tables. To handle multi-modality, recent methods follow a similar Retrieval Augmented Generation (RAG) pipeline, but utilize Visual Language Models (VLMs) based embedding model to embed and retrieve relevant pages as images, and generate answers with VLMs that can accept an image as input. In this paper, we introduce SimpleDoc, a lightweight yet powerful retrieval - augmented framework for DocVQA. It boosts evidence page gathering by first retrieving candidates through embedding similarity and then filtering and re-ranking these candidates based on page summaries. A single VLM-based reasoner agent repeatedly invokes this dual-cue retriever, iteratively pulling fresh pages into a working memory until the question is confidently answered. SimpleDoc outperforms previous baselines by 3.2% on average on 4 DocVQA datasets with much fewer pages retrieved. Our code is available at https://github.com/ag2ai/SimpleDoc.
- Abstract(参考訳): Document Visual Question Answering (DocVQA) は、複数のページと様々な情報、例えば画像やテーブルを参照しながら、文書に基づいて質問することである。
マルチモダリティを扱うために、最近の手法では、類似のレトリーバル拡張生成(RAG)パイプラインに従っているが、Visual Language Models(VLM)ベースの埋め込みモデルを使用して、関連するページを画像として埋め込み、取得し、入力として画像を受け入れることができるVLMによる回答を生成する。
本稿では,DocVQAのための軽量かつ強力な検索フレームワークであるSimpleDocを紹介する。
類似性を埋め込んで候補を検索し、ページの要約に基づいてこれらの候補をフィルタリングし、再ランク付けすることで、エビデンスページの収集を促進する。
単一のVLMベースの推論エージェントがこのデュアルキューレトリバーを繰り返し起動し、質問が自信を持って答えるまで、新しいページをワーキングメモリに繰り返しプルする。
SimpleDocは4つのDocVQAデータセットで平均3.2%、検索したページ数はずっと少ない。
私たちのコードはhttps://github.com/ag2ai/SimpleDocで利用可能です。
関連論文リスト
- M3DocRAG: Multi-modal Retrieval is What You Need for Multi-page Multi-document Understanding [63.33447665725129]
M3DocRAGは、様々な文書コンテキストに柔軟に対応する新しいマルチモーダルRAGフレームワークである。
M3DocRAGは視覚情報を保存しながら、単一の文書や多数の文書を効率的に処理できる。
M3DocVQAはオープンドメインDocVQAを3,000以上のPDFドキュメントと4万以上のページで評価するための新しいベンチマークである。
論文 参考訳(メタデータ) (2024-11-07T18:29:38Z) - mPLUG-DocOwl2: High-resolution Compressing for OCR-free Multi-page Document Understanding [103.05835688963947]
本稿では,高解像度文書画像を324個のトークンに圧縮する高解像度DocCompressorモジュールを提案する。
DocOwl2は、マルチページ文書理解ベンチマークにまたがる最先端の新たなベンチマークを設定し、最初のトークンレイテンシを50%以上削減する。
同様のデータで訓練されたシングルイメージMLLMと比較して、DocOwl2はビジュアルトークンの20%未満で、同等のシングルページ理解性能を実現しています。
論文 参考訳(メタデータ) (2024-09-05T11:09:00Z) - Multi-Page Document Visual Question Answering using Self-Attention Scoring Mechanism [12.289101189321181]
Document Visual Question Answering (Document VQA)は、文書理解と自然言語処理のコミュニティから大きな関心を集めている。
最先端の単一ページのDocument VQAメソッドは、素晴らしいパフォーマンスを示しているが、マルチページのシナリオでは、これらのメソッドは苦労している。
マルチページ文書VQAタスクのための新しい手法と効率的なトレーニング戦略を提案する。
論文 参考訳(メタデータ) (2024-04-29T18:07:47Z) - Hierarchical multimodal transformers for Multi-Page DocVQA [9.115927248875566]
DocVQAの既存の作業は、シングルページのドキュメントのみを考慮している。
この作業では、DocVQAをマルチページシナリオに拡張します。
長いマルチページ文書を処理するための現在の手法の限界を克服する新しい階層的手法であるHi-VT5を提案する。
論文 参考訳(メタデータ) (2022-12-07T10:09:49Z) - Generate rather than Retrieve: Large Language Models are Strong Context
Generators [74.87021992611672]
本稿では,文書検索を大規模言語モデル生成器に置き換えることで,知識集約型タスクを解く新しい視点を提案する。
我々は,提案手法をgenRead (genRead) と呼び,まず大きな言語モデルに対して,与えられた質問に基づいて文脈文書を生成し,次に生成された文書を読み出して最終回答を生成する。
論文 参考訳(メタデータ) (2022-09-21T01:30:59Z) - Learning Diverse Document Representations with Deep Query Interactions
for Dense Retrieval [79.37614949970013]
そこで本研究では,問合せの深い文書表現を学習する高密度検索モデルを提案する。
本モデルでは,各文書に生成した擬似クエリをエンコードして,クエリインフォームド・マルチビュー文書表現を得る。
論文 参考訳(メタデータ) (2022-08-08T16:00:55Z) - Multi-View Document Representation Learning for Open-Domain Dense
Retrieval [87.11836738011007]
本稿では,多視点文書表現学習フレームワークを提案する。
ドキュメントを表現し、異なるクエリに合わせるように強制するために、マルチビューの埋め込みを作成することを目的としている。
実験により,本手法は最近の成果より優れ,最先端の結果が得られた。
論文 参考訳(メタデータ) (2022-03-16T03:36:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。