論文の概要: M3DocRAG: Multi-modal Retrieval is What You Need for Multi-page Multi-document Understanding
- arxiv url: http://arxiv.org/abs/2411.04952v1
- Date: Thu, 07 Nov 2024 18:29:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-08 19:40:29.226710
- Title: M3DocRAG: Multi-modal Retrieval is What You Need for Multi-page Multi-document Understanding
- Title(参考訳): M3DocRAG:マルチページマルチドキュメント理解に必要なマルチモーダル検索
- Authors: Jaemin Cho, Debanjan Mahata, Ozan Irsoy, Yujie He, Mohit Bansal,
- Abstract要約: M3DocRAGは、様々な文書コンテキストに柔軟に対応する新しいマルチモーダルRAGフレームワークである。
M3DocRAGは視覚情報を保存しながら、単一の文書や多数の文書を効率的に処理できる。
M3DocVQAはオープンドメインDocVQAを3,000以上のPDFドキュメントと4万以上のページで評価するための新しいベンチマークである。
- 参考スコア(独自算出の注目度): 63.33447665725129
- License:
- Abstract: Document visual question answering (DocVQA) pipelines that answer questions from documents have broad applications. Existing methods focus on handling single-page documents with multi-modal language models (MLMs), or rely on text-based retrieval-augmented generation (RAG) that uses text extraction tools such as optical character recognition (OCR). However, there are difficulties in applying these methods in real-world scenarios: (a) questions often require information across different pages or documents, where MLMs cannot handle many long documents; (b) documents often have important information in visual elements such as figures, but text extraction tools ignore them. We introduce M3DocRAG, a novel multi-modal RAG framework that flexibly accommodates various document contexts (closed-domain and open-domain), question hops (single-hop and multi-hop), and evidence modalities (text, chart, figure, etc.). M3DocRAG finds relevant documents and answers questions using a multi-modal retriever and an MLM, so that it can efficiently handle single or many documents while preserving visual information. Since previous DocVQA datasets ask questions in the context of a specific document, we also present M3DocVQA, a new benchmark for evaluating open-domain DocVQA over 3,000+ PDF documents with 40,000+ pages. In three benchmarks (M3DocVQA/MMLongBench-Doc/MP-DocVQA), empirical results show that M3DocRAG with ColPali and Qwen2-VL 7B achieves superior performance than many strong baselines, including state-of-the-art performance in MP-DocVQA. We provide comprehensive analyses of different indexing, MLMs, and retrieval models. Lastly, we qualitatively show that M3DocRAG can successfully handle various scenarios, such as when relevant information exists across multiple pages and when answer evidence only exists in images.
- Abstract(参考訳): ドキュメントからの質問に答えるドキュメントビジュアル質問応答(DocVQA)パイプラインは幅広い応用がある。
既存の手法は、マルチモーダル言語モデル(MLM)を用いたシングルページ文書の処理や、光学文字認識(OCR)などのテキスト抽出ツールを用いたテキストベースの検索拡張生成(RAG)に依存している。
しかし、これらの手法を現実のシナリオに適用することは困難である。
(a)質問は、MLMが多くの長い文書を扱うことができない、異なるページや文書にまたがる情報を必要とすることが多い。
b)文書は図形などの視覚要素に重要な情報を持っていることが多いが、テキスト抽出ツールはそれらを無視している。
M3DocRAGは文書コンテキスト(クローズドドメインとオープンドメイン)、質問ホップ(シングルホップとマルチホップ)、エビデンスモダリティ(テキスト、チャート、フィギュアなど)に柔軟に対応する新しいマルチモーダルRAGフレームワークである。
M3DocRAGは、関連文書を見つけ出し、マルチモーダル検索器とMLMを使って質問に答え、視覚情報を保存しながら、単一の文書や多数の文書を効率的に処理できるようにする。
従来のDocVQAデータセットが特定のドキュメントのコンテキストで質問をしていたため、オープンドメインDocVQAを4万ページ以上で3,000以上のPDFドキュメントで評価する新しいベンチマークであるM3DocVQAも提示する。
3つのベンチマーク(M3DocVQA/MMLongBench-Doc/MP-DocVQA)では、CorPaliとQwen2-VL 7Bを用いたM3DocRAGが、MP-DocVQAの最先端性能を含む多くの強力なベースラインよりも優れたパフォーマンスを達成している。
我々は,様々な索引付け,MLM,検索モデルを網羅的に分析する。
最後に,M3DocRAGが複数のページにまたがる関連情報が存在する場合や,画像にのみ回答エビデンスが存在する場合など,様々なシナリオをうまく処理できることを定性的に示す。
関連論文リスト
- MMDocBench: Benchmarking Large Vision-Language Models for Fine-Grained Visual Document Understanding [66.23502779435053]
LVLM(Large Vision-Language Models)は多くの視覚言語タスクにおいて顕著な性能を発揮している。
既存のベンチマークには、他のデータと混合された詳細な評価サンプルが限られているか、あるいは自然画像のオブジェクトレベルの評価に限られている。
自然画像の補足に多粒度および多モード情報を用いた文書画像を提案する。
論文 参考訳(メタデータ) (2024-10-25T16:00:55Z) - Unified Multi-Modal Interleaved Document Representation for Information Retrieval [57.65409208879344]
我々は、異なるモダリティでインターリーブされた文書を均等に埋め込み、より包括的でニュアンスのある文書表現を生成する。
具体的には、テキスト、画像、テーブルの処理と統合を統一されたフォーマットと表現に統合する、近年のビジョン言語モデルの能力を活用して、これを実現する。
論文 参考訳(メタデータ) (2024-10-03T17:49:09Z) - MMLongBench-Doc: Benchmarking Long-context Document Understanding with Visualizations [105.10376440302076]
MMLongBench-Doc は 1,062 のエキスパート注釈付き質問を含む長文マルチモーダルベンチマークである。
130の長いPDFフォーマットの文書の上に構築されており、平均49.4ページと20,971のテキストトークンがある。
14個のLVLMの実験により、長いコンテキストのDUが現在のモデルに大きく挑戦することを示した。
論文 参考訳(メタデータ) (2024-07-01T17:59:26Z) - Multi-Page Document Visual Question Answering using Self-Attention Scoring Mechanism [12.289101189321181]
Document Visual Question Answering (Document VQA)は、文書理解と自然言語処理のコミュニティから大きな関心を集めている。
最先端の単一ページのDocument VQAメソッドは、素晴らしいパフォーマンスを示しているが、マルチページのシナリオでは、これらのメソッドは苦労している。
マルチページ文書VQAタスクのための新しい手法と効率的なトレーニング戦略を提案する。
論文 参考訳(メタデータ) (2024-04-29T18:07:47Z) - PDF-MVQA: A Dataset for Multimodal Information Retrieval in PDF-based Visual Question Answering [13.625303311724757]
文書質問回答(QA)は、視覚に富む文書(VRD)を理解する上での課題を提示する
我々は,複数のページとマルチモーダル情報検索を含む研究雑誌記事に適したPDF-MVQAを提案する。
論文 参考訳(メタデータ) (2024-04-19T09:00:05Z) - PDFTriage: Question Answering over Long, Structured Documents [60.96667912964659]
構造化文書をプレーンテキストとして表現することは、これらの文書をリッチな構造でユーザ精神モデルと矛盾する。
本稿では,構造や内容に基づいて,モデルがコンテキストを検索できるPDFTriageを提案する。
ベンチマークデータセットは,80以上の構造化文書に900以上の人間が生成した質問からなる。
論文 参考訳(メタデータ) (2023-09-16T04:29:05Z) - One-Shot Doc Snippet Detection: Powering Search in Document Beyond Text [12.98328149016239]
ターゲット文書中のスニペットを見つけるために,単発スニペットタスクとしてMONOMERを提案する。
我々は、MONOMERが1ショットテンプレート-LMからいくつかのベースラインより優れていることを示す実験を行う。
私たちはmonomerをトレーニングします。
視覚的に類似したクエリ検出データを持つ生成データ。
論文 参考訳(メタデータ) (2022-09-12T19:26:32Z) - Multi-View Document Representation Learning for Open-Domain Dense
Retrieval [87.11836738011007]
本稿では,多視点文書表現学習フレームワークを提案する。
ドキュメントを表現し、異なるクエリに合わせるように強制するために、マルチビューの埋め込みを作成することを目的としている。
実験により,本手法は最近の成果より優れ,最先端の結果が得られた。
論文 参考訳(メタデータ) (2022-03-16T03:36:38Z) - Towards a Multi-modal, Multi-task Learning based Pre-training Framework
for Document Representation Learning [5.109216329453963]
本稿では,新しい事前学習タスクとして,文書トピックモデリングと文書シャッフル予測を導入する。
本稿では,Longformer ネットワークアーキテクチャをバックボーンとして,複数ページの文書からのマルチモーダル情報をエンド・ツー・エンドで符号化する。
論文 参考訳(メタデータ) (2020-09-30T05:39:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。