論文の概要: MMDocIR: Benchmarking Multi-Modal Retrieval for Long Documents
- arxiv url: http://arxiv.org/abs/2501.08828v2
- Date: Tue, 20 May 2025 14:49:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-21 14:49:51.664355
- Title: MMDocIR: Benchmarking Multi-Modal Retrieval for Long Documents
- Title(参考訳): MMDocIR: 長いドキュメントのためのマルチモーダル検索のベンチマーク
- Authors: Kuicai Dong, Yujing Chang, Xin Deik Goh, Dexun Li, Ruiming Tang, Yong Liu,
- Abstract要約: この研究は、ページレベルとレイアウトレベルの検索という2つの異なるタスクを含むMMDocIRという新しいベンチマークを導入する。
MMDocIRベンチマークは、専門家によって注釈付けされた1,685の質問と、ブートストラップ付きラベル付き173,843の質問を含む、豊富なデータセットで構成されている。
- 参考スコア(独自算出の注目度): 26.39534684408116
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Multimodal document retrieval aims to identify and retrieve various forms of multimodal content, such as figures, tables, charts, and layout information from extensive documents. Despite its increasing popularity, there is a notable lack of a comprehensive and robust benchmark to effectively evaluate the performance of systems in such tasks. To address this gap, this work introduces a new benchmark, named MMDocIR, that encompasses two distinct tasks: page-level and layout-level retrieval. The former evaluates the performance of identifying the most relevant pages within a long document, while the later assesses the ability of detecting specific layouts, providing a more fine-grained measure than whole-page analysis. A layout refers to a variety of elements, including textual paragraphs, equations, figures, tables, or charts. The MMDocIR benchmark comprises a rich dataset featuring 1,685 questions annotated by experts and 173,843 questions with bootstrapped labels, making it a valuable resource in multimodal document retrieval for both training and evaluation. Through rigorous experiments, we demonstrate that (i) visual retrievers significantly outperform their text counterparts, (ii) MMDocIR training set effectively enhances the performance of multimodal document retrieval and (iii) text retrievers leveraging VLM-text significantly outperforms retrievers relying on OCR-text. Our dataset is available at https://mmdocrag.github.io/MMDocIR/.
- Abstract(参考訳): マルチモーダル文書検索は、図形、表、チャート、レイアウト情報などの様々な形態のマルチモーダルコンテンツを特定し、検索することを目的としている。
人気が高まっているにもかかわらず、そのようなタスクにおけるシステムの性能を効果的に評価するための総合的で堅牢なベンチマークが欠如している。
このギャップに対処するため、この研究は、ページレベルとレイアウトレベルの検索という2つの異なるタスクを含むMMDocIRという新しいベンチマークを導入した。
前者は、長いドキュメント内で最も関連性の高いページを識別する性能を評価し、後者は、特定のレイアウトを検出する能力を評価し、ページ全体の分析よりもきめ細かい指標を提供する。
レイアウトとは、テキストの段落、方程式、図形、表、チャートなど、さまざまな要素を指す。
MMDocIRベンチマークは、専門家が注釈付けした1,685の質問と173,843の質問をブートストラップラベルでまとめたリッチデータセットで構成されており、トレーニングと評価の両方において、マルチモーダル文書検索に有用なリソースとなっている。
厳密な実験を通して
(i)ビジュアルレトリバーは、テキストのコントラストを大幅に上回っている。
(ii)MMDocIRトレーニングセットはマルチモーダル文書検索の性能を効果的に向上させる
3) VLM-text を利用したテキスト検索は,OCR-text に依存した検索よりも優れていた。
私たちのデータセットはhttps://mmdocrag.github.io/MMDocIR/で公開されています。
関連論文リスト
- A Unified Retrieval Framework with Document Ranking and EDU Filtering for Multi-document Summarization [18.13855430873805]
現在の手法では、検索プロセスの後にトランケーションを適用してコンテキスト長に適合させる。
本稿では,クエリ選択と文書ランキングを統合した検索に基づく新しいフレームワークを提案する。
我々は、複数のMDSデータセット上でのフレームワークを評価し、ROUGEメトリクスの一貫した改善を実証した。
論文 参考訳(メタデータ) (2025-04-23T13:41:10Z) - M-DocSum: Do LVLMs Genuinely Comprehend Interleaved Image-Text in Document Summarization? [49.53982792497275]
本稿では,LVLM(Large Vision-Language Models)が文書中のインターリーブ画像テキストを真に理解しているかどうかを検討する。
既存の文書理解ベンチマークは、しばしば質問応答形式を用いてLVLMを評価する。
マルチモーダル文書要約ベンチマーク(M-DocSum-Bench)について紹介する。
M-DocSum-Benchは500の高品質なarXiv論文と、人間の好みに合わせたインターリーブされたマルチモーダル要約で構成されている。
論文 参考訳(メタデータ) (2025-03-27T07:28:32Z) - LongDocURL: a Comprehensive Multimodal Long Document Benchmark Integrating Understanding, Reasoning, and Locating [40.44974704748952]
大規模視覚言語モデル(LVLM)は文書理解能力を大幅に改善した。
既存の文書理解ベンチマークは少数のページしか処理できない。
半自動構築パイプラインを開発し,2,325の高品質な質問応答ペアを収集し,33,000ページ以上の文書を網羅する。
論文 参考訳(メタデータ) (2024-12-24T13:39:32Z) - VisDoM: Multi-Document QA with Visually Rich Elements Using Multimodal Retrieval-Augmented Generation [100.06122876025063]
本稿では,マルチドキュメント設定でQAシステムを評価するために設計された,初の総合ベンチマークであるVisDoMBenchを紹介する。
視覚とテキストのRAGを同時に利用する新しいマルチモーダル検索拡張生成(RAG)手法であるVisDoMRAGを提案する。
論文 参考訳(メタデータ) (2024-12-14T06:24:55Z) - M-Longdoc: A Benchmark For Multimodal Super-Long Document Understanding And A Retrieval-Aware Tuning Framework [75.95430061891828]
851サンプルのベンチマークであるM-LongDocと、大規模マルチモーダルモデルの性能を評価するための自動フレームワークを紹介する。
効率的なマルチモーダル文書読解のための検索対応チューニング手法を提案する。
論文 参考訳(メタデータ) (2024-11-09T13:30:38Z) - M3DocRAG: Multi-modal Retrieval is What You Need for Multi-page Multi-document Understanding [63.33447665725129]
M3DocRAGは、様々な文書コンテキストに柔軟に対応する新しいマルチモーダルRAGフレームワークである。
M3DocRAGは視覚情報を保存しながら、単一の文書や多数の文書を効率的に処理できる。
M3DocVQAはオープンドメインDocVQAを3,000以上のPDFドキュメントと4万以上のページで評価するための新しいベンチマークである。
論文 参考訳(メタデータ) (2024-11-07T18:29:38Z) - Unified Multimodal Interleaved Document Representation for Retrieval [57.65409208879344]
複数のモダリティでインターリーブされた文書を階層的に埋め込む手法を提案する。
セグメント化されたパスの表現を1つのドキュメント表現にマージする。
我々は,本手法が関連するベースラインを大幅に上回ることを示す。
論文 参考訳(メタデータ) (2024-10-03T17:49:09Z) - PDF-MVQA: A Dataset for Multimodal Information Retrieval in PDF-based Visual Question Answering [13.625303311724757]
文書質問回答(QA)は、視覚に富む文書(VRD)を理解する上での課題を提示する
我々は,複数のページとマルチモーダル情報検索を含む研究雑誌記事に適したPDF-MVQAを提案する。
論文 参考訳(メタデータ) (2024-04-19T09:00:05Z) - DAPR: A Benchmark on Document-Aware Passage Retrieval [57.45793782107218]
我々は,このタスクemphDocument-Aware Passage Retrieval (DAPR)を提案する。
State-of-The-Art(SoTA)パスレトリバーのエラーを分析しながら、大きなエラー(53.5%)は文書コンテキストの欠如に起因する。
提案するベンチマークにより,検索システムの開発・比較を今後行うことができる。
論文 参考訳(メタデータ) (2023-05-23T10:39:57Z) - TRIE++: Towards End-to-End Information Extraction from Visually Rich
Documents [51.744527199305445]
本稿では,視覚的にリッチな文書からエンド・ツー・エンドの情報抽出フレームワークを提案する。
テキスト読み出しと情報抽出は、よく設計されたマルチモーダルコンテキストブロックを介して互いに強化することができる。
フレームワークはエンドツーエンドのトレーニング可能な方法でトレーニングでき、グローバルな最適化が達成できる。
論文 参考訳(メタデータ) (2022-07-14T08:52:07Z) - Towards a Multi-modal, Multi-task Learning based Pre-training Framework
for Document Representation Learning [5.109216329453963]
本稿では,新しい事前学習タスクとして,文書トピックモデリングと文書シャッフル予測を導入する。
本稿では,Longformer ネットワークアーキテクチャをバックボーンとして,複数ページの文書からのマルチモーダル情報をエンド・ツー・エンドで符号化する。
論文 参考訳(メタデータ) (2020-09-30T05:39:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。