論文の概要: Vision-Guided Chunking Is All You Need: Enhancing RAG with Multimodal Document Understanding
- arxiv url: http://arxiv.org/abs/2506.16035v1
- Date: Thu, 19 Jun 2025 05:11:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-23 19:00:04.945736
- Title: Vision-Guided Chunking Is All You Need: Enhancing RAG with Multimodal Document Understanding
- Title(参考訳): マルチモーダル文書理解によるRAGの強化
- Authors: Vishesh Tripathi, Tanmay Odapally, Indraneel Das, Uday Allu, Biddwan Ahmed,
- Abstract要約: Retrieval-Augmented Generation (RAG) システムは情報検索と質問応答に革命をもたらした。
従来のテキストベースのチャンキング手法は、複雑なドキュメント構造、マルチページテーブル、埋め込みフィギュア、ページ境界を越えたコンテキスト依存に苦労する。
本稿では,Large Multimodal Models(LMM)を利用してPDF文書をバッチで処理する,新しいマルチモーダル文書チャンキング手法を提案する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Retrieval-Augmented Generation (RAG) systems have revolutionized information retrieval and question answering, but traditional text-based chunking methods struggle with complex document structures, multi-page tables, embedded figures, and contextual dependencies across page boundaries. We present a novel multimodal document chunking approach that leverages Large Multimodal Models (LMMs) to process PDF documents in batches while maintaining semantic coherence and structural integrity. Our method processes documents in configurable page batches with cross-batch context preservation, enabling accurate handling of tables spanning multiple pages, embedded visual elements, and procedural content. We evaluate our approach on a curated dataset of PDF documents with manually crafted queries, demonstrating improvements in chunk quality and downstream RAG performance. Our vision-guided approach achieves better accuracy compared to traditional vanilla RAG systems, with qualitative analysis showing superior preservation of document structure and semantic coherence.
- Abstract(参考訳): Retrieval-Augmented Generation (RAG) システムは情報検索と質問応答に革命をもたらしたが、従来のテキストベースのチャンキング手法は複雑な文書構造、複数ページのテーブル、埋め込み図形、ページ境界を越えたコンテキスト依存に苦戦している。
本稿では,Large Multimodal Models(LMM)を利用して,意味的コヒーレンスと構造的整合性を維持しつつ,PDF文書をバッチで処理する,新しいマルチモーダル文書チャンキング手法を提案する。
提案手法は,複数ページにまたがるテーブル,組込み視覚要素,手続き的内容の正確な処理を可能にする,クロスバッチコンテキスト保存による構成可能なページバッチ内の文書の処理を行う。
我々は,手作業によるクエリによるPDF文書のキュレートされたデータセットに対するアプローチを評価し,チャンク品質と下流RAG性能の改善を実証した。
我々の視覚誘導アプローチは,従来のバニラRAGシステムよりも精度が高く,文書構造とセマンティックコヒーレンスの保存性が良好である。
関連論文リスト
- QID: Efficient Query-Informed ViTs in Data-Scarce Regimes for OCR-free Visual Document Understanding [53.69841526266547]
トレーニング済みのVision-Language Modelを新しいデータセットで微調整することは、ビジョンエンコーダの最適化に不足することが多い。
視覚エンコーダにクエリの埋め込みを統合する,新しい,合理化されたアーキテクチャ保存アプローチであるQIDを導入する。
論文 参考訳(メタデータ) (2025-04-03T18:47:16Z) - MMDocIR: Benchmarking Multi-Modal Retrieval for Long Documents [26.39534684408116]
この研究は、ページレベルとレイアウトレベルの検索という2つの異なるタスクを含むMMDocIRという新しいベンチマークを導入する。
MMDocIRベンチマークは、専門家によって注釈付けされた1,685の質問と、ブートストラップ付きラベル付き173,843の質問を含む、豊富なデータセットで構成されている。
論文 参考訳(メタデータ) (2025-01-15T14:30:13Z) - Advanced ingestion process powered by LLM parsing for RAG system [0.0]
本稿では LLM を利用した OCR を用いたマルチストラテジー解析手法を提案する。
この手法はノードベースの抽出手法を用いて、異なる情報タイプ間の関係を作り、コンテキスト対応メタデータを生成する。
論文 参考訳(メタデータ) (2024-12-16T20:33:33Z) - VisDoM: Multi-Document QA with Visually Rich Elements Using Multimodal Retrieval-Augmented Generation [100.06122876025063]
本稿では,マルチドキュメント設定でQAシステムを評価するために設計された,初の総合ベンチマークであるVisDoMBenchを紹介する。
視覚とテキストのRAGを同時に利用する新しいマルチモーダル検索拡張生成(RAG)手法であるVisDoMRAGを提案する。
論文 参考訳(メタデータ) (2024-12-14T06:24:55Z) - PDF-MVQA: A Dataset for Multimodal Information Retrieval in PDF-based Visual Question Answering [13.625303311724757]
文書質問回答(QA)は、視覚に富む文書(VRD)を理解する上での課題を提示する
我々は,複数のページとマルチモーダル情報検索を含む研究雑誌記事に適したPDF-MVQAを提案する。
論文 参考訳(メタデータ) (2024-04-19T09:00:05Z) - PDFTriage: Question Answering over Long, Structured Documents [60.96667912964659]
構造化文書をプレーンテキストとして表現することは、これらの文書をリッチな構造でユーザ精神モデルと矛盾する。
本稿では,構造や内容に基づいて,モデルがコンテキストを検索できるPDFTriageを提案する。
ベンチマークデータセットは,80以上の構造化文書に900以上の人間が生成した質問からなる。
論文 参考訳(メタデータ) (2023-09-16T04:29:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。