論文の概要: MultiDocFusion: Hierarchical and Multimodal Chunking Pipeline for Enhanced RAG on Long Industrial Documents
- arxiv url: http://arxiv.org/abs/2604.12352v1
- Date: Tue, 14 Apr 2026 06:40:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-15 19:11:32.292475
- Title: MultiDocFusion: Hierarchical and Multimodal Chunking Pipeline for Enhanced RAG on Long Industrial Documents
- Title(参考訳): MultiDocFusion: 長期産業文書におけるRAG強化のための階層的およびマルチモーダルチャンキングパイプライン
- Authors: Joongmin Shin, Chanjun Park, Jeongbae Park, Jaehyung Seo, Heuiseok Lim,
- Abstract要約: RAGベースのQAは、長い産業文書を処理するための強力な方法として登場した。
我々はマルチモーダル・チャンキング・パイプラインであるMultiDocFusionを紹介した。
実験により,MultiDocFusionは検索精度を8~15%向上し,ANLS QAスコアは2~3%向上した。
- 参考スコア(独自算出の注目度): 30.113467423647865
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: RAG-based QA has emerged as a powerful method for processing long industrial documents. However, conventional text chunking approaches often neglect complex and long industrial document structures, causing information loss and reduced answer quality. To address this, we introduce MultiDocFusion, a multimodal chunking pipeline that integrates: (i) detection of document regions using vision-based document parsing, (ii) text extraction from these regions via OCR, (iii) reconstruction of document structure into a hierarchical tree using large language model (LLM)-based document section hierarchical parsing (DSHP-LLM), and (iv) construction of hierarchical chunks through DFS-based grouping. Extensive experiments across industrial benchmarks demonstrate that MultiDocFusion improves retrieval precision by 8-15% and ANLS QA scores by 2-3% compared to baselines, emphasizing the critical role of explicitly leveraging document hierarchy for multimodal document-based QA. These significant performance gains underscore the necessity of structure-aware chunking in enhancing the fidelity of RAG-based QA systems.
- Abstract(参考訳): RAGベースのQAは、長い産業文書を処理するための強力な方法として登場した。
しかし、従来のテキストチャンキング手法は複雑で長い産業用文書構造を無視することが多く、情報損失と回答品質の低下を引き起こす。
これを解決するために、MultiDocFusionというマルチモーダルなチャンキングパイプラインを紹介します。
一 視覚に基づく文書解析を用いた文書領域の検出
(ii)OCRによるこれらの領域からのテキスト抽出
3大言語モデル(LLM)に基づく文書セクション階層解析(DSHP-LLM)を用いた文書構造を階層木に再構築し、
(4) DFSに基づくグループ化による階層的チャンクの構築。
産業ベンチマークによる大規模な実験により、MultiDocFusionは検索精度を8~15%向上し、ANLS QAスコアは2~3%向上し、マルチモーダル文書ベースのQAに文書階層を明示的に活用する重要な役割を強調した。
これらの顕著な性能向上は、RAGベースのQAシステムの忠実性を高める上で、構造認識チャンキングの必要性を浮き彫りにしている。
関連論文リスト
- BookRAG: A Hierarchical Structure-aware Index-based Approach for Retrieval-Augmented Generation on Complex Documents [11.158307125677375]
Retrieval-Augmented Generation (RAG)は、外部の複雑なドキュメントから非常に関連性の高い情報をクエリする。
本稿では,階層構造を持つ文書を対象とした新しいRAG手法であるBookRAGを紹介する。
BookRAGは最先端のパフォーマンスを実現し、検索リコールとQA精度の両方において、ベースラインを著しく上回っている。
論文 参考訳(メタデータ) (2025-12-03T03:40:49Z) - Doc-Researcher: A Unified System for Multimodal Document Parsing and Deep Research [31.973886754355547]
Doc-Researcherは、テキストのみ、ビジョンのみ、ハイブリッドパラダイム間のギャップを埋める統一システムである。
マルチモーダル,マルチホップ,マルチドキュメント,マルチターンディープリサーチの最初のベンチマークであるM4DocBenchを紹介する。
Doc-Researcherの精度は50.6%で、最先端のベースラインよりも3.4倍高い。
論文 参考訳(メタデータ) (2025-10-24T16:07:54Z) - Scaling Beyond Context: A Survey of Multimodal Retrieval-Augmented Generation for Document Understanding [61.36285696607487]
文書理解は、財務分析から科学的発見への応用に不可欠である。
現在のアプローチでは、OCRベースのパイプラインがLarge Language Models(LLM)やネイティブのMultimodal LLMs(MLLM)に制限されている。
Retrieval-Augmented Generation (RAG)は、外部データの基底モデルを支援するが、文書のマルチモーダルな性質は、テキスト、テーブル、チャート、レイアウトを組み合わせることで、より高度なパラダイムを必要とする。
論文 参考訳(メタデータ) (2025-10-17T02:33:16Z) - MMESGBench: Pioneering Multimodal Understanding and Complex Reasoning Benchmark for ESG Tasks [56.350173737493215]
環境・社会・ガバナンス(ESG)報告は、持続可能性の実践の評価、規制コンプライアンスの確保、財務透明性の促進に不可欠である。
MMESGBenchは、マルチモーダル理解と複雑な推論を、構造的に多種多様なマルチソースESG文書間で評価するための、最初のベンチマークデータセットである。
MMESGBenchは、45のESG文書から得られた933の検証済みQAペアで構成され、7つの異なるドキュメントタイプと3つの主要なESGソースカテゴリにまたがる。
論文 参考訳(メタデータ) (2025-07-25T03:58:07Z) - Docopilot: Improving Multimodal Models for Document-Level Understanding [87.60020625241178]
マルチモーダル文書の詳細な理解を支援するために,高品質な文書レベルデータセットDoc-750Kを提案する。
このデータセットには、さまざまなドキュメント構造、広範なクロスページ依存関係、および元のドキュメントから派生した実際の質問と回答のペアが含まれている。
データセットに基づいて、RAGに頼ることなく、文書レベルの依存関係を正確に処理できるネイティブなマルチモーダルモデルであるDocopilotを開発する。
論文 参考訳(メタデータ) (2025-07-19T16:03:34Z) - Vision-Guided Chunking Is All You Need: Enhancing RAG with Multimodal Document Understanding [0.0]
Retrieval-Augmented Generation (RAG) システムは情報検索と質問応答に革命をもたらした。
従来のテキストベースのチャンキング手法は、複雑なドキュメント構造、マルチページテーブル、埋め込みフィギュア、ページ境界を越えたコンテキスト依存に苦労する。
本稿では,Large Multimodal Models(LMM)を利用してPDF文書をバッチで処理する,新しいマルチモーダル文書チャンキング手法を提案する。
論文 参考訳(メタデータ) (2025-06-19T05:11:43Z) - UniHDSA: A Unified Relation Prediction Approach for Hierarchical Document Structure Analysis [7.057192434574117]
我々は、UniHDSAと呼ばれるHDSAの統一的な関係予測手法を提案する。
UniHDSAは、様々なHDSAサブタスクを関係予測問題として扱い、関係予測ラベルを統一ラベル空間に統合する。
UniHDSAの有効性を検証するために,Transformerアーキテクチャに基づくマルチモーダル・エンド・ツー・エンド・システムを開発した。
論文 参考訳(メタデータ) (2025-03-20T06:44:47Z) - VisDoM: Multi-Document QA with Visually Rich Elements Using Multimodal Retrieval-Augmented Generation [100.06122876025063]
本稿では,マルチドキュメント設定でQAシステムを評価するために設計された,初の総合ベンチマークであるVisDoMBenchを紹介する。
視覚とテキストのRAGを同時に利用する新しいマルチモーダル検索拡張生成(RAG)手法であるVisDoMRAGを提案する。
論文 参考訳(メタデータ) (2024-12-14T06:24:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。