論文の概要: SCAN: Semantic Document Layout Analysis for Textual and Visual Retrieval-Augmented Generation
- arxiv url: http://arxiv.org/abs/2505.14381v1
- Date: Tue, 20 May 2025 14:03:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-21 14:49:53.334345
- Title: SCAN: Semantic Document Layout Analysis for Textual and Visual Retrieval-Augmented Generation
- Title(参考訳): SCAN: テキストおよびビジュアル検索拡張生成のための意味文書レイアウト解析
- Authors: Yuyang Dong, Nobuhiro Ueda, Krisztián Boros, Daiki Ito, Takuya Sera, Masafumi Oyamada,
- Abstract要約: テキストおよび視覚的検索・拡張生成(RAG)システムを強化した新しいアプローチであるSCANを提案する。
SCANは、ドキュメントを連続的なコンポーネントをカバーする一貫性のある領域に分割する、粗い粒度のセマンティックアプローチを使用する。
英語と日本語のデータセットを対象とした実験の結果、SCANの適用により、エンドツーエンドのRAG性能が最大9.0%向上し、ビジュアルRAG性能が最大6.4%向上することが示された。
- 参考スコア(独自算出の注目度): 5.458935851230595
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: With the increasing adoption of Large Language Models (LLMs) and Vision-Language Models (VLMs), rich document analysis technologies for applications like Retrieval-Augmented Generation (RAG) and visual RAG are gaining significant attention. Recent research indicates that using VLMs can achieve better RAG performance, but processing rich documents still remains a challenge since a single page contains large amounts of information. In this paper, we present SCAN (\textbf{S}emanti\textbf{C} Document Layout \textbf{AN}alysis), a novel approach enhancing both textual and visual Retrieval-Augmented Generation (RAG) systems working with visually rich documents. It is a VLM-friendly approach that identifies document components with appropriate semantic granularity, balancing context preservation with processing efficiency. SCAN uses a coarse-grained semantic approach that divides documents into coherent regions covering continuous components. We trained the SCAN model by fine-tuning object detection models with sophisticated annotation datasets. Our experimental results across English and Japanese datasets demonstrate that applying SCAN improves end-to-end textual RAG performance by up to 9.0\% and visual RAG performance by up to 6.4\%, outperforming conventional approaches and even commercial document processing solutions.
- Abstract(参考訳): LLM(Large Language Models)やVLM(Vision-Language Models)の採用の増加に伴い、検索・拡張生成(Retrieval-Augmented Generation、RAG)やビジュアルRAG(Visual RAG)といったアプリケーション向けのリッチな文書解析技術が注目されている。
近年の研究では、VLMを使うことでより優れたRAG性能が得られることが示されているが、単一のページに大量の情報が含まれているため、リッチドキュメントの処理は依然として課題である。
本稿では,テキストと視覚的検索・拡張生成(RAG)の両方を拡張した新しいアプローチであるSCAN(\textbf{S}emanti\textbf{C} Document Layout \textbf{AN}alysis)を提案する。
VLMフレンドリーなアプローチであり、文書コンポーネントを適切なセマンティックな粒度で識別し、コンテキスト保存と処理効率のバランスをとる。
SCANは、ドキュメントを連続的なコンポーネントをカバーする一貫性のある領域に分割する、粗い粒度のセマンティックアプローチを使用する。
我々は、洗練されたアノテーションデータセットを用いてオブジェクト検出モデルを微調整することでSCANモデルを訓練した。
英語と日本語のデータセットを対象とした実験の結果、SCANの適用により、エンドツーエンドのRAG性能が最大9.0\%向上し、ビジュアルRAG性能が最大6.4\%向上し、従来の手法よりも優れており、商用文書処理ソリューションさえも優れていることが示された。
関連論文リスト
- A Multi-Granularity Retrieval Framework for Visually-Rich Documents [4.804551482123172]
本稿では,MMDocIRとM2KRの2つのベンチマークタスクに適した,統一されたマルチグラニュラリティマルチモーダル検索フレームワークを提案する。
提案手法は,階層型符号化戦略,モダリティ対応検索機構,視覚言語モデル(VLM)に基づく候補フィルタリングを統合する。
本フレームワークは,タスク固有の微調整を必要とせずに,堅牢な性能を示す。
論文 参考訳(メタデータ) (2025-05-01T02:40:30Z) - VDocRAG: Retrieval-Augmented Generation over Visually-Rich Documents [30.012487475552575]
本稿では,新たなRAGフレームワークであるVDocRAGを導入し,様々な文書やモダリティを統一された画像形式で直接理解する。
また、OpenDocVQAは、オープンドメイン文書の視覚的質問応答データセットを統合化した最初のコレクションである。
論文 参考訳(メタデータ) (2025-04-14T01:50:33Z) - QID: Efficient Query-Informed ViTs in Data-Scarce Regimes for OCR-free Visual Document Understanding [53.69841526266547]
トレーニング済みのVision-Language Modelを新しいデータセットで微調整することは、ビジョンエンコーダの最適化に不足することが多い。
視覚エンコーダにクエリの埋め込みを統合する,新しい,合理化されたアーキテクチャ保存アプローチであるQIDを導入する。
論文 参考訳(メタデータ) (2025-04-03T18:47:16Z) - VisDoM: Multi-Document QA with Visually Rich Elements Using Multimodal Retrieval-Augmented Generation [100.06122876025063]
本稿では,マルチドキュメント設定でQAシステムを評価するために設計された,初の総合ベンチマークであるVisDoMBenchを紹介する。
視覚とテキストのRAGを同時に利用する新しいマルチモーダル検索拡張生成(RAG)手法であるVisDoMRAGを提案する。
論文 参考訳(メタデータ) (2024-12-14T06:24:55Z) - VisRAG: Vision-based Retrieval-augmented Generation on Multi-modality Documents [66.42579289213941]
Retrieval-augmented Generation (RAG) は、大規模言語モデルが外部知識ソースを生成に活用できる効果的な手法である。
本稿では、視覚言語モデル(VLM)に基づくRAGパイプラインを確立することにより、この問題に対処するVisRAGを紹介する。
このパイプラインでは、まず文書を解析してテキストを得る代わりに、VLMを画像として直接埋め込んで、VLMの生成を強化する。
論文 参考訳(メタデータ) (2024-10-14T15:04:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。