論文の概要: From PDF to RAG-Ready: Evaluating Document Conversion Frameworks for Domain-Specific Question Answering
- arxiv url: http://arxiv.org/abs/2604.04948v1
- Date: Mon, 30 Mar 2026 14:40:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-08 17:42:09.352869
- Title: From PDF to RAG-Ready: Evaluating Document Conversion Frameworks for Domain-Specific Question Answering
- Title(参考訳): PDFからRAG-Readyへ:ドメイン特化質問応答のための文書変換フレームワークの評価
- Authors: José Guilherme Marques dos Santos, Ricardo Yang, Rui Humberto Pereira, Alexandre Sousa, Brígida Mónica Faria, Henrique Lopes Cardoso, José Duarte, José Luís Reis, Luís Paulo Reis, Pedro Pimenta, José Paulo Marques dos Santos,
- Abstract要約: Retrieval-Augmented Generation (RAG) システムは文書前処理の品質に大きく依存する。
従来の研究では、下流の質問応答精度への影響でPDF処理フレームワークの評価は行われていない。
オープンソースのPDF-to-Markdown変換フレームワークであるDocling、MinerU、Marker、DeepSeek OCRを19のパイプライン構成で比較する。
- 参考スコア(独自算出の注目度): 32.10503220086596
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Retrieval-Augmented Generation (RAG) systems depend critically on the quality of document preprocessing, yet no prior study has evaluated PDF processing frameworks by their impact on downstream question-answering accuracy. We address this gap through a systematic comparison of four open-source PDF-to-Markdown conversion frameworks, Docling, MinerU, Marker, and DeepSeek OCR, across 19 pipeline configurations for extracting text and other contents from PDFs, varying the conversion tool, cleaning transformations, splitting strategy, and metadata enrichment. Evaluation was performed using a manually curated 50-question benchmark over a corpus of 36 Portuguese administrative documents (1,706 pages, ~492K words), with LLM-as-judge scoring averaged over 10 runs. Two baselines bounded the results: naïve PDFLoader (86.9%) and manually curated Markdown (97.1%). Docling with hierarchical splitting and image descriptions achieved the highest automated accuracy (94.1%). Metadata enrichment and hierarchy-aware chunking contributed more to accuracy than the conversion framework choice alone. Font-based hierarchy rebuilding consistently outperformed LLM-based approaches. An exploratory GraphRAG implementation scored only 82%, underperforming basic RAG, suggesting that naïve knowledge graph construction without ontological guidance does not yet justify its added complexity. These findings demonstrate that data preparation quality is the dominant factor in RAG system performance.
- Abstract(参考訳): Retrieval-Augmented Generation (RAG) システムは文書前処理の品質に大きく依存するが、下流の問合せ精度への影響からPDF処理フレームワークの評価は行われていない。
このギャップは、PDFからテキストや他のコンテンツを抽出するための19のパイプライン構成、変換ツールの変更、変換のクリーン化、分割戦略、メタデータの強化の4つのオープンソースPDF-to-Markdown変換フレームワークであるDocling、MinerU、Marker、DeepSeek OCRの体系的な比較を通じて解決される。
ポルトガルの36の行政文書(約1,706ページ、約492Kワード)のコーパスに対して、手動で50問合せベンチマークを用いて評価を行い、LCM-as-judgeスコアの平均は10回以上であった。
PDFLoader (86.9%) と Markdown (97.1%) が手作業でキュレーションされた。
階層的な分割と画像記述によるドッキングは、高い自動化精度(94.1%)を達成した。
メタデータの豊かさと階層性を考慮したチャンキングは、変換フレームワークの選択だけでなく、正確性にも寄与した。
フォントベースの階層再構築はLLMベースのアプローチよりも一貫して優れていた。
探索的なGraphRAGの実装は82%に過ぎず、基本的なRAGを過小評価しており、オントロジガイダンスを使わずに知識グラフを構築することは、その付加的な複雑さを正当化するものではないことを示唆している。
これらの結果から,RAGシステムの性能においてデータ作成品質が重要な要因であることが示唆された。
関連論文リスト
- Adaptive Chunking: Optimizing Chunking-Method Selection for RAG [0.0]
文書ごとに最適なチャンキング戦略を選択するフレームワークであるAdaptive Chunkingを紹介します。
法、技術、社会科学領域にまたがる多種多様なコーパスにおいて、我々の計量マージ適応法は、下流RAGの性能を著しく向上させる。
論文 参考訳(メタデータ) (2026-03-26T11:20:52Z) - Beyond Relevance: On the Relationship Between Retrieval and RAG Information Coverage [89.58253972744531]
Retrieval-augmented Generation (RAG) システムは、文書検索と生成モデルを組み合わせて、レポート生成のような複雑な情報を求める課題に対処する。
我々は,上流の検索指標が,最終生成応答の情報カバレッジの信頼性の高い早期指標として機能するかどうかを検討する。
本研究は,トピックとシステムレベルの両方で生成した応答におけるカバレッジベース検索指標とナゲットカバレッジとの間に強い相関関係を示した。
論文 参考訳(メタデータ) (2026-03-09T18:20:20Z) - VersionRAG: Version-Aware Retrieval-Augmented Generation for Evolving Documents [2.657536539253924]
既存のアプローチは、バージョンに敏感な質問に対して58~64%の精度しか達成していない。
文書の進化を明示的にモデル化するバージョン対応RAGフレームワークであるVersionRAGを紹介します。
検索中、VersionRAGはインテント分類に基づいて、クエリを特定のパスにルーティングする。
論文 参考訳(メタデータ) (2025-10-09T11:48:58Z) - InfoGain-RAG: Boosting Retrieval-Augmented Generation via Document Information Gain-based Reranking and Filtering [17.346965728209394]
Retrieval-Augmented Generation (RAG) は,Large Language Models (LLMs) の重要な限界に対処する,有望なアプローチとして登場した。
本稿では,検索した文書のコントリビューションを定量化し,回答生成の精度を高めるために,文書情報ゲイン(Document Information Gain, DIG)を提案する。
本稿では,DIGスコアを利用した特殊リランカの学習フレームワークInfoGain-RAGを紹介する。
論文 参考訳(メタデータ) (2025-09-16T07:28:07Z) - LLM-Assisted Question-Answering on Technical Documents Using Structured Data-Aware Retrieval Augmented Generation [0.432776344138537]
大きな言語モデル(LLM)は自然言語の理解と生成を可能にする。
ファインチューニングは可能なソリューションのひとつだが、リソース集約であり、データ更新毎に繰り返す必要がある。
Retrieval-Augmented Generation (RAG)は、LLMが外部の知識ソースにアクセスできるようにすることにより、効率的なソリューションを提供する。
論文 参考訳(メタデータ) (2025-06-29T08:22:03Z) - RAGEval: Scenario Specific RAG Evaluation Dataset Generation Framework [66.93260816493553]
本稿では,様々なシナリオにまたがってRAGシステムを評価するためのフレームワークであるRAGvalを紹介する。
事実の正確性に焦点をあてて,完全性,幻覚,不適切性の3つの新しい指標を提案する。
実験結果から, RAGEvalは, 生成した試料の明瞭度, 安全性, 適合性, 豊かさにおいて, ゼロショット法とワンショット法より優れていた。
論文 参考訳(メタデータ) (2024-08-02T13:35:11Z) - Evaluating Retrieval Quality in Retrieval-Augmented Generation [21.115495457454365]
従来のエンドツーエンド評価手法は計算コストが高い。
本稿では,検索リストの各文書をRAGシステム内の大規模言語モデルで個別に利用するeRAGを提案する。
eRAGは、ランタイムを改善し、エンドツーエンド評価の最大50倍のGPUメモリを消費する、大きな計算上のアドバンテージを提供する。
論文 参考訳(メタデータ) (2024-04-21T21:22:28Z) - LOCR: Location-Guided Transformer for Optical Character Recognition [55.195165959662795]
自動回帰中にトランスフォーマーアーキテクチャに位置案内を組み込むモデルであるLOCRを提案する。
125Kの学術文書ページから777万以上のテキスト配置ペアからなるデータセット上でモデルをトレーニングする。
これは、編集距離、BLEU、METEOR、F測定によって測定されたarXivから構築されたテストセットの既存のメソッドよりも優れています。
論文 参考訳(メタデータ) (2024-03-04T15:34:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。