論文の概要: Empirical Evaluation of PDF Parsing and Chunking for Financial Question Answering with RAG
- arxiv url: http://arxiv.org/abs/2604.12047v1
- Date: Mon, 13 Apr 2026 20:39:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-15 19:11:32.117668
- Title: Empirical Evaluation of PDF Parsing and Chunking for Financial Question Answering with RAG
- Title(参考訳): RAGを用いた財務質問応答におけるPDF解析とチャンキングの実証評価
- Authors: Omar El Bachyr, Yewei Song, Saad Ezzini, Jacques Klein, Tegawendé F. Bissyandé, Anas Zilali, Ulrick Ble, Anne Goujon,
- Abstract要約: 本稿では,異なるコンポーネントと設計選択が,PDF理解のためのRAGシステムの性能に与える影響について検討する。
チャンキング戦略のための複数のPDFパイプラインを体系的に検討する。
以上の結果から,堅牢なRAG PDF 理解構築のための実践的ガイドラインが得られた。
- 参考スコア(独自算出の注目度): 11.902442699404403
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: PDF files are primarily intended for human reading rather than automated processing. In addition, the heterogeneous content of PDFs, such as text, tables, and images, poses significant challenges for parsing and information extraction. To address these difficulties, both practitioners and researchers are increasingly developing new methods, including the promising Retrieval-Augmented Generation (RAG) systems to automated PDF processing. However, there is no comprehensive study investigating how different components and design choices affect the performance of a RAG system for understanding PDFs. In this paper, we propose such a study (1) by focusing on Question Answering, a specific language understanding task, and (2) by leveraging two benchmarks from the financial domain, including TableQuest, our newly generated, publicly available benchmark. We systematically examine multiple PDF parsers and chunking strategies (with varied overlap), along with their potential synergies in preserving document structure and ensuring answer correctness. Overall, our results offer practical guidelines for building robust RAG pipelines for PDF understanding.
- Abstract(参考訳): PDFファイルは、主に自動処理ではなく、人間の読み取りを目的としている。
さらに、テキスト、テーブル、画像などのPDFの異種コンテンツは、解析と情報抽出に重大な課題を提起している。
これらの課題に対処するため、実践者も研究者も、自動化PDF処理のための有望なレトリーバル拡張生成(RAG)システムなど、新たな手法の開発をますます進めている。
しかし、異なるコンポーネントと設計選択が、PDFを理解するためのRAGシステムの性能に与える影響について、包括的な研究は行われていない。
本稿では,(1)特定の言語理解タスクである質問回答に着目し,(2)新たに作成した公開ベンチマークであるTableQuestを含む金融分野の2つのベンチマークを活用することによって,そのような研究を提案する。
我々は,複数のPDFパーサとチャンキング戦略を体系的に検討し,文書構造を保存し,回答の正しさを確保する上での相乗効果について検討した。
その結果,PDF理解のための堅牢なRAGパイプライン構築のための実践的ガイドラインが得られた。
関連論文リスト
- DocSeeker: Structured Visual Reasoning with Evidence Grounding for Long Document Understanding [63.257540233507626]
構造化された textbfAnalysis, textbfLocalization, textbfReasoning' のワークフローの実行に必要なパラダイムを提案する。
DocSeekerはドメイン内タスクとドメイン外タスクの両方で優れたパフォーマンスを実現する。
論文 参考訳(メタデータ) (2026-04-14T14:39:26Z) - pdfQA: Diverse, Challenging, and Realistic Question Answering over PDFs [14.395485027306739]
マルチドメイン2K人間アノテーション(real-pdfQA)と2K合成データセット(syn-pdfQA)について述べる。
両データセットに品質と難易度フィルタを適用して評価し、有効なQAペアと挑戦的なQAペアを得る。
論文 参考訳(メタデータ) (2026-01-05T17:15:26Z) - Scaling Beyond Context: A Survey of Multimodal Retrieval-Augmented Generation for Document Understanding [61.36285696607487]
文書理解は、財務分析から科学的発見への応用に不可欠である。
現在のアプローチでは、OCRベースのパイプラインがLarge Language Models(LLM)やネイティブのMultimodal LLMs(MLLM)に制限されている。
Retrieval-Augmented Generation (RAG)は、外部データの基底モデルを支援するが、文書のマルチモーダルな性質は、テキスト、テーブル、チャート、レイアウトを組み合わせることで、より高度なパラダイムを必要とする。
論文 参考訳(メタデータ) (2025-10-17T02:33:16Z) - A Comprehensive Survey on Benchmarks and Solutions in Software Engineering of LLM-Empowered Agentic System [56.40989626804489]
この調査は、Large Language Modelsを使ったソフトウェアエンジニアリングに関する、最初の総合的な分析を提供する。
本稿では,150以上の最近の論文をレビューし,(1)素早い,微調整,エージェントベースのパラダイムに分類した解法,(2)コード生成,翻訳,修復などのタスクを含むベンチマークという2つの重要な側面に沿った分類法を提案する。
論文 参考訳(メタデータ) (2025-10-10T06:56:50Z) - MMESGBench: Pioneering Multimodal Understanding and Complex Reasoning Benchmark for ESG Tasks [56.350173737493215]
環境・社会・ガバナンス(ESG)報告は、持続可能性の実践の評価、規制コンプライアンスの確保、財務透明性の促進に不可欠である。
MMESGBenchは、マルチモーダル理解と複雑な推論を、構造的に多種多様なマルチソースESG文書間で評価するための、最初のベンチマークデータセットである。
MMESGBenchは、45のESG文書から得られた933の検証済みQAペアで構成され、7つの異なるドキュメントタイプと3つの主要なESGソースカテゴリにまたがる。
論文 参考訳(メタデータ) (2025-07-25T03:58:07Z) - PDF Retrieval Augmented Question Answering [14.617711623828248]
本稿では,Retrieval Augmented Generation (RAG) フレームワークを用いた質問応答システム(QA)の進歩について述べる。
我々は,複雑なマルチモーダル質問を効果的に解決する総合的なRAGベースのQAシステムの構築を目指している。
論文 参考訳(メタデータ) (2025-06-22T13:14:19Z) - NeuSym-RAG: Hybrid Neural Symbolic Retrieval with Multiview Structuring for PDF Question Answering [20.44642427268575]
NeuSym-RAGは、両方のパラダイムをインタラクティブなプロセスで組み合わせたハイブリッドニューラルネットワークのシンボル検索フレームワークである。
NeuSym-RAGは半構造化PDFコンテンツをリレーショナルデータベースとベクトルストアの両方に整理する。
自己注釈付きAIRQA-REALを含む3つのPDFベースのQAデータセットの実験では、NeuSym-RAGがベクターベースRAGと様々な構造ベースラインの両方を安定して打ち負かすことが示されている。
論文 参考訳(メタデータ) (2025-05-26T09:33:10Z) - Revolutionizing Retrieval-Augmented Generation with Enhanced PDF
Structure Recognition [0.0]
主要な基盤モデル企業が Embedding と Chat API インターフェースをオープンし,LangChain などのフレームワークがすでに RAG プロセスを統合している。
本稿は, 高品質テキストコーパスにアクセスする前提に依存している。
パン光学およびピンポイントPDFを備えたRAGシステムChatDOCは,より正確で完全なセグメントを検索し,より良い回答を得る。
論文 参考訳(メタデータ) (2024-01-23T09:54:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。