論文の概要: Evaluating Chunking Strategies For Retrieval-Augmented Generation in Oil and Gas Enterprise Documents
- arxiv url: http://arxiv.org/abs/2603.24556v1
- Date: Wed, 25 Mar 2026 17:35:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-26 21:06:11.411013
- Title: Evaluating Chunking Strategies For Retrieval-Augmented Generation in Oil and Gas Enterprise Documents
- Title(参考訳): 石油・ガス企業文書の検索増産のためのチャンキング戦略の評価
- Authors: Samuel Taiwo, Mohd Amaluddin Yusoff,
- Abstract要約: Retrieval-Augmented Generation (RAG) は、Large Language Models (LLM) の制約に対処するフレームワークとして登場した。
本稿では,4つのチャンキング戦略における性能差を定量化する実証的研究について述べる。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Retrieval-Augmented Generation (RAG) has emerged as a framework to address the constraints of Large Language Models (LLMs). Yet, its effectiveness fundamentally hinges on document chunking - an often-overlooked determinant of its quality. This paper presents an empirical study quantifying performance differences across four chunking strategies: fixed-size sliding window, recursive, breakpoint-based semantic, and structure-aware. We evaluated these methods using a proprietary corpus of oil and gas enterprise documents, including text-heavy manuals, table-heavy specifications, and piping and instrumentation diagrams (P and IDs). Our findings show that structure-aware chunking yields higher overall retrieval effectiveness, particularly in top-K metrics, and incurs significantly lower computational costs than semantic or baseline strategies. Crucially, all four methods demonstrated limited effectiveness on P and IDs, underscoring a core limitation of purely text-based RAG within visually and spatially encoded documents. We conclude that while explicit structure preservation is essential for specialised domains, future work must integrate multimodal models to overcome current limitations.
- Abstract(参考訳): Retrieval-Augmented Generation (RAG) は、Large Language Models (LLM) の制約に対処するフレームワークとして登場した。
しかし、その効果は基本的にドキュメントのチャンキングに依存しています。
本稿では,4つのチャンキング戦略 – 固定サイズスライディングウィンドウ,再帰性,ブレークポイントベースセマンティクス,構造認識 – における性能差を定量化する実証的研究を提案する。
筆者らはこれらの手法を,テキスト・ヘビーマニュアル,テーブル・ヘビー仕様,配管・インスツルメンテーション・ダイアグラム(PとID)など,石油・ガス企業文書の独自コーパスを用いて評価した。
以上の結果から,構造を考慮したチャンキングは,特にトップKメトリクスにおいて全体の検索効率が向上し,セマンティックやベースライン戦略よりも計算コストが大幅に低下することが示唆された。
重要な点として、4つの手法はPとIDに対して限定的な効果を示し、視覚的および空間的に符号化された文書の中で純粋にテキストベースのRAGのコア制限を強調した。
専門分野において明示的な構造保存が不可欠である一方で,今後の課題は,現在の制約を克服するためのマルチモーダルモデルの統合である,と結論付けている。
関連論文リスト
- Beyond Chunk-Then-Embed: A Comprehensive Taxonomy and Evaluation of Document Chunking Strategies for Information Retrieval [37.055995647350784]
本稿では,文書チャンキングにおける先行研究を再現し,既存の戦略を統一する体系的枠組みを提案する。
評価の結果,最適なチャンキング戦略はタスク依存であることがわかった。
論文 参考訳(メタデータ) (2026-02-19T00:27:15Z) - Ontology-Based Knowledge Graph Framework for Industrial Standard Documents via Hierarchical and Propositional Structuring [8.759087891756069]
オントロジーに基づく知識グラフ(KG)構築は、ドメイン知識に対する多次元的理解と高度な推論を可能にする中核技術である。
本研究では,このような文書を階層的な意味構造に整理する手法を提案する。
我々の手法は文書の階層構造と論理構造の両方を捉え、ドメイン固有の意味論を効果的に表現する。
論文 参考訳(メタデータ) (2025-12-09T09:26:37Z) - BoundRL: Efficient Structured Text Segmentation through Reinforced Boundary Generation [26.825801831400003]
BoundRLは長い構造化テキストに対してトークンレベルのテキストセグメンテーションとラベル予測を行う。
セグメントごとに完全なコンテンツを生成する代わりに、開始トークンのシーケンスだけを生成する。
オリジナルテキスト内にこれらのトークンを配置することで、完全な内容を再構築する。
論文 参考訳(メタデータ) (2025-10-23T02:56:10Z) - Scaling Beyond Context: A Survey of Multimodal Retrieval-Augmented Generation for Document Understanding [61.36285696607487]
文書理解は、財務分析から科学的発見への応用に不可欠である。
現在のアプローチでは、OCRベースのパイプラインがLarge Language Models(LLM)やネイティブのMultimodal LLMs(MLLM)に制限されている。
Retrieval-Augmented Generation (RAG)は、外部データの基底モデルを支援するが、文書のマルチモーダルな性質は、テキスト、テーブル、チャート、レイアウトを組み合わせることで、より高度なパラダイムを必要とする。
論文 参考訳(メタデータ) (2025-10-17T02:33:16Z) - Grounding Long-Context Reasoning with Contextual Normalization for Retrieval-Augmented Generation [57.97548022208733]
キー値抽出における表面的選択が精度と安定性のシフトを引き起こすことを示す。
生成前の文脈表現を適応的に標準化する戦略であるコンテキスト正規化を導入する。
論文 参考訳(メタデータ) (2025-10-15T06:28:25Z) - HiPS: Hierarchical PDF Segmentation of Textbooks [2.2903728931592395]
法律教科書には、法規範の解釈と適用に不可欠な階層的な知識が含まれている。
本稿では,オープンソース構造解析ツールに依存するTable of Contents(TOC)に基づく手法とアプローチについて検討する。
解析精度を向上させるため、OCRベースのタイトル検出、XML由来の機能、コンテキストテキスト機能などの前処理戦略を取り入れた。
論文 参考訳(メタデータ) (2025-08-31T15:40:43Z) - Structured Attention Matters to Multimodal LLMs in Document Understanding [52.37530640460363]
入力形式が文書理解性能に与える影響について検討する。
生のOCRテキストはMLLMの性能を向上するのではなく、しばしば機能不全であることがわかった。
本稿では,LaTexパラダイムを用いて文書要素を符号化する構造保存手法を提案する。
論文 参考訳(メタデータ) (2025-06-19T07:16:18Z) - WritingBench: A Comprehensive Benchmark for Generative Writing [87.48445972563631]
writeBenchは、6つのコア書き込みドメインと100の技術的記述を含む大規模言語モデル(LLM)を評価するために設計されたベンチマークである。
本稿では、LCMがインスタンス固有の評価基準を動的に生成することを可能にするクエリ依存評価フレームワークを提案する。
このフレームワークは、基準対応スコアリングのための微調整された批評家モデルによって補完され、スタイル、フォーマット、長さの評価を可能にする。
論文 参考訳(メタデータ) (2025-03-07T08:56:20Z) - Faster Learned Sparse Retrieval with Block-Max Pruning [11.080810272211906]
本稿では,学習されたスパース検索環境に出現するインデックスに適した,革新的な動的プルーニング戦略であるBlock-Max Pruning(BMP)を紹介する。
BMPは既存の動的プルーニング戦略を大幅に上回り、安全な検索コンテキストにおいて非並列効率を提供する。
論文 参考訳(メタデータ) (2024-05-02T09:26:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。