論文の概要: HiPS: Hierarchical PDF Segmentation of Textbooks
- arxiv url: http://arxiv.org/abs/2509.00909v1
- Date: Sun, 31 Aug 2025 15:40:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-04 15:17:03.455135
- Title: HiPS: Hierarchical PDF Segmentation of Textbooks
- Title(参考訳): HiPS: テキストの階層的なPDFセグメンテーション
- Authors: Sabine Wehnert, Harikrishnan Changaramkulath, Ernesto William De Luca,
- Abstract要約: 法律教科書には、法規範の解釈と適用に不可欠な階層的な知識が含まれている。
本稿では,オープンソース構造解析ツールに依存するTable of Contents(TOC)に基づく手法とアプローチについて検討する。
解析精度を向上させるため、OCRベースのタイトル検出、XML由来の機能、コンテキストテキスト機能などの前処理戦略を取り入れた。
- 参考スコア(独自算出の注目度): 2.2903728931592395
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: The growing demand for effective tools to parse PDF-formatted texts, particularly structured documents such as textbooks, reveals the limitations of current methods developed mainly for research paper segmentation. This work addresses the challenge of hierarchical segmentation in complex structured documents, with a focus on legal textbooks that contain layered knowledge essential for interpreting and applying legal norms. We examine a Table of Contents (TOC)-based technique and approaches that rely on open-source structural parsing tools or Large Language Models (LLMs) operating without explicit TOC input. To enhance parsing accuracy, we incorporate preprocessing strategies such as OCR-based title detection, XML-derived features, and contextual text features. These strategies are evaluated based on their ability to identify section titles, allocate hierarchy levels, and determine section boundaries. Our findings show that combining LLMs with structure-aware preprocessing substantially reduces false positives and improves extraction quality. We also find that when the metadata quality of headings in the PDF is high, TOC-based techniques perform particularly well. All code and data are publicly available to support replication. We conclude with a comparative evaluation of the methods, outlining their respective strengths and limitations.
- Abstract(参考訳): PDF形式のテキストを解析するための効果的なツール、特に教科書などの構造化文書の需要が高まっており、主に研究論文のセグメンテーションのために開発された現在の手法の限界が明らかになっている。
この研究は、複雑な構造化文書における階層的セグメンテーションの課題に対処し、法的規範の解釈と適用に不可欠な階層的知識を含む法的な教科書に焦点を当てる。
本研究では、オープンソースの構造解析ツールやLLM(Large Language Models)に頼り、TOCを明示的に入力しないTable of Contents(TOC)ベースの手法とアプローチを検討する。
解析精度を向上させるため、OCRベースのタイトル検出、XML由来の機能、コンテキストテキスト機能などの前処理戦略を取り入れた。
これらの戦略は、セクションタイトルを特定し、階層レベルを割り当て、セクション境界を決定する能力に基づいて評価される。
その結果, LLMと構造認識前処理を組み合わせることで, 偽陽性が著しく減少し, 抽出品質が向上することがわかった。
また、PDFの見出しのメタデータの品質が高い場合、TOCベースの技術は特によく機能することがわかった。
すべてのコードとデータは、レプリケーションをサポートするために公開されています。
それぞれの長所と短所を概説し,提案手法の比較評価を行った。
関連論文リスト
- Structured Attention Matters to Multimodal LLMs in Document Understanding [52.37530640460363]
入力形式が文書理解性能に与える影響について検討する。
生のOCRテキストはMLLMの性能を向上するのではなく、しばしば機能不全であることがわかった。
本稿では,LaTexパラダイムを用いて文書要素を符号化する構造保存手法を提案する。
論文 参考訳(メタデータ) (2025-06-19T07:16:18Z) - DISRetrieval: Harnessing Discourse Structure for Long Document Retrieval [51.89673002051528]
DISRetrievalは、言語談話構造を利用して長い文書理解を強化する新しい階層的検索フレームワークである。
本研究は,談話構造が文書の長さや問合せの種類によって検索効率を著しく向上することを確認する。
論文 参考訳(メタデータ) (2025-05-26T14:45:12Z) - Enhancing LLM Character-Level Manipulation via Divide and Conquer [74.55804812450164]
大規模言語モデル(LLM)は、幅広い自然言語処理(NLP)タスクにまたがる強力な一般化機能を示している。
彼らは文字レベルの文字列操作において顕著な弱点を示し、文字削除、挿入、置換といった基本的な操作に苦労した。
本稿では,トークンレベルの処理と文字レベルの操作のギャップを埋める新しい手法であるDivide and Conquerによる文字レベル操作を提案する。
論文 参考訳(メタデータ) (2025-02-12T07:37:39Z) - HIP: Hierarchical Point Modeling and Pre-training for Visual Information Extraction [24.46493675079128]
OCRに依存した手法はオフラインのOCRエンジンに依存し、OCRに依存しない手法は解釈性に欠ける出力や幻覚的内容を含む出力を生成する。
我々は, 階層的視点をモデルとしたHIPを提案し, エンドツーエンドのVIEタスクの階層的性質をよりよく適合させる。
具体的には、このような階層的な点は柔軟に符号化され、その後所望のテキスト書き起こし、地域の中心、エンティティのカテゴリにデコードされる。
論文 参考訳(メタデータ) (2024-11-02T05:00:13Z) - HDT: Hierarchical Document Transformer [70.2271469410557]
HDTは補助的なアンカートークンを導入し、アテンション機構をスパースなマルチレベル階層に再設計することでドキュメント構造を利用する。
文書の階層構造を考慮した新しいスパークアテンションカーネルを開発した。
論文 参考訳(メタデータ) (2024-07-11T09:28:04Z) - From Text Segmentation to Smart Chaptering: A Novel Benchmark for
Structuring Video Transcriptions [63.11097464396147]
音声コンテンツに焦点をあてた新しいベンチマークYTSegを導入し、その内容は本質的に非構造的であり、トポロジと構造的にも多様である。
また,高効率な階層分割モデルMiniSegを導入する。
論文 参考訳(メタデータ) (2024-02-27T15:59:37Z) - Object Recognition from Scientific Document based on Compartment Refinement Framework [2.699900017799093]
膨大な資源から貴重な情報を効率的に抽出することがますます重要になっている。
科学文書の現在のデータ抽出方法は、ルールベース(RB)または機械学習(ML)アプローチを用いるのが一般的である。
我々はCTBR(Compartment & Text Blocks Refinement)と呼ばれる新しい文書レイアウト分析フレームワークを提案する。
論文 参考訳(メタデータ) (2023-12-14T15:36:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。