論文の概要: PP-DocLayout: A Unified Document Layout Detection Model to Accelerate Large-Scale Data Construction
- arxiv url: http://arxiv.org/abs/2503.17213v1
- Date: Fri, 21 Mar 2025 15:20:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-24 14:58:15.432607
- Title: PP-DocLayout: A Unified Document Layout Detection Model to Accelerate Large-Scale Data Construction
- Title(参考訳): PP-DocLayout:大規模データ構築を高速化する統一ドキュメントレイアウト検出モデル
- Authors: Ting Sun, Cheng Cui, Yuning Du, Yi Liu,
- Abstract要約: 本稿では,文書フォーマットの異なる23種類のレイアウト領域の認識において,高い精度と効率を実現するPP-Docを提案する。
この研究は、文書レイアウト解析の最先端技術に加えて、高品質なトレーニングデータを構築するための堅牢なソリューションも提供する。
- 参考スコア(独自算出の注目度): 4.242062527238317
- License:
- Abstract: Document layout analysis is a critical preprocessing step in document intelligence, enabling the detection and localization of structural elements such as titles, text blocks, tables, and formulas. Despite its importance, existing layout detection models face significant challenges in generalizing across diverse document types, handling complex layouts, and achieving real-time performance for large-scale data processing. To address these limitations, we present PP-DocLayout, which achieves high precision and efficiency in recognizing 23 types of layout regions across diverse document formats. To meet different needs, we offer three models of varying scales. PP-DocLayout-L is a high-precision model based on the RT-DETR-L detector, achieving 90.4% mAP@0.5 and an end-to-end inference time of 13.4 ms per page on a T4 GPU. PP-DocLayout-M is a balanced model, offering 75.2% mAP@0.5 with an inference time of 12.7 ms per page on a T4 GPU. PP-DocLayout-S is a high-efficiency model designed for resource-constrained environments and real-time applications, with an inference time of 8.1 ms per page on a T4 GPU and 14.5 ms on a CPU. This work not only advances the state of the art in document layout analysis but also provides a robust solution for constructing high-quality training data, enabling advancements in document intelligence and multimodal AI systems. Code and models are available at https://github.com/PaddlePaddle/PaddleX .
- Abstract(参考訳): 文書レイアウト分析は、文書インテリジェンスにおける重要な前処理ステップであり、タイトル、テキストブロック、テーブル、公式などの構造要素の検出とローカライズを可能にする。
その重要性にもかかわらず、既存のレイアウト検出モデルは、さまざまなドキュメントタイプをまたいだ一般化、複雑なレイアウトの処理、大規模データ処理のリアルタイムパフォーマンスの実現において、重大な課題に直面している。
これらの制約に対処するため,PP-DocLayoutを提案する。
異なるニーズを満たすために、さまざまなスケールの3つのモデルを提供します。
PP-DocLayout-LはRT-DETR-L検出器に基づく高精度モデルであり、90.4%のmAP@0.5を達成し、T4 GPU上では1ページあたり13.4msのエンドツーエンドの推論時間を達成している。
PP-DocLayout-Mはバランスの取れたモデルで、T4 GPU上で75.2% mAP@0.5と1ページあたり12.7 msの推論時間を提供する。
PP-DocLayout-Sはリソース制約のある環境やリアルタイムアプリケーション向けに設計された高効率モデルであり、T4 GPUでは1ページあたり8.1ms、CPUでは14.5msである。
この作業は、ドキュメントレイアウト分析の最先端だけでなく、高品質なトレーニングデータを構築するための堅牢なソリューションを提供し、ドキュメントインテリジェンスとマルチモーダルAIシステムの進歩を可能にする。
コードとモデルはhttps://github.com/PaddlePaddle/PaddleXで入手できる。
関連論文リスト
- "Give Me BF16 or Give Me Death"? Accuracy-Performance Trade-Offs in LLM Quantization [67.3213104337679]
量子化は大規模言語モデル(LLM)推論を高速化するための強力なツールであるが、異なるフォーマット間での精度と性能のトレードオフは依然として不明である。
FP8,INT8,INT4の量子化を学術ベンチマークや実世界のタスクで評価し,これまでで最も包括的な実証的研究を行った。
論文 参考訳(メタデータ) (2024-11-04T18:21:59Z) - DocLayout-YOLO: Enhancing Document Layout Analysis through Diverse Synthetic Data and Global-to-Local Adaptive Perception [16.301481927603554]
速度の優位性を保ちながら精度を向上させる新しいアプローチであるDoc-YOLOを導入する。
堅牢な文書事前学習には、Mesh-candidate BestFitアルゴリズムを導入する。
モデル最適化の観点からは,グローバルからローカライズ可能な受信モジュールを提案する。
論文 参考訳(メタデータ) (2024-10-16T14:50:47Z) - MMLongBench-Doc: Benchmarking Long-context Document Understanding with Visualizations [105.10376440302076]
MMLongBench-Doc は 1,062 のエキスパート注釈付き質問を含む長文マルチモーダルベンチマークである。
130の長いPDFフォーマットの文書の上に構築されており、平均49.4ページと20,971のテキストトークンがある。
14個のLVLMの実験により、長いコンテキストのDUが現在のモデルに大きく挑戦することを示した。
論文 参考訳(メタデータ) (2024-07-01T17:59:26Z) - DocParseNet: Advanced Semantic Segmentation and OCR Embeddings for Efficient Scanned Document Annotation [1.1650821883155187]
DocParseNetは、ディープラーニングとマルチモーダル学習を組み合わせて、テキストとビジュアルデータの両方を処理する。
従来のモデルよりも大幅に優れており、検証ではmIoUスコアが49.12、テストセットでは49.78である。
論文 参考訳(メタデータ) (2024-06-25T14:32:31Z) - DocGenome: An Open Large-scale Scientific Document Benchmark for Training and Testing Multi-modal Large Language Models [63.466265039007816]
我々は、arXivオープンアクセスコミュニティの153の分野から500Kの科学文書を注釈付けして構築した構造化文書ベンチマークDocGenomeを提案する。
我々はDocGenomeの利点を実証するために広範な実験を行い、我々のベンチマークで大規模モデルの性能を客観的に評価した。
論文 参考訳(メタデータ) (2024-06-17T15:13:52Z) - LOCR: Location-Guided Transformer for Optical Character Recognition [55.195165959662795]
自動回帰中にトランスフォーマーアーキテクチャに位置案内を組み込むモデルであるLOCRを提案する。
125Kの学術文書ページから777万以上のテキスト配置ペアからなるデータセット上でモデルをトレーニングする。
これは、編集距離、BLEU、METEOR、F測定によって測定されたarXivから構築されたテストセットの既存のメソッドよりも優れています。
論文 参考訳(メタデータ) (2024-03-04T15:34:12Z) - A Graphical Approach to Document Layout Analysis [2.5108258530670606]
文書レイアウト分析 (Document layout analysis, DLA) は、文書内の別個の意味的内容を検出するタスクである。
既存の最先端(SOTA)のDLAモデルは、ドキュメントをイメージとして表現し、電子的に生成されたPDFで利用可能な豊富なメタデータを捨てる。
本稿では,グラフベースレイアウト解析モデル(GLAM)を紹介する。
論文 参考訳(メタデータ) (2023-08-03T21:09:59Z) - Are Layout-Infused Language Models Robust to Layout Distribution Shifts?
A Case Study with Scientific Documents [54.744701806413204]
近年の研究では、レイアウト機能を言語モデル(LM)に注入することで、科学論文などの視覚に富んだ文書の処理が改善されている。
レイアウトを注入したLMがレイアウト分布シフトに対して堅牢であるかどうかを検証する。
論文 参考訳(メタデータ) (2023-06-01T18:01:33Z) - PP-StructureV2: A Stronger Document Analysis System [9.846187457305879]
大量の文書データは、テキスト情報のない原画像のような構造化されていない形で存在する。
本稿では、レイアウト情報抽出とキー情報抽出という2つのサブシステムを含むPP-StructureV2を提案する。
上記のモデルとコードは、すべてGitHubリポジトリPaddleOCRでオープンソース化されている。
論文 参考訳(メタデータ) (2022-10-11T12:07:32Z) - DocLayNet: A Large Human-Annotated Dataset for Document-Layout Analysis [2.9923891863939938]
文書レイアウト解析は高品質なPDF文書変換の鍵となる要件である。
ディープラーニングモデルは、レイアウトの検出とセグメンテーションに非常に効果的であることが証明されている。
textitDocLayNetは、新たに公開され、ドキュメント-アノテーションデータセットである。
論文 参考訳(メタデータ) (2022-06-02T14:25:12Z) - LayoutLMv2: Multi-modal Pre-training for Visually-Rich Document
Understanding [49.941806975280045]
テキストとレイアウトの事前トレーニングは、視覚的に豊富な文書理解タスクで有効であることが証明されています。
テキスト,レイアウト,イメージをマルチモーダルフレームワークで事前学習することで,テキスト-bfLMv2を提示する。
論文 参考訳(メタデータ) (2020-12-29T13:01:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。