論文の概要: Advanced Layout Analysis Models for Docling
- arxiv url: http://arxiv.org/abs/2509.11720v1
- Date: Mon, 15 Sep 2025 09:20:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-16 17:26:23.214992
- Title: Advanced Layout Analysis Models for Docling
- Title(参考訳): ドッキングのための高度なレイアウト解析モデル
- Authors: Nikolaos Livathinos, Christoph Auer, Ahmed Nassar, Rafael Teixeira de Lima, Maksym Lysak, Brown Ebouky, Cesar Berrospi, Michele Dolfi, Panagiotis Vagenas, Matteo Omenetti, Kasper Dinkla, Yusik Kim, Valery Weber, Lucas Morin, Ingmar Meijer, Viktor Kuropiatnyk, Tim Strohmeyer, A. Said Gurbuz, Peter W. J. Staar,
- Abstract要約: Doclingの以前のベースラインよりも20.6%から23.9%の改善を実現した5つの新しいドキュメントレイアウトモデルを紹介します。
私たちのベストモデルである"heron-101"は78%のmAPを実現し、1つのNVIDIA A100 GPU上で28ms/image推論時間を実現しています。
すべてのトレーニングされたチェックポイント、コード、ドキュメントは、HuggingFaceのパーミッシブなライセンスの下でリリースされます。
- 参考スコア(独自算出の注目度): 7.819891138280585
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This technical report documents the development of novel Layout Analysis models integrated into the Docling document-conversion pipeline. We trained several state-of-the-art object detectors based on the RT-DETR, RT-DETRv2 and DFINE architectures on a heterogeneous corpus of 150,000 documents (both openly available and proprietary). Post-processing steps were applied to the raw detections to make them more applicable to the document conversion task. We evaluated the effectiveness of the layout analysis on various document benchmarks using different methodologies while also measuring the runtime performance across different environments (CPU, Nvidia and Apple GPUs). We introduce five new document layout models achieving 20.6% - 23.9% mAP improvement over Docling's previous baseline, with comparable or better runtime. Our best model, "heron-101", attains 78% mAP with 28 ms/image inference time on a single NVIDIA A100 GPU. Extensive quantitative and qualitative experiments establish best practices for training, evaluating, and deploying document-layout detectors, providing actionable guidance for the document conversion community. All trained checkpoints, code, and documentation are released under a permissive license on HuggingFace.
- Abstract(参考訳): この技術レポートは、ドキュメント変換パイプラインに統合された新しいレイアウト分析モデルの開発を文書化する。
我々は, RT-DETR, RT-DETRv2, DFINEアーキテクチャをベースとした, 1550,000 の文書からなる異種コーパスを用いて, 最先端のオブジェクト検出装置を訓練した。
後処理のステップを生の検知に適用し、文書変換タスクにもっと適用できるようにした。
異なる手法を用いて,各種文書ベンチマークにおけるレイアウト解析の有効性を評価し,異なる環境(CPU,Nvidia,Apple GPU)における実行時の性能を測定した。
Doclingの以前のベースラインよりも20.6%から23.9%の改善を実現した5つの新しいドキュメントレイアウトモデルを紹介します。
私たちのベストモデルである"heron-101"は78%のmAPを実現し、1つのNVIDIA A100 GPU上で28ms/image推論時間を実現しています。
大規模で質的な実験は、ドキュメント変換コミュニティのための実用的なガイダンスを提供するために、ドキュメントレイアウト検出器の訓練、評価、デプロイのためのベストプラクティスを確立する。
すべてのトレーニングされたチェックポイント、コード、ドキュメントは、HuggingFaceのパーミッシブなライセンスの下でリリースされます。
関連論文リスト
- ABCD-LINK: Annotation Bootstrapping for Cross-Document Fine-Grained Links [57.514511353084565]
我々は、最高のパフォーマンスのアプローチを選択し、文書間リンクに注釈を付けるための新しいドメインに依存しないフレームワークを提案する。
当社のフレームワークを2つの異なるドメイン – ピアレビューとニュース – に適用しています。
結果として得られた新しいデータセットは、メディアフレーミングやピアレビューなど、数多くのクロスドキュメントタスクの基礎を築いた。
論文 参考訳(メタデータ) (2025-09-01T11:32:24Z) - DvD: Unleashing a Generative Paradigm for Document Dewarping via Coordinates-based Diffusion Model [25.504170988714783]
ドキュメンテーションデワープは、写真文書画像の変形を補正することを目的としており、テキストの可読性を向上させる。
我々はtextbfDiffusion フレームワークを用いて textbfDewarping textbf に取り組むための最初の生成モデル DvD を提案する。
論文 参考訳(メタデータ) (2025-05-28T05:05:51Z) - PP-DocLayout: A Unified Document Layout Detection Model to Accelerate Large-Scale Data Construction [4.242062527238317]
本稿では,文書フォーマットの異なる23種類のレイアウト領域の認識において,高い精度と効率を実現するPP-Docを提案する。
この研究は、文書レイアウト解析の最先端技術に加えて、高品質なトレーニングデータを構築するための堅牢なソリューションも提供する。
論文 参考訳(メタデータ) (2025-03-21T15:20:47Z) - DocLayout-YOLO: Enhancing Document Layout Analysis through Diverse Synthetic Data and Global-to-Local Adaptive Perception [16.301481927603554]
速度の優位性を保ちながら精度を向上させる新しいアプローチであるDoc-YOLOを導入する。
堅牢な文書事前学習には、Mesh-candidate BestFitアルゴリズムを導入する。
モデル最適化の観点からは,グローバルからローカライズ可能な受信モジュールを提案する。
論文 参考訳(メタデータ) (2024-10-16T14:50:47Z) - Unifying Multimodal Retrieval via Document Screenshot Embedding [92.03571344075607]
Document Screenshot Embedding (DSE)は、文書のスクリーンショットを統一的な入力フォーマットとして扱う新しい検索パラダイムである。
まず、Wiki-SSというウィキペディアのウェブページのスクリーンショットをコーパスとして作成し、Natural Questionsデータセットからの質問に答える。
例えば、DSEは、BM25をトップ1検索精度で17ポイント上回り、さらにスライド検索の混合モダリティタスクでは、nDCG@10で15ポイント以上OCRテキスト検索手法を著しく上回ります。
論文 参考訳(メタデータ) (2024-06-17T06:27:35Z) - DAPR: A Benchmark on Document-Aware Passage Retrieval [57.45793782107218]
我々は,このタスクemphDocument-Aware Passage Retrieval (DAPR)を提案する。
State-of-The-Art(SoTA)パスレトリバーのエラーを分析しながら、大きなエラー(53.5%)は文書コンテキストの欠如に起因する。
提案するベンチマークにより,検索システムの開発・比較を今後行うことができる。
論文 参考訳(メタデータ) (2023-05-23T10:39:57Z) - XDoc: Unified Pre-training for Cross-Format Document Understanding [84.63416346227176]
XDocは、単一のモデルで異なるドキュメントフォーマットを扱う、統合された事前訓練されたモデルである。
XDocは、トレーニング済みの個々のモデルと比較して、さまざまなダウンストリームタスクで同等またはそれ以上のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2022-10-06T12:07:18Z) - Cross-Domain Document Layout Analysis Using Document Style Guide [15.799572801059716]
文書レイアウト解析(DLA)は、文書画像を高レベルな意味領域に分解することを目的としている。
多くの研究者がこの課題に取り組み、大規模なトレーニングセットを構築するためにデータを合成した。
本稿では文書スタイルのガイダンスに基づく教師なしクロスドメインDLAフレームワークを提案する。
論文 参考訳(メタデータ) (2022-01-24T00:49:19Z) - DocScanner: Robust Document Image Rectification with Progressive
Learning [162.03694280524084]
この研究はDocScannerという、文書画像の修正のための新しいディープネットワークアーキテクチャを提示する。
DocScannerは、修正されたイメージの1つの見積を維持し、再帰的なアーキテクチャで徐々に修正される。
反復的な改善によりDocScannerは堅牢で優れたパフォーマンスに収束し、軽量なリカレントアーキテクチャにより実行効率が保証される。
論文 参考訳(メタデータ) (2021-10-28T09:15:02Z) - Fast(er) Reconstruction of Shredded Text Documents via Self-Supervised
Deep Asymmetric Metric Learning [62.34197797857823]
細断文書の自動復元における中心的な問題は、細断文書の相互互換性評価である。
本研究は,推定回数を線形にスケールするペアワイド互換性を測るスケーラブルな深層学習手法を提案する。
提案手法は,505個のシュレッダーを持つテストインスタンスに対して,22倍の高速化を実現した最先端技術に匹敵する精度を有する。
論文 参考訳(メタデータ) (2020-03-23T03:22:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。