論文の概要: HybriDLA: Hybrid Generation for Document Layout Analysis
- arxiv url: http://arxiv.org/abs/2511.19919v1
- Date: Tue, 25 Nov 2025 04:53:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-26 17:37:04.275898
- Title: HybriDLA: Hybrid Generation for Document Layout Analysis
- Title(参考訳): HybriDLA: ドキュメントレイアウト解析のためのハイブリッド生成
- Authors: Yufan Chen, Omar Moured, Ruiping Liu, Junwei Zheng, Kunyu Peng, Jiaming Zhang, Rainer Stiefelhagen,
- Abstract要約: HybriDLAは単一の層に拡散と自己回帰デコーディングを統合する新しい生成フレームワークである。
このアーキテクチャはパフォーマンスを83.5%に向上させ、平均精度(mAP)を平均する。
- 参考スコア(独自算出の注目度): 40.47982474843359
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Conventional document layout analysis (DLA) traditionally depends on empirical priors or a fixed set of learnable queries executed in a single forward pass. While sufficient for early-generation documents with a small, predetermined number of regions, this paradigm struggles with contemporary documents, which exhibit diverse element counts and increasingly complex layouts. To address challenges posed by modern documents, we present HybriDLA, a novel generative framework that unifies diffusion and autoregressive decoding within a single layer. The diffusion component iteratively refines bounding-box hypotheses, whereas the autoregressive component injects semantic and contextual awareness, enabling precise region prediction even in highly varied layouts. To further enhance detection quality, we design a multi-scale feature-fusion encoder that captures both fine-grained and high-level visual cues. This architecture elevates performance to 83.5% mean Average Precision (mAP). Extensive experiments on the DocLayNet and M$^6$Doc benchmarks demonstrate that HybriDLA sets a state-of-the-art performance, outperforming previous approaches. All data and models will be made publicly available at https://yufanchen96.github.io/projects/HybriDLA.
- Abstract(参考訳): 従来の文書レイアウト分析(DLA)は、伝統的に実験的な事前や、単一のフォワードパスで実行される学習可能なクエリの固定セットに依存している。
比較的少数の地域を持つ初期世代の文書には十分であるが、このパラダイムは様々な要素数とより複雑なレイアウトを示す現代の文書と競合する。
現代文書の課題に対処するため,単一層内で拡散と自己回帰復号を統一する新しい生成フレームワークであるHybriDLAを提案する。
拡散成分は境界ボックス仮説を反復的に洗練するが、自己回帰成分は意味的および文脈的認識を注入し、高度に多様なレイアウトであっても正確な領域予測を可能にする。
検出精度をさらに高めるために,細粒度および高レベルの視覚的手がかりをキャプチャするマルチスケール機能融合エンコーダを設計する。
このアーキテクチャは、平均精度(mAP)を83.5%に向上させる。
DocLayNetとM$^6$Docベンチマークの大規模な実験は、HybriDLAが最先端のパフォーマンスを設定し、以前のアプローチより優れていることを示した。
すべてのデータとモデルはhttps://yufanchen96.github.io/projects/HybriDLAで公開されます。
関連論文リスト
- DvD: Unleashing a Generative Paradigm for Document Dewarping via Coordinates-based Diffusion Model [36.509036144494495]
DvDはDiffusionフレームワークを介して文書のデウォーピングに取り組む最初の生成モデルである。
具体的に言うと、DvDは典型的なピクセルレベルのデノナイジングの代わりに座標レベルのデノナイジングを導入し、変形補正のためのマッピングを生成する。
我々は,6300の実画像対からなる大規模文書デウォープベンチマークであるAnyPhotoDoc6300を提案する。
論文 参考訳(メタデータ) (2025-05-28T05:05:51Z) - DocLayout-YOLO: Enhancing Document Layout Analysis through Diverse Synthetic Data and Global-to-Local Adaptive Perception [16.301481927603554]
速度の優位性を保ちながら精度を向上させる新しいアプローチであるDoc-YOLOを導入する。
堅牢な文書事前学習には、Mesh-candidate BestFitアルゴリズムを導入する。
モデル最適化の観点からは,グローバルからローカライズ可能な受信モジュールを提案する。
論文 参考訳(メタデータ) (2024-10-16T14:50:47Z) - DocMamba: Efficient Document Pre-training with State Space Model [56.84200017560988]
本稿では,状態空間モデルに基づく新しいフレームワークDocMambaを紹介する。
グローバルなモデリング能力を保ちながら、計算複雑性を線形に減らすように設計されている。
HRDocの実験では、DocMambaの長さ外挿の可能性が確認された。
論文 参考訳(メタデータ) (2024-09-18T11:34:28Z) - Efficient Document Ranking with Learnable Late Interactions [73.41976017860006]
クロスエンコーダ(CE)とデュアルエンコーダ(DE)モデルは,情報検索におけるクエリドキュメント関連性の2つの基本的なアプローチである。
関連性を予測するため、CEモデルは共同クエリドキュメントの埋め込みを使用し、DEモデルは分解クエリとドキュメントの埋め込みを維持している。
近年、DEM構造と軽量スコアラを用いて、より好ましいレイテンシ品質のトレードオフを実現するために、遅延相互作用モデルが提案されている。
論文 参考訳(メタデータ) (2024-06-25T22:50:48Z) - XDoc: Unified Pre-training for Cross-Format Document Understanding [84.63416346227176]
XDocは、単一のモデルで異なるドキュメントフォーマットを扱う、統合された事前訓練されたモデルである。
XDocは、トレーニング済みの個々のモデルと比較して、さまざまなダウンストリームタスクで同等またはそれ以上のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2022-10-06T12:07:18Z) - GERE: Generative Evidence Retrieval for Fact Verification [57.78768817972026]
本稿では,ジェネレーション方式で証拠を検索する最初のシステムであるGEREを提案する。
FEVERデータセットの実験結果は、GEREが最先端のベースラインよりも大幅に改善されていることを示している。
論文 参考訳(メタデータ) (2022-04-12T03:49:35Z) - Cross-Domain Document Layout Analysis Using Document Style Guide [15.799572801059716]
文書レイアウト解析(DLA)は、文書画像を高レベルな意味領域に分解することを目的としている。
多くの研究者がこの課題に取り組み、大規模なトレーニングセットを構築するためにデータを合成した。
本稿では文書スタイルのガイダンスに基づく教師なしクロスドメインDLAフレームワークを提案する。
論文 参考訳(メタデータ) (2022-01-24T00:49:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。