論文の概要: PARL: Position-Aware Relation Learning Network for Document Layout Analysis
- arxiv url: http://arxiv.org/abs/2601.07620v1
- Date: Mon, 12 Jan 2026 15:05:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-13 19:08:01.48146
- Title: PARL: Position-Aware Relation Learning Network for Document Layout Analysis
- Title(参考訳): PARL:文書レイアウト解析のための位置認識関係学習ネットワーク
- Authors: Fuyuan Liu, Dianyu Yu, He Ren, Nayu Liu, Xiaomian Kang, Delai Qiu, Fa Zhang, Genpeng Zhen, Shengping Liu, Jiaen Liang, Wei Huang, Yining Wang, Junnan Zhu,
- Abstract要約: 効果的なレイアウト解析は,テキストと視覚の融合ではなく,文書の本質的な視覚構造を深く理解することに依存する。
位置感度とリレーショナル構造を用いてレイアウトをモデル化する新しいOCRフリー・ビジョンオンリーのフレームワークを提案する。
実験により、PARL (65M) は大規模マルチモーダルモデルより約4倍少ないパラメータを用いて非常に効率的であることが示されている。
- 参考スコア(独自算出の注目度): 23.497081928689525
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Document layout analysis aims to detect and categorize structural elements (e.g., titles, tables, figures) in scanned or digital documents. Popular methods often rely on high-quality Optical Character Recognition (OCR) to merge visual features with extracted text. This dependency introduces two major drawbacks: propagation of text recognition errors and substantial computational overhead, limiting the robustness and practical applicability of multimodal approaches. In contrast to the prevailing multimodal trend, we argue that effective layout analysis depends not on text-visual fusion, but on a deep understanding of documents' intrinsic visual structure. To this end, we propose PARL (Position-Aware Relation Learning Network), a novel OCR-free, vision-only framework that models layout through positional sensitivity and relational structure. Specifically, we first introduce a Bidirectional Spatial Position-Guided Deformable Attention module to embed explicit positional dependencies among layout elements directly into visual features. Second, we design a Graph Refinement Classifier (GRC) to refine predictions by modeling contextual relationships through a dynamically constructed layout graph. Extensive experiments show PARL achieves state-of-the-art results. It establishes a new benchmark for vision-only methods on DocLayNet and, notably, surpasses even strong multimodal models on M6Doc. Crucially, PARL (65M) is highly efficient, using roughly four times fewer parameters than large multimodal models (256M), demonstrating that sophisticated visual structure modeling can be both more efficient and robust than multimodal fusion.
- Abstract(参考訳): 文書レイアウト分析は、スキャンされた文書やデジタル文書の構造的要素(タイトル、表、図形など)を検出し、分類することを目的としている。
一般的な手法は、視覚的特徴と抽出されたテキストをマージするために、高品質な光学文字認識(OCR)に依存することが多い。
この依存性は、テキスト認識エラーの伝搬と、かなりの計算オーバーヘッドの2つの大きな欠点を導入し、マルチモーダルアプローチの堅牢性と実用性を制限する。
一般的なマルチモーダルな傾向とは対照的に、効果的なレイアウト解析はテキストと視覚の融合ではなく、文書の本質的な視覚構造を深く理解することに依存する。
そこで我々は,位置感性や関係構造を通じてレイアウトをモデル化する新しいOCRフリーで視覚のみのフレームワークであるPARL(Position-Aware Relation Learning Network)を提案する。
具体的には、レイアウト要素間の明示的な位置依存性を直接視覚的特徴に埋め込むために、双方向空間位置ガイド型変形性注意モジュールを最初に導入する。
第2に、動的に構築されたレイアウトグラフを通してコンテキスト関係をモデル化することにより、予測を洗練するためのグラフ精細分類器(GRC)を設計する。
大規模な実験により、PARLは最先端の結果を得ることが示された。
DocLayNet上では視覚のみのメソッドのための新しいベンチマークを確立しており、特にM6Doc上では強力なマルチモーダルモデルを超えている。
重要なことに、PARL (65M) は大きなマルチモーダルモデル (256M) の約4倍のパラメータを用いて非常に効率的であり、高度な視覚構造モデリングはマルチモーダル融合よりも効率的かつ堅牢であることを示した。
関連論文リスト
- MonkeyOCR v1.5 Technical Report: Unlocking Robust Document Parsing for Complex Patterns [80.05126590825121]
MonkeyOCR v1.5は、レイアウト理解とコンテンツ認識の両方を強化する統合ビジョン言語フレームワークである。
複雑なテーブル構造に対処するために,視覚的整合性に基づく強化学習手法を提案する。
2つの特別なモジュール、Image-Decoupled Table ParsingとType-Guided Table Mergingを導入し、テーブルの信頼性の高いパースを可能にする。
論文 参考訳(メタデータ) (2025-11-13T15:12:17Z) - CMRAG: Co-modality-based visual document retrieval and question answering [21.016544020685668]
共同モダリティベースのRAG(RAG)フレームワークは、テキストや画像を利用してより正確な検索と生成を行うことができる。
我々のフレームワークは、複数のビジュアル文書質問応答(VDQA)ベンチマークにおいて、単一モダリティベースのRAGを一貫して上回ります。
論文 参考訳(メタデータ) (2025-09-02T09:17:57Z) - QID: Efficient Query-Informed ViTs in Data-Scarce Regimes for OCR-free Visual Document Understanding [53.69841526266547]
トレーニング済みのVision-Language Modelを新しいデータセットで微調整することは、ビジョンエンコーダの最適化に不足することが多い。
視覚エンコーダにクエリの埋め込みを統合する,新しい,合理化されたアーキテクチャ保存アプローチであるQIDを導入する。
論文 参考訳(メタデータ) (2025-04-03T18:47:16Z) - Towards Text-Image Interleaved Retrieval [49.96332254241075]
テキスト画像検索(TIIR)タスクを導入し、クエリと文書をインターリーブしたテキスト画像シーケンスとする。
我々は、自然にインターリーブされたwikiHowチュートリアルに基づいてTIIRベンチマークを構築し、インターリーブされたクエリを生成するために特定のパイプラインを設計する。
異なる粒度で視覚トークンの数を圧縮する新しいMMEを提案する。
論文 参考訳(メタデータ) (2025-02-18T12:00:47Z) - Enhancing Visually-Rich Document Understanding via Layout Structure
Modeling [91.07963806829237]
レイアウトの知識をモデルに注入する新しい文書理解モデルであるGraphLMを提案する。
我々は、FUNSD、XFUND、CORDなど様々なベンチマークでモデルを評価し、最先端の結果を得た。
論文 参考訳(メタデータ) (2023-08-15T13:53:52Z) - VSR: A Unified Framework for Document Layout Analysis combining Vision,
Semantics and Relations [40.721146438291335]
視覚、意味論、関係性を組み合わせた文書レイアウト解析のための統一フレームワークVSRを提案する。
人気のある3つのベンチマークでは、vsrは以前のモデルを大きく上回っている。
論文 参考訳(メタデータ) (2021-05-13T12:20:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。