論文の概要: ROAP: A Reading-Order and Attention-Prior Pipeline for Optimizing Layout Transformers in Key Information Extraction
- arxiv url: http://arxiv.org/abs/2601.05470v1
- Date: Fri, 09 Jan 2026 02:02:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-12 17:41:49.810472
- Title: ROAP: A Reading-Order and Attention-Prior Pipeline for Optimizing Layout Transformers in Key Information Extraction
- Title(参考訳): ROAP:キー情報抽出におけるレイアウト変換器の最適化のための読み順と注意順のパイプライン
- Authors: Tingwei Xie, Jinxin He, Yonghong Song,
- Abstract要約: 本稿では,レイアウト変換器のアテンション分布を最適化する軽量かつアーキテクチャに依存しないパイプラインであるROAPを提案する。
FUNSDおよびCORDベンチマークの実験により、ROAPはバックボーンの性能を一貫して改善することを示した。
- 参考スコア(独自算出の注目度): 5.594845708011402
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: The efficacy of Multimodal Transformers in visually-rich document understanding (VrDU) is critically constrained by two inherent limitations: the lack of explicit modeling for logical reading order and the interference of visual tokens that dilutes attention on textual semantics. To address these challenges, this paper presents ROAP, a lightweight and architecture-agnostic pipeline designed to optimize attention distributions in Layout Transformers without altering their pre-trained backbones. The proposed pipeline first employs an Adaptive-XY-Gap (AXG-Tree) to robustly extract hierarchical reading sequences from complex layouts. These sequences are then integrated into the attention mechanism via a Reading-Order-Aware Relative Position Bias (RO-RPB). Furthermore, a Textual-Token Sub-block Attention Prior (TT-Prior) is introduced to adaptively suppress visual noise and enhance fine-grained text-text interactions. Extensive experiments on the FUNSD and CORD benchmarks demonstrate that ROAP consistently improves the performance of representative backbones, including LayoutLMv3 and GeoLayoutLM. These findings confirm that explicitly modeling reading logic and regulating modality interference are critical for robust document understanding, offering a scalable solution for complex layout analysis. The implementation code will be released at https://github.com/KevinYuLei/ROAP.
- Abstract(参考訳): 視覚的にリッチな文書理解(VrDU)におけるマルチモーダルトランスフォーマーの有効性は、論理的読解順序に対する明示的モデリングの欠如と、テキスト意味論に注意を向ける視覚トークンの干渉という2つの固有の制約によって批判的に制限されている。
これらの課題に対処するため,本論文では,事前学習したバックボーンを変更することなく,レイアウト変換器のアテンション分布を最適化する軽量かつアーキテクチャに依存しないパイプラインであるROAPを提案する。
提案したパイプラインは、まずAdaptive-XY-Gap(AXG-Tree)を使用して、複雑なレイアウトから階層的な読み込みシーケンスを堅牢に抽出する。
これらの配列は、RO-RPB (Reading-Order-Aware Relative Position Bias) を介してアテンション機構に統合される。
さらに、視覚ノイズを適応的に抑制し、きめ細かいテキスト・テキスト・インタラクションを強化するために、テクスチャ・トークン・サブブロック・アテンション・プライオリ(TT-Prior)を導入する。
FUNSDとCORDベンチマークの大規模な実験は、ROAPがLayoutLMv3やGeoLayoutLMといった代表的バックボーンの性能を一貫して改善していることを示している。
これらの結果は、読み出し論理を明示的にモデル化し、モダリティ干渉を規制することが、文書理解の堅牢化に不可欠であることを確認し、複雑なレイアウト解析のためのスケーラブルなソリューションを提供する。
実装コードはhttps://github.com/KevinYuLei/ROAPで公開される。
関連論文リスト
- MonkeyOCR v1.5 Technical Report: Unlocking Robust Document Parsing for Complex Patterns [80.05126590825121]
MonkeyOCR v1.5は、レイアウト理解とコンテンツ認識の両方を強化する統合ビジョン言語フレームワークである。
複雑なテーブル構造に対処するために,視覚的整合性に基づく強化学習手法を提案する。
2つの特別なモジュール、Image-Decoupled Table ParsingとType-Guided Table Mergingを導入し、テーブルの信頼性の高いパースを可能にする。
論文 参考訳(メタデータ) (2025-11-13T15:12:17Z) - How Modality Shapes Perception and Reasoning: A Study of Error Propagation in ARC-AGI [7.226300346775942]
ARC-AGIとARC-AGI-2は、小さな色量子格子上の一般化スルー合成を測定する。
最近の命令ファーストシステムは、グリッドを生成-実行-選択ループで実行される簡潔な自然言語またはDSLルールに変換する。
論文 参考訳(メタデータ) (2025-11-11T19:06:41Z) - QID: Efficient Query-Informed ViTs in Data-Scarce Regimes for OCR-free Visual Document Understanding [53.69841526266547]
トレーニング済みのVision-Language Modelを新しいデータセットで微調整することは、ビジョンエンコーダの最適化に不足することが多い。
視覚エンコーダにクエリの埋め込みを統合する,新しい,合理化されたアーキテクチャ保存アプローチであるQIDを導入する。
論文 参考訳(メタデータ) (2025-04-03T18:47:16Z) - Modeling Layout Reading Order as Ordering Relations for Visually-rich Document Understanding [33.96748793247162]
本稿では,レイアウト要素の集合上の順序関係としてレイアウト読み込み順序をモデル化する。
レイアウト読み出し順序の改善型の導入による実用的利点を強調するため, 読み出し順序対応型パイプラインを提案する。
論文 参考訳(メタデータ) (2024-09-29T12:00:57Z) - TextFormer: A Query-based End-to-End Text Spotter with Mixed Supervision [61.186488081379]
Transformerアーキテクチャを用いた問合せベースのエンドツーエンドテキストスポッターであるTextFormerを提案する。
TextFormerは、画像エンコーダとテキストデコーダの上に構築され、マルチタスクモデリングのための共同セマンティック理解を学ぶ。
分類、セグメンテーション、認識のブランチの相互訓練と最適化を可能にし、より深い特徴共有をもたらす。
論文 参考訳(メタデータ) (2023-06-06T03:37:41Z) - Text Reading Order in Uncontrolled Conditions by Sparse Graph
Segmentation [71.40119152422295]
テキストの読み出し順序を識別するための軽量でスケーラブルで一般化可能なアプローチを提案する。
モデルは言語に依存しず、多言語データセットで効果的に実行される。
モバイルデバイスを含むあらゆるプラットフォームにデプロイできるほど小さい。
論文 参考訳(メタデータ) (2023-05-04T06:21:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。