論文の概要: ROAP: A Reading-Order and Attention-Prior Pipeline for Optimizing Layout Transformers in Key Information Extraction
- arxiv url: http://arxiv.org/abs/2601.05470v1
- Date: Fri, 09 Jan 2026 02:02:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-12 17:41:49.810472
- Title: ROAP: A Reading-Order and Attention-Prior Pipeline for Optimizing Layout Transformers in Key Information Extraction
- Title(参考訳): ROAP:キー情報抽出におけるレイアウト変換器の最適化のための読み順と注意順のパイプライン
- Authors: Tingwei Xie, Jinxin He, Yonghong Song,
- Abstract要約: 本稿では,レイアウト変換器のアテンション分布を最適化する軽量かつアーキテクチャに依存しないパイプラインであるROAPを提案する。
FUNSDおよびCORDベンチマークの実験により、ROAPはバックボーンの性能を一貫して改善することを示した。
- 参考スコア(独自算出の注目度): 5.594845708011402
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: The efficacy of Multimodal Transformers in visually-rich document understanding (VrDU) is critically constrained by two inherent limitations: the lack of explicit modeling for logical reading order and the interference of visual tokens that dilutes attention on textual semantics. To address these challenges, this paper presents ROAP, a lightweight and architecture-agnostic pipeline designed to optimize attention distributions in Layout Transformers without altering their pre-trained backbones. The proposed pipeline first employs an Adaptive-XY-Gap (AXG-Tree) to robustly extract hierarchical reading sequences from complex layouts. These sequences are then integrated into the attention mechanism via a Reading-Order-Aware Relative Position Bias (RO-RPB). Furthermore, a Textual-Token Sub-block Attention Prior (TT-Prior) is introduced to adaptively suppress visual noise and enhance fine-grained text-text interactions. Extensive experiments on the FUNSD and CORD benchmarks demonstrate that ROAP consistently improves the performance of representative backbones, including LayoutLMv3 and GeoLayoutLM. These findings confirm that explicitly modeling reading logic and regulating modality interference are critical for robust document understanding, offering a scalable solution for complex layout analysis. The implementation code will be released at https://github.com/KevinYuLei/ROAP.
- Abstract(参考訳): 視覚的にリッチな文書理解(VrDU)におけるマルチモーダルトランスフォーマーの有効性は、論理的読解順序に対する明示的モデリングの欠如と、テキスト意味論に注意を向ける視覚トークンの干渉という2つの固有の制約によって批判的に制限されている。
これらの課題に対処するため,本論文では,事前学習したバックボーンを変更することなく,レイアウト変換器のアテンション分布を最適化する軽量かつアーキテクチャに依存しないパイプラインであるROAPを提案する。
提案したパイプラインは、まずAdaptive-XY-Gap(AXG-Tree)を使用して、複雑なレイアウトから階層的な読み込みシーケンスを堅牢に抽出する。
これらの配列は、RO-RPB (Reading-Order-Aware Relative Position Bias) を介してアテンション機構に統合される。
さらに、視覚ノイズを適応的に抑制し、きめ細かいテキスト・テキスト・インタラクションを強化するために、テクスチャ・トークン・サブブロック・アテンション・プライオリ(TT-Prior)を導入する。
FUNSDとCORDベンチマークの大規模な実験は、ROAPがLayoutLMv3やGeoLayoutLMといった代表的バックボーンの性能を一貫して改善していることを示している。
これらの結果は、読み出し論理を明示的にモデル化し、モダリティ干渉を規制することが、文書理解の堅牢化に不可欠であることを確認し、複雑なレイアウト解析のためのスケーラブルなソリューションを提供する。
実装コードはhttps://github.com/KevinYuLei/ROAPで公開される。
関連論文リスト
- AgenticOCR: Parsing Only What You Need for Efficient Retrieval-Augmented Generation [35.07704681580893]
本稿では,光学文字認識(OCR)をクエリ駆動オンデマンド抽出システムに変換する動的解析パラダイムであるAgenticOCRを紹介する。
AgenticOCRは、文書レイアウトを「画像で考える」方法で自律的に分析することにより、関心のある領域を特定し、選択的に認識する。
AgenticOCRは、ビジュアルドキュメントRAGスタックの"3番目のビルディングブロック"として機能する可能性がある。
論文 参考訳(メタデータ) (2026-02-27T16:09:38Z) - Untwisting RoPE: Frequency Control for Shared Attention in DiTs [84.14005261938284]
位置符号化はトランスフォーマーベースの生成モデルに不可欠である。
ロータリー・ポジショナル・エンベディング (RoPE) は, 異なる位置感性を有する周波数成分に自然に分解されることを示す。
本稿では,厳密な位置アライメントよりも意味的類似性を反映するように,RoPE周波数帯域を選択的に変調する手法を提案する。
論文 参考訳(メタデータ) (2026-02-04T20:01:59Z) - HAAF: Hierarchical Adaptation and Alignment of Foundation Models for Few-Shot Pathology Anomaly Detection [10.649984141835189]
階層型適応アライメントフレームワーク(HAAF)を提案する。
中心となるのは、シーケンシャルなキャリブレーション順序を強制するクロスレベルスケールアライメント機構である。
デュアルブランチ推論戦略は、セマンティックスコアと幾何学的プロトタイプを統合して、数ショット設定での安定性を確保する。
論文 参考訳(メタデータ) (2026-01-24T10:31:21Z) - MonkeyOCR v1.5 Technical Report: Unlocking Robust Document Parsing for Complex Patterns [80.05126590825121]
MonkeyOCR v1.5は、レイアウト理解とコンテンツ認識の両方を強化する統合ビジョン言語フレームワークである。
複雑なテーブル構造に対処するために,視覚的整合性に基づく強化学習手法を提案する。
2つの特別なモジュール、Image-Decoupled Table ParsingとType-Guided Table Mergingを導入し、テーブルの信頼性の高いパースを可能にする。
論文 参考訳(メタデータ) (2025-11-13T15:12:17Z) - How Modality Shapes Perception and Reasoning: A Study of Error Propagation in ARC-AGI [7.226300346775942]
ARC-AGIとARC-AGI-2は、小さな色量子格子上の一般化スルー合成を測定する。
最近の命令ファーストシステムは、グリッドを生成-実行-選択ループで実行される簡潔な自然言語またはDSLルールに変換する。
論文 参考訳(メタデータ) (2025-11-11T19:06:41Z) - QID: Efficient Query-Informed ViTs in Data-Scarce Regimes for OCR-free Visual Document Understanding [53.69841526266547]
トレーニング済みのVision-Language Modelを新しいデータセットで微調整することは、ビジョンエンコーダの最適化に不足することが多い。
視覚エンコーダにクエリの埋め込みを統合する,新しい,合理化されたアーキテクチャ保存アプローチであるQIDを導入する。
論文 参考訳(メタデータ) (2025-04-03T18:47:16Z) - Modeling Layout Reading Order as Ordering Relations for Visually-rich Document Understanding [33.96748793247162]
本稿では,レイアウト要素の集合上の順序関係としてレイアウト読み込み順序をモデル化する。
レイアウト読み出し順序の改善型の導入による実用的利点を強調するため, 読み出し順序対応型パイプラインを提案する。
論文 参考訳(メタデータ) (2024-09-29T12:00:57Z) - TextFormer: A Query-based End-to-End Text Spotter with Mixed Supervision [61.186488081379]
Transformerアーキテクチャを用いた問合せベースのエンドツーエンドテキストスポッターであるTextFormerを提案する。
TextFormerは、画像エンコーダとテキストデコーダの上に構築され、マルチタスクモデリングのための共同セマンティック理解を学ぶ。
分類、セグメンテーション、認識のブランチの相互訓練と最適化を可能にし、より深い特徴共有をもたらす。
論文 参考訳(メタデータ) (2023-06-06T03:37:41Z) - Text Reading Order in Uncontrolled Conditions by Sparse Graph
Segmentation [71.40119152422295]
テキストの読み出し順序を識別するための軽量でスケーラブルで一般化可能なアプローチを提案する。
モデルは言語に依存しず、多言語データセットで効果的に実行される。
モバイルデバイスを含むあらゆるプラットフォームにデプロイできるほど小さい。
論文 参考訳(メタデータ) (2023-05-04T06:21:00Z) - UIA-ViT: Unsupervised Inconsistency-Aware Method based on Vision
Transformer for Face Forgery Detection [52.91782218300844]
そこで我々は、UIA-ViTと呼ばれるビジョン変換器に基づく教師なし不整合認識手法を提案する。
自己注意機構により、パッチ埋め込み間の注意マップは自然に一貫性関係を表現し、一貫性表現学習に適した視覚変換器となる。
論文 参考訳(メタデータ) (2022-10-23T15:24:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。