Fugu-MT 論文翻訳(概要): Modeling Layout Reading Order as Ordering Relations for Visually-rich Document Understanding

論文の概要: Modeling Layout Reading Order as Ordering Relations for Visually-rich Document Understanding

arxiv url: http://arxiv.org/abs/2409.19672v1
Date: Sun, 29 Sep 2024 12:00:57 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-05 21:49:14.369650
Title: Modeling Layout Reading Order as Ordering Relations for Visually-rich Document Understanding
Title（参考訳）: 視覚豊かな文書理解のための順序関係としてのレイアウト読解順序のモデル化
Authors: Chong Zhang, Yi Tu, Yixi Zhao, Chenshu Yuan, Huan Chen, Yue Zhang, Mingxu Chai, Ya Guo, Huijia Zhu, Qi Zhang, Tao Gui,
Abstract要約: 本稿では,レイアウト要素の集合上の順序関係としてレイアウト読み込み順序をモデル化する。レイアウト読み出し順序の改善型の導入による実用的利点を強調するため, 読み出し順序対応型パイプラインを提案する。
参考スコア（独自算出の注目度）: 33.96748793247162
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Modeling and leveraging layout reading order in visually-rich documents (VrDs) is critical in document intelligence as it captures the rich structure semantics within documents. Previous works typically formulated layout reading order as a permutation of layout elements, i.e. a sequence containing all the layout elements. However, we argue that this formulation does not adequately convey the complete reading order information in the layout, which may potentially lead to performance decline in downstream VrD tasks. To address this issue, we propose to model the layout reading order as ordering relations over the set of layout elements, which have sufficient expressive capability for the complete reading order information. To enable empirical evaluation on methods towards the improved form of reading order prediction (ROP), we establish a comprehensive benchmark dataset including the reading order annotation as relations over layout elements, together with a relation-extraction-based method that outperforms previous methods. Moreover, to highlight the practical benefits of introducing the improved form of layout reading order, we propose a reading-order-relation-enhancing pipeline to improve model performance on any arbitrary VrD task by introducing additional reading order relation inputs. Comprehensive results demonstrate that the pipeline generally benefits downstream VrD tasks: (1) with utilizing the reading order relation information, the enhanced downstream models achieve SOTA results on both two task settings of the targeted dataset; (2) with utilizing the pseudo reading order information generated by the proposed ROP model, the performance of the enhanced models has improved across all three models and eight cross-domain VrD-IE/QA task settings without targeted optimization.
Abstract（参考訳）: 視覚的にリッチなドキュメント(VrD)におけるレイアウト読み込み順序のモデル化と活用は、ドキュメント内のリッチな構造セマンティクスを捉えるため、ドキュメントインテリジェンスにおいて重要である。以前の作業は通常、レイアウト要素の置換、すなわちすべてのレイアウト要素を含むシーケンスとしてレイアウト読み込み順序を定式化した。しかし、この定式化はレイアウトの完全な読み出し順序情報を適切に伝達しないため、下流のVrDタスクの性能低下につながる可能性がある。この問題に対処するために、レイアウト要素の集合上の順序関係としてレイアウト読み出し順序をモデル化し、完全な読み出し順序情報に十分な表現能力を有することを提案する。改良型読み順序予測(ROP)に向けた手法の実証評価を可能にするため,レイアウト要素上の関係として読み順序アノテーションを含む包括的なベンチマークデータセットと,従来手法よりも優れた関係抽出に基づく手法を構築した。そこで本研究では,任意のVrDタスク上でのモデル性能向上のために,読み出し順序関係入力を導入することで,読み出し順序対応型パイプラインを提案する。総合的な結果から,パイプラインは一般的に下流VrDタスクに有効であることが示された。(1)読み出し順序関係情報を活用することにより,対象データセットの2つのタスク設定でSOTA結果が得られること,(2)提案したROPモデルによって生成された擬似読み出し順序情報を活用することにより,拡張モデルの性能は3つのモデルすべてと8つのクロスドメインVrD-IE/QAタスク設定で目標最適化なしで改善されている。

関連論文リスト

Learning to Rank with Variable Result Presentation Lengths [15.763596979466929]
ランク付け法を学ぶことは、上位Kランクのそれぞれの文書が同等のフォーマットで表示されると仮定する。本稿では,文書の順序と提示期間を同時に決定する可変表示長ランキングタスクを提案する。実験の結果,VLPLは期待されるすべてのドキュメントの露出と魅力を効果的にバランスさせ,異なるランキング設定で最高のパフォーマンスを実現することができることがわかった。
論文参考訳（メタデータ） (2025-06-29T16:28:17Z)
QID: Efficient Query-Informed ViTs in Data-Scarce Regimes for OCR-free Visual Document Understanding [53.69841526266547]
トレーニング済みのVision-Language Modelを新しいデータセットで微調整することは、ビジョンエンコーダの最適化に不足することが多い。視覚エンコーダにクエリの埋め込みを統合する,新しい,合理化されたアーキテクチャ保存アプローチであるQIDを導入する。
論文参考訳（メタデータ） (2025-04-03T18:47:16Z)
Continual LLaVA: Continual Instruction Tuning in Large Vision-Language Models [93.5327725085853]
連続LLaVA(Continuous LLaVA)は、LVLMにおける連続的な命令チューニングに適したリハーサルフリーな手法である。実験により,提案した連続LLaVAは,連続的な命令チューニング過程における忘れを著しく減らし,従来の手法よりも優れていたことが示唆された。
論文参考訳（メタデータ） (2024-11-04T19:55:32Z)
Coarse-Tuning for Ad-hoc Document Retrieval Using Pre-trained Language Models [1.7126893619099555]
情報検索システムの微調整には、クエリ表現とクエリドキュメントの関係の学習が必要である。本研究では,事前学習と微調整を橋渡しする中間学習段階として粗調整を導入する。粗いチューニングのためのクエリ文書ペア予測(QDPP)を提案し,クエリ文書ペアの適切性を予測する。
論文参考訳（メタデータ） (2024-03-25T16:32:50Z)
Enhancing Visually-Rich Document Understanding via Layout Structure Modeling [91.07963806829237]
レイアウトの知識をモデルに注入する新しい文書理解モデルであるGraphLMを提案する。我々は、FUNSD、XFUND、CORDなど様々なベンチマークでモデルを評価し、最先端の結果を得た。
論文参考訳（メタデータ） (2023-08-15T13:53:52Z)
ReSel: N-ary Relation Extraction from Scientific Text and Tables by Learning to Retrieve and Select [53.071352033539526]
学術論文からN-ary関係を抽出する問題について考察する。提案手法であるReSelは,このタスクを2段階のプロシージャに分解する。 3つの科学的情報抽出データセットに対する実験により、ReSelは最先端のベースラインを大きく上回っていることがわかった。
論文参考訳（メタデータ） (2022-10-26T02:28:02Z)
ERNIE-Layout: Layout Knowledge Enhanced Pre-training for Visually-rich Document Understanding [52.3895498789521]
レイアウト知識を向上した新しい文書事前学習ソリューションであるERNIEを提案する。まず、直列化段階で入力シーケンスを並べ替え、相関的な事前学習タスクを示し、順序予測を行い、文書の適切な読み順序を学習する。実験の結果、ERNIEは様々な下流タスクにおいて優れた性能を示し、キー情報に新たな最先端設定、文書質問応答を実現している。
論文参考訳（メタデータ） (2022-10-12T12:59:24Z)
Long Document Summarization with Top-down and Bottom-up Inference [113.29319668246407]
本稿では、2つの側面の要約モデルを改善するための原則的推論フレームワークを提案する。我々のフレームワークは、トップレベルが長距離依存性をキャプチャするドキュメントの階層的な潜在構造を前提としています。本稿では,様々な要約データセットに対して提案手法の有効性を示す。
論文参考訳（メタデータ） (2022-03-15T01:24:51Z)
VSR: A Unified Framework for Document Layout Analysis combining Vision, Semantics and Relations [40.721146438291335]
視覚、意味論、関係性を組み合わせた文書レイアウト解析のための統一フレームワークVSRを提案する。人気のある3つのベンチマークでは、vsrは以前のモデルを大きく上回っている。
論文参考訳（メタデータ） (2021-05-13T12:20:30Z)
Automated Concatenation of Embeddings for Structured Prediction [75.44925576268052]
本稿では, 埋め込みの自動結合(ACE)を提案し, 構造予測タスクにおける埋め込みのより優れた結合を見つけるプロセスを自動化する。我々は、強化学習の戦略に従い、制御器のパラメータを最適化し、タスクモデルの精度に基づいて報酬を計算する。
論文参考訳（メタデータ） (2020-10-10T14:03:20Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。