論文の概要: VSR: A Unified Framework for Document Layout Analysis combining Vision,
Semantics and Relations
- arxiv url: http://arxiv.org/abs/2105.06220v1
- Date: Thu, 13 May 2021 12:20:30 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-14 13:57:55.433374
- Title: VSR: A Unified Framework for Document Layout Analysis combining Vision,
Semantics and Relations
- Title(参考訳): VSR:ビジョン,セマンティックス,関係性を組み合わせたドキュメントレイアウト分析のための統一フレームワーク
- Authors: Peng Zhang and Can Li and Liang Qiao and Zhanzhan Cheng and Shiliang
Pu and Yi Niu and Fei Wu
- Abstract要約: 視覚、意味論、関係性を組み合わせた文書レイアウト解析のための統一フレームワークVSRを提案する。
人気のある3つのベンチマークでは、vsrは以前のモデルを大きく上回っている。
- 参考スコア(独自算出の注目度): 40.721146438291335
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Document layout analysis is crucial for understanding document structures. On
this task, vision and semantics of documents, and relations between layout
components contribute to the understanding process. Though many works have been
proposed to exploit the above information, they show unsatisfactory results.
NLP-based methods model layout analysis as a sequence labeling task and show
insufficient capabilities in layout modeling. CV-based methods model layout
analysis as a detection or segmentation task, but bear limitations of
inefficient modality fusion and lack of relation modeling between layout
components. To address the above limitations, we propose a unified framework
VSR for document layout analysis, combining vision, semantics and relations.
VSR supports both NLP-based and CV-based methods. Specifically, we first
introduce vision through document image and semantics through text embedding
maps. Then, modality-specific visual and semantic features are extracted using
a two-stream network, which are adaptively fused to make full use of
complementary information. Finally, given component candidates, a relation
module based on graph neural network is incorported to model relations between
components and output final results. On three popular benchmarks, VSR
outperforms previous models by large margins. Code will be released soon.
- Abstract(参考訳): 文書構造を理解するには文書レイアウト解析が不可欠である。
このタスクでは、ドキュメントのビジョンとセマンティクス、レイアウトコンポーネント間の関係が理解プロセスに寄与します。
上記の情報を利用するために多くの研究が提案されているが、不十分な結果を示している。
nlpベースのメソッド シーケンスラベリングタスクとしてモデルレイアウト解析を行い、レイアウトモデリングにおいて不十分な能力を示す。
CV-based method model layout analysis as a detection or segmentation task but bear limit of in efficient modality fusion and lack of relation modeling between layout components。
上記の制約に対処するために,視覚,意味論,関係性を組み合わせた文書レイアウト解析のための統合フレームワークVSRを提案する。
VSRはNLPベースの方法とCVベースの方法の両方をサポートしている。
具体的には、まず、テキスト埋め込みマップによる文書画像と意味論によるビジョンを紹介する。
次に、相補的な情報をフル活用するために適応的に融合された2つのストリームネットワークを用いて、様相特異的な視覚的および意味的特徴を抽出する。
最後に、コンポーネント候補が与えられた場合、グラフニューラルネットワークに基づく関係モジュールは、コンポーネント間の関係をモデル化し、最終結果を出力する。
3つの人気のあるベンチマークで、VSRは以前のモデルよりも大きなマージンで性能を上げた。
コードはまもなくリリースされる。
関連論文リスト
- Hypergraph based Understanding for Document Semantic Entity Recognition [65.84258776834524]
我々は,ハイパグラフアテンションを利用したハイパグラフアテンション文書セマンティックエンティティ認識フレームワークHGAを構築し,エンティティ境界とエンティティカテゴリを同時に重視する。
FUNSD, CORD, XFUNDIE で得られた結果は,本手法が意味的エンティティ認識タスクの性能を効果的に向上できることを示す。
論文 参考訳(メタデータ) (2024-07-09T14:35:49Z) - DLAFormer: An End-to-End Transformer For Document Layout Analysis [7.057192434574117]
DLAFormerと呼ばれる文書レイアウト解析のためのエンド・ツー・エンド・トランスフォーマー方式を提案する。
各種DLAサブタスクを関係予測問題として扱い、これらの関係予測ラベルを統一ラベル空間に統合する。
本稿では,DeTRにおけるコンテンツクエリの物理的意味を高めるために,新しいタイプのクエリセットを提案する。
論文 参考訳(メタデータ) (2024-05-20T03:34:24Z) - GeoContrastNet: Contrastive Key-Value Edge Learning for Language-Agnostic Document Understanding [4.258365032282028]
グラフアテンションネットワーク(GAT)と対照的な学習目標を統合することにより、構造化文書理解(DU)に言語に依存しないフレームワークを提案する。
本稿では、幾何学的エッジ特徴と視覚的特徴を組み合わせた2段階のGATベースのフレームワークを提案する。
この結果から,FUNSDデータセット内の鍵値関係を形式として同定し,RVLCDIPビジネス請求書の表構造レイアウトにおける空間的関係を見出した。
論文 参考訳(メタデータ) (2024-05-06T01:40:20Z) - A Semantic Mention Graph Augmented Model for Document-Level Event Argument Extraction [12.286432133599355]
Document-level Event Argument extract (DEAE)は、構造化されていないドキュメントから引数とその特定の役割を特定することを目的としている。
DEAEの先進的なアプローチは、事前訓練された言語モデル(PLM)を誘導するプロンプトベースの手法を用いて、入力文書から引数を抽出する。
本稿では,この2つの問題に対処するために,グラフ拡張モデル (GAM) のセマンティック言及を提案する。
論文 参考訳(メタデータ) (2024-03-12T08:58:07Z) - Enhancing Visually-Rich Document Understanding via Layout Structure
Modeling [91.07963806829237]
レイアウトの知識をモデルに注入する新しい文書理解モデルであるGraphLMを提案する。
我々は、FUNSD、XFUND、CORDなど様々なベンチマークでモデルを評価し、最先端の結果を得た。
論文 参考訳(メタデータ) (2023-08-15T13:53:52Z) - DocTr: Document Transformer for Structured Information Extraction in
Documents [36.1145541816468]
本稿では、視覚的にリッチな文書から構造化情報を取り出すための新しい定式化について述べる。
既存のIOBタグやグラフベースの定式化の制限に対処することを目的としている。
我々は、エンティティをアンカーワードとバウンディングボックスとして表現し、エンティティリンクをアンカーワードの関連付けとして表現する。
論文 参考訳(メタデータ) (2023-07-16T02:59:30Z) - ReSel: N-ary Relation Extraction from Scientific Text and Tables by
Learning to Retrieve and Select [53.071352033539526]
学術論文からN-ary関係を抽出する問題について考察する。
提案手法であるReSelは,このタスクを2段階のプロシージャに分解する。
3つの科学的情報抽出データセットに対する実験により、ReSelは最先端のベースラインを大きく上回っていることがわかった。
論文 参考訳(メタデータ) (2022-10-26T02:28:02Z) - Leveraging Graph to Improve Abstractive Multi-Document Summarization [50.62418656177642]
我々は、文書のよく知られたグラフ表現を活用することができる、抽象的多文書要約(MDS)モデルを開発する。
本モデルでは,長い文書の要約に欠かせない文書間関係を捉えるために,文書の符号化にグラフを利用する。
また,このモデルでは,要約生成プロセスの導出にグラフを利用することが可能であり,一貫性と簡潔な要約を生成するのに有用である。
論文 参考訳(メタデータ) (2020-05-20T13:39:47Z) - Bidirectional Graph Reasoning Network for Panoptic Segmentation [126.06251745669107]
本稿では,BGRNet(Bidirectional Graph Reasoning Network)を導入し,前景物と背景物間のモジュラー内およびモジュラー間関係について検討する。
BGRNetはまず、インスタンスとセマンティックセグメンテーションの両方でイメージ固有のグラフを構築し、提案レベルとクラスレベルで柔軟な推論を可能にする。
論文 参考訳(メタデータ) (2020-04-14T02:32:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。