論文の概要: VSR: A Unified Framework for Document Layout Analysis combining Vision,
Semantics and Relations
- arxiv url: http://arxiv.org/abs/2105.06220v1
- Date: Thu, 13 May 2021 12:20:30 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-14 13:57:55.433374
- Title: VSR: A Unified Framework for Document Layout Analysis combining Vision,
Semantics and Relations
- Title(参考訳): VSR:ビジョン,セマンティックス,関係性を組み合わせたドキュメントレイアウト分析のための統一フレームワーク
- Authors: Peng Zhang and Can Li and Liang Qiao and Zhanzhan Cheng and Shiliang
Pu and Yi Niu and Fei Wu
- Abstract要約: 視覚、意味論、関係性を組み合わせた文書レイアウト解析のための統一フレームワークVSRを提案する。
人気のある3つのベンチマークでは、vsrは以前のモデルを大きく上回っている。
- 参考スコア(独自算出の注目度): 40.721146438291335
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Document layout analysis is crucial for understanding document structures. On
this task, vision and semantics of documents, and relations between layout
components contribute to the understanding process. Though many works have been
proposed to exploit the above information, they show unsatisfactory results.
NLP-based methods model layout analysis as a sequence labeling task and show
insufficient capabilities in layout modeling. CV-based methods model layout
analysis as a detection or segmentation task, but bear limitations of
inefficient modality fusion and lack of relation modeling between layout
components. To address the above limitations, we propose a unified framework
VSR for document layout analysis, combining vision, semantics and relations.
VSR supports both NLP-based and CV-based methods. Specifically, we first
introduce vision through document image and semantics through text embedding
maps. Then, modality-specific visual and semantic features are extracted using
a two-stream network, which are adaptively fused to make full use of
complementary information. Finally, given component candidates, a relation
module based on graph neural network is incorported to model relations between
components and output final results. On three popular benchmarks, VSR
outperforms previous models by large margins. Code will be released soon.
- Abstract(参考訳): 文書構造を理解するには文書レイアウト解析が不可欠である。
このタスクでは、ドキュメントのビジョンとセマンティクス、レイアウトコンポーネント間の関係が理解プロセスに寄与します。
上記の情報を利用するために多くの研究が提案されているが、不十分な結果を示している。
nlpベースのメソッド シーケンスラベリングタスクとしてモデルレイアウト解析を行い、レイアウトモデリングにおいて不十分な能力を示す。
CV-based method model layout analysis as a detection or segmentation task but bear limit of in efficient modality fusion and lack of relation modeling between layout components。
上記の制約に対処するために,視覚,意味論,関係性を組み合わせた文書レイアウト解析のための統合フレームワークVSRを提案する。
VSRはNLPベースの方法とCVベースの方法の両方をサポートしている。
具体的には、まず、テキスト埋め込みマップによる文書画像と意味論によるビジョンを紹介する。
次に、相補的な情報をフル活用するために適応的に融合された2つのストリームネットワークを用いて、様相特異的な視覚的および意味的特徴を抽出する。
最後に、コンポーネント候補が与えられた場合、グラフニューラルネットワークに基づく関係モジュールは、コンポーネント間の関係をモデル化し、最終結果を出力する。
3つの人気のあるベンチマークで、VSRは以前のモデルよりも大きなマージンで性能を上げた。
コードはまもなくリリースされる。
関連論文リスト
- Enhancing Visually-Rich Document Understanding via Layout Structure
Modeling [91.07963806829237]
レイアウトの知識をモデルに注入する新しい文書理解モデルであるGraphLMを提案する。
我々は、FUNSD、XFUND、CORDなど様々なベンチマークでモデルを評価し、最先端の結果を得た。
論文 参考訳(メタデータ) (2023-08-15T13:53:52Z) - DocTr: Document Transformer for Structured Information Extraction in
Documents [36.1145541816468]
本稿では、視覚的にリッチな文書から構造化情報を取り出すための新しい定式化について述べる。
既存のIOBタグやグラフベースの定式化の制限に対処することを目的としている。
我々は、エンティティをアンカーワードとバウンディングボックスとして表現し、エンティティリンクをアンカーワードの関連付けとして表現する。
論文 参考訳(メタデータ) (2023-07-16T02:59:30Z) - Dual-Gated Fusion with Prefix-Tuning for Multi-Modal Relation Extraction [13.454953507205278]
マルチモーダル関係抽出は、視覚的手がかりを含むテキスト中の2つの実体間の関係を特定することを目的としている。
本稿では,テキスト,エンティティペア,画像/オブジェクトのより深い相関関係をよりよく捉えるための新しいMMREフレームワークを提案する。
本手法は, 少数の状況においても, 強力な競合相手と比較して優れた性能を発揮する。
論文 参考訳(メタデータ) (2023-06-19T15:31:34Z) - ReSel: N-ary Relation Extraction from Scientific Text and Tables by
Learning to Retrieve and Select [53.071352033539526]
学術論文からN-ary関係を抽出する問題について考察する。
提案手法であるReSelは,このタスクを2段階のプロシージャに分解する。
3つの科学的情報抽出データセットに対する実験により、ReSelは最先端のベースラインを大きく上回っていることがわかった。
論文 参考訳(メタデータ) (2022-10-26T02:28:02Z) - Doc-GCN: Heterogeneous Graph Convolutional Networks for Document Layout
Analysis [4.920817773181236]
我々のDoc-GCNは、文書レイアウト分析のための異種側面の調和と統合に有効な方法を提供する。
まず、構文、意味、密度、外見/視覚情報を含む4つの主要な側面を明示的に記述するグラフを構築した。
情報の各側面を表現するためにグラフ畳み込みネットワークを適用し、それらを統合するためにプールを使用する。
論文 参考訳(メタデータ) (2022-08-22T07:22:05Z) - Entity Relation Extraction as Dependency Parsing in Visually Rich
Documents [18.67730663266417]
一般的な依存性解析モデルであるbiaffineを,このエンティティ関係抽出タスクに適用する。
単語間の依存関係関係を認識する依存性解析モデルとは異なることから,単語群間の関係をレイアウト情報で識別する。
実世界のアプリケーションについては、本モデルが社内の税関データに適用され、プロダクション環境で信頼性の高い性能を実現している。
論文 参考訳(メタデータ) (2021-10-19T12:26:40Z) - BASS: Boosting Abstractive Summarization with Unified Semantic Graph [49.48925904426591]
BASSは、統合されたセマンティックグラフに基づく抽象的な要約を促進するためのフレームワークである。
文書表現と要約生成の両方を改善するために,グラフベースのエンコーダデコーダモデルを提案する。
実験結果から,提案アーキテクチャは長期文書および複数文書要約タスクに大幅な改善をもたらすことが示された。
論文 参考訳(メタデータ) (2021-05-25T16:20:48Z) - Leveraging Graph to Improve Abstractive Multi-Document Summarization [50.62418656177642]
我々は、文書のよく知られたグラフ表現を活用することができる、抽象的多文書要約(MDS)モデルを開発する。
本モデルでは,長い文書の要約に欠かせない文書間関係を捉えるために,文書の符号化にグラフを利用する。
また,このモデルでは,要約生成プロセスの導出にグラフを利用することが可能であり,一貫性と簡潔な要約を生成するのに有用である。
論文 参考訳(メタデータ) (2020-05-20T13:39:47Z) - Bidirectional Graph Reasoning Network for Panoptic Segmentation [126.06251745669107]
本稿では,BGRNet(Bidirectional Graph Reasoning Network)を導入し,前景物と背景物間のモジュラー内およびモジュラー間関係について検討する。
BGRNetはまず、インスタンスとセマンティックセグメンテーションの両方でイメージ固有のグラフを構築し、提案レベルとクラスレベルで柔軟な推論を可能にする。
論文 参考訳(メタデータ) (2020-04-14T02:32:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。