論文の概要: VTLayout: Fusion of Visual and Text Features for Document Layout
Analysis
- arxiv url: http://arxiv.org/abs/2108.13297v1
- Date: Thu, 12 Aug 2021 17:12:11 GMT
- ステータス: 処理完了
- システム内更新日: 2021-09-05 13:18:07.071041
- Title: VTLayout: Fusion of Visual and Text Features for Document Layout
Analysis
- Title(参考訳): VTLayout: ドキュメントレイアウト分析のためのビジュアルとテキストの融合
- Authors: Shoubin Li, Xuyan Ma, Shuaiqun Pan, Jun Hu, Lin Shi and Qing Wang
- Abstract要約: 文書レイアウト分析(DLA)は、歴史文書や科学文書の豊富な情報を大規模に収集する可能性がある。
本稿では,文書の深い視覚的,浅い視覚的,テキスト的特徴を融合させ,カテゴリブロックを識別するVTモデルを提案する。
VTの識別能力はPubLayNetデータセットに基づく最も高度なDLA法よりも優れており、F1スコアは0.9599である。
- 参考スコア(独自算出の注目度): 5.836306027133707
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: Documents often contain complex physical structures, which make the Document
Layout Analysis (DLA) task challenging. As a pre-processing step for content
extraction, DLA has the potential to capture rich information in historical or
scientific documents on a large scale. Although many deep-learning-based
methods from computer vision have already achieved excellent performance in
detecting \emph{Figure} from documents, they are still unsatisfactory in
recognizing the \emph{List}, \emph{Table}, \emph{Text} and \emph{Title}
category blocks in DLA. This paper proposes a VTLayout model fusing the
documents' deep visual, shallow visual, and text features to localize and
identify different category blocks. The model mainly includes two stages, and
the three feature extractors are built in the second stage. In the first stage,
the Cascade Mask R-CNN model is applied directly to localize all category
blocks of the documents. In the second stage, the deep visual, shallow visual,
and text features are extracted for fusion to identify the category blocks of
documents. As a result, we strengthen the classification power of different
category blocks based on the existing localization technique. The experimental
results show that the identification capability of the VTLayout is superior to
the most advanced method of DLA based on the PubLayNet dataset, and the F1
score is as high as 0.9599.
- Abstract(参考訳): ドキュメントは複雑な物理的構造を含むことが多く、ドキュメントレイアウト分析(DLA)タスクは困難である。
コンテンツ抽出の前処理ステップとして、dlaは歴史的文書や科学文書の豊富な情報を大規模に捉えることができる。
コンピュータビジョンの深層学習に基づく多くの手法は、文書から \emph{Figure} を検出するのに既に優れた性能を発揮しているが、DLAの \emph{List}, \emph{Table}, \emph{Text}, \emph{Title} のカテゴリブロックを認識することにはまだ満足できない。
本稿では,文書の深い視覚,浅い視覚,テキストの特徴を融合して,カテゴリブロックの局所化と識別を行うvtlayoutモデルを提案する。
モデルは主に2段階を含み、3つの特徴抽出器は2段階に構築されている。
第1段階では、カスケードマスクr-cnnモデルを直接適用し、文書のすべてのカテゴリブロックをローカライズする。
第2段階では、文書のカテゴリブロックを特定するために融合するために、深部視覚、浅部視覚、テキストの特徴を抽出する。
その結果,既存のローカライズ手法に基づき,異なるカテゴリブロックの分類能力が向上する。
実験の結果,VTLayoutの識別能力はPubLayNetデータセットに基づく最も高度なDLA法よりも優れており,F1スコアは0.9599であることがわかった。
関連論文リスト
- Entry Separation using a Mixed Visual and Textual Language Model:
Application to 19th century French Trade Directories [18.323615434182553]
重要な課題は、ターゲットデータベースの基本的なテキスト領域を構成するものを正確に分割することである。
19世紀のフランス貿易ディレクトリーに効率性を示す新しい実用的アプローチを提案する。
NER目的に使用される言語モデルのトークンストリームに、特別なビジュアルトークン、例えばインデントやブレークといったコーディングを注入することで、テキストと視覚の両方の知識を同時に活用することができる。
論文 参考訳(メタデータ) (2023-02-17T15:30:44Z) - ERNIE-Layout: Layout Knowledge Enhanced Pre-training for Visually-rich
Document Understanding [52.3895498789521]
レイアウト知識を向上した新しい文書事前学習ソリューションであるERNIEを提案する。
まず、直列化段階で入力シーケンスを並べ替え、相関的な事前学習タスクを示し、順序予測を行い、文書の適切な読み順序を学習する。
実験の結果、ERNIEは様々な下流タスクにおいて優れた性能を示し、キー情報に新たな最先端設定、文書質問応答を実現している。
論文 参考訳(メタデータ) (2022-10-12T12:59:24Z) - TRIE++: Towards End-to-End Information Extraction from Visually Rich
Documents [51.744527199305445]
本稿では,視覚的にリッチな文書からエンド・ツー・エンドの情報抽出フレームワークを提案する。
テキスト読み出しと情報抽出は、よく設計されたマルチモーダルコンテキストブロックを介して互いに強化することができる。
フレームワークはエンドツーエンドのトレーニング可能な方法でトレーニングでき、グローバルな最適化が達成できる。
論文 参考訳(メタデータ) (2022-07-14T08:52:07Z) - Towards End-to-End Unified Scene Text Detection and Layout Analysis [60.68100769639923]
本稿では,シーンテキストの検出とレイアウト解析を統合化するタスクについて紹介する。
この新たな研究課題を実現するために、最初の階層的なシーンテキストデータセットが導入された。
また,シーンテキストを同時に検出し,テキストクラスタを統一的に形成する手法を提案する。
論文 参考訳(メタデータ) (2022-03-28T23:35:45Z) - Synthetic Document Generator for Annotation-free Layout Recognition [15.657295650492948]
本稿では,空間的位置,範囲,レイアウト要素のカテゴリを示すラベル付きリアル文書を自動生成する合成文書生成装置について述べる。
合成文書上で純粋に訓練された深層レイアウト検出モデルが,実文書を用いたモデルの性能と一致することを実証的に示す。
論文 参考訳(メタデータ) (2021-11-11T01:58:44Z) - Evaluation of a Region Proposal Architecture for Multi-task Document
Layout Analysis [0.685316573653194]
Mask-RCNNアーキテクチャは、ベースライン検出と領域分割の問題に対処するために設計されている。
2つの手書きテキストデータセットと1つの手書き音楽データセットに関する実験結果を示す。
分析したアーキテクチャは有望な結果をもたらし、3つのデータセットすべてで最先端のテクニックよりも優れています。
論文 参考訳(メタデータ) (2021-06-22T14:07:27Z) - DOC2PPT: Automatic Presentation Slides Generation from Scientific
Documents [76.19748112897177]
文書・スライド生成のための新しい課題とアプローチを提案する。
エンドツーエンドでタスクに取り組むための階層的なシーケンス・ツー・シーケンスアプローチを提案する。
提案手法では,文書やスライド内の固有構造を利用して,パラフレーズとレイアウト予測モジュールを組み込んでスライドを生成する。
論文 参考訳(メタデータ) (2021-01-28T03:21:17Z) - LayoutLMv2: Multi-modal Pre-training for Visually-Rich Document
Understanding [49.941806975280045]
テキストとレイアウトの事前トレーニングは、視覚的に豊富な文書理解タスクで有効であることが証明されています。
テキスト,レイアウト,イメージをマルチモーダルフレームワークで事前学習することで,テキスト-bfLMv2を提示する。
論文 参考訳(メタデータ) (2020-12-29T13:01:52Z) - Cross-Domain Document Object Detection: Benchmark Suite and Method [71.4339949510586]
文書オブジェクト検出(DOD)は、インテリジェントな文書編集や理解といった下流タスクに不可欠である。
我々は、ソースドメインからのラベル付きデータとターゲットドメインからのラベルなしデータのみを用いて、ターゲットドメインの検出器を学習することを目的として、クロスドメインDODを調査した。
各データセットに対して、ページイメージ、バウンディングボックスアノテーション、PDFファイル、PDFファイルから抽出されたレンダリング層を提供する。
論文 参考訳(メタデータ) (2020-03-30T03:04:51Z) - Kleister: A novel task for Information Extraction involving Long
Documents with Complex Layout [5.8530995077744645]
2つの新しいデータセットを備えた新しいタスク(Kleisterという名前)を導入します。
NLPシステムは、長い形式文書において、様々な種類のエンティティについて最も重要な情報を見つけなければならない。
異なる名前付きエンティティ認識アーキテクチャを持つテキストのみのベースラインとしてパイプライン法を提案する。
論文 参考訳(メタデータ) (2020-03-04T22:45:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。