論文の概要: StrucTexT: Structured Text Understanding with Multi-Modal Transformers
- arxiv url: http://arxiv.org/abs/2108.02923v2
- Date: Tue, 10 Aug 2021 03:44:20 GMT
- ステータス: 処理完了
- システム内更新日: 2021-08-11 11:24:13.986204
- Title: StrucTexT: Structured Text Understanding with Multi-Modal Transformers
- Title(参考訳): StrucTexT:マルチモーダル変換器による構造化テキスト理解
- Authors: Yulin Li and Yuxi Qian and Yuchen Yu and Xiameng Qin and Chengquan
Zhang and Yan Liu and Kun Yao and Junyu Han and Jingtuo Liu and Errui Ding
- Abstract要約: Visually Rich Documents (VRD)における構造化テキスト理解は、ドキュメントインテリジェンスの重要な部分である。
本稿では,SrucTexTという統合フレームワークを提案する。
セグメントレベルおよびトークンレベルで構造化されたテキスト理解の手法を評価し,その手法が最先端のテキスト理解よりも優れていることを示す。
- 参考スコア(独自算出の注目度): 29.540122964399046
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Structured text understanding on Visually Rich Documents (VRDs) is a crucial
part of Document Intelligence. Due to the complexity of content and layout in
VRDs, structured text understanding has been a challenging task. Most existing
studies decoupled this problem into two sub-tasks: entity labeling and entity
linking, which require an entire understanding of the context of documents at
both token and segment levels. However, little work has been concerned with the
solutions that efficiently extract the structured data from different levels.
This paper proposes a unified framework named StrucTexT, which is flexible and
effective for handling both sub-tasks. Specifically, based on the transformer,
we introduce a segment-token aligned encoder to deal with the entity labeling
and entity linking tasks at different levels of granularity. Moreover, we
design a novel pre-training strategy with three self-supervised tasks to learn
a richer representation. StrucTexT uses the existing Masked Visual Language
Modeling task and the new Sentence Length Prediction and Paired Boxes Direction
tasks to incorporate the multi-modal information across text, image, and
layout. We evaluate our method for structured text understanding at
segment-level and token-level and show it outperforms the state-of-the-art
counterparts with significantly superior performance on the FUNSD, SROIE, and
EPHOIE datasets.
- Abstract(参考訳): Visually Rich Documents (VRD)における構造化テキスト理解は、ドキュメントインテリジェンスの重要な部分である。
VRDにおけるコンテンツとレイアウトの複雑さのため、構造化されたテキスト理解は難しい課題でした。
既存の研究の多くは、この問題をエンティティラベリングとエンティティリンクという2つのサブタスクに分離している。
しかし、異なるレベルから効率的に構造化データを抽出するソリューションに関する作業はほとんどなかった。
本稿では,両サブタスクを柔軟かつ効果的に処理できる,structext という統一フレームワークを提案する。
具体的には、変換器に基づいて、異なるレベルの粒度でエンティティラベリングやエンティティリンクタスクを扱うセグメントツーケン整列エンコーダを導入する。
さらに,よりリッチな表現を学ぶために,3つの自己監督タスクを用いた新しい事前学習戦略を設計する。
StrucTexTは、既存のMasked Visual Language Modelingタスクと、Sentence Longngth PredictionとPaired Boxes Directionタスクを使用して、テキスト、画像、レイアウトにマルチモーダル情報を組み込む。
本手法は,セグメントレベルとトークンレベルで構造化テキスト理解を行い,funsd,sroie,ephoieデータセットにおいて,最先端のテキスト理解よりも優れた性能を示す。
関連論文リスト
- TAGA: Text-Attributed Graph Self-Supervised Learning by Synergizing Graph and Text Mutual Transformations [15.873944819608434]
Text-Attributed Graphs (TAG)は、自然言語記述によるグラフ構造を強化する。
本稿では,TAGの構造的・意味的次元を統合した,新たな自己教師型学習フレームワークであるText-And-Graph Multi-View Alignment(TAGA)を紹介する。
本フレームワークは,8つの実世界のデータセットを対象としたゼロショットおよび少数ショットシナリオにおいて,強力なパフォーマンスを示す。
論文 参考訳(メタデータ) (2024-05-27T03:40:16Z) - OmniParser: A Unified Framework for Text Spotting, Key Information Extraction and Table Recognition [79.852642726105]
多様なシナリオにまたがって視覚的なテキストを解析するための統一パラダイムを提案する。
具体的には,3つの視覚的なテキスト解析タスクを同時に処理できるOmniというユニバーサルモデルを提案する。
オムニでは、全てのタスクが統一エンコーダ・デコーダアーキテクチャ、統一目的点条件テキスト生成、統一入力表現を共有している。
論文 参考訳(メタデータ) (2024-03-28T03:51:14Z) - mPLUG-DocOwl 1.5: Unified Structure Learning for OCR-free Document Understanding [100.17063271791528]
MLLMの性能向上を目的とした統一構造学習を提案する。
我々のモデルDocOwl 1.5は、10のビジュアル文書理解ベンチマーク上で最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2024-03-19T16:48:40Z) - DocTr: Document Transformer for Structured Information Extraction in
Documents [36.1145541816468]
本稿では、視覚的にリッチな文書から構造化情報を取り出すための新しい定式化について述べる。
既存のIOBタグやグラフベースの定式化の制限に対処することを目的としている。
我々は、エンティティをアンカーワードとバウンディングボックスとして表現し、エンティティリンクをアンカーワードの関連付けとして表現する。
論文 参考訳(メタデータ) (2023-07-16T02:59:30Z) - TextFormer: A Query-based End-to-End Text Spotter with Mixed Supervision [61.186488081379]
Transformerアーキテクチャを用いた問合せベースのエンドツーエンドテキストスポッターであるTextFormerを提案する。
TextFormerは、画像エンコーダとテキストデコーダの上に構築され、マルチタスクモデリングのための共同セマンティック理解を学ぶ。
分類、セグメンテーション、認識のブランチの相互訓練と最適化を可能にし、より深い特徴共有をもたらす。
論文 参考訳(メタデータ) (2023-06-06T03:37:41Z) - TRIE++: Towards End-to-End Information Extraction from Visually Rich
Documents [51.744527199305445]
本稿では,視覚的にリッチな文書からエンド・ツー・エンドの情報抽出フレームワークを提案する。
テキスト読み出しと情報抽出は、よく設計されたマルチモーダルコンテキストブロックを介して互いに強化することができる。
フレームワークはエンドツーエンドのトレーニング可能な方法でトレーニングでき、グローバルな最適化が達成できる。
論文 参考訳(メタデータ) (2022-07-14T08:52:07Z) - Constructing Flow Graphs from Procedural Cybersecurity Texts [16.09313316086535]
我々はサイバーセキュリティドメイン(3154文書)に大規模な注釈付き手続き型テキストデータセット(CTFW)を構築した。
本稿では,このようなテキストから関連情報を識別し,文間の情報フローを生成することを提案する。
実験の結果,BERT文を埋め込んだグラフ畳み込みネットワークは,3つの領域すべてでBERTよりも優れていた。
論文 参考訳(メタデータ) (2021-05-29T19:06:35Z) - Minimally-Supervised Structure-Rich Text Categorization via Learning on
Text-Rich Networks [61.23408995934415]
テキストリッチネットワークから学習することで,最小限に教師付き分類を行う新しいフレームワークを提案する。
具体的には、テキスト理解のためのテキスト解析モジュールと、クラス差別的でスケーラブルなネットワーク学習のためのネットワーク学習モジュールの2つのモジュールを共同でトレーニングします。
実験の結果,1つのカテゴリに3つのシード文書しか与えられず,その精度は約92%であった。
論文 参考訳(メタデータ) (2021-02-23T04:14:34Z) - TRIE: End-to-End Text Reading and Information Extraction for Document
Understanding [56.1416883796342]
本稿では,統合されたエンドツーエンドのテキスト読解と情報抽出ネットワークを提案する。
テキスト読解のマルチモーダル視覚的特徴とテキスト的特徴は、情報抽出のために融合される。
提案手法は, 精度と効率の両面において, 最先端の手法よりも優れていた。
論文 参考訳(メタデータ) (2020-05-27T01:47:26Z) - Kleister: A novel task for Information Extraction involving Long
Documents with Complex Layout [5.8530995077744645]
2つの新しいデータセットを備えた新しいタスク(Kleisterという名前)を導入します。
NLPシステムは、長い形式文書において、様々な種類のエンティティについて最も重要な情報を見つけなければならない。
異なる名前付きエンティティ認識アーキテクチャを持つテキストのみのベースラインとしてパイプライン法を提案する。
論文 参考訳(メタデータ) (2020-03-04T22:45:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。