論文の概要: Multimodal Pre-training Based on Graph Attention Network for Document
Understanding
- arxiv url: http://arxiv.org/abs/2203.13530v1
- Date: Fri, 25 Mar 2022 09:27:50 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-28 21:15:49.480330
- Title: Multimodal Pre-training Based on Graph Attention Network for Document
Understanding
- Title(参考訳): 文書理解のためのグラフ注意ネットワークに基づくマルチモーダル事前学習
- Authors: Zhenrong Zhang, Jiefeng Ma, Jun Du, Licheng Wang and Jianshu Zhang
- Abstract要約: GraphDocは、さまざまなドキュメント理解タスクのためのグラフベースのモデルである。
テキスト、レイアウト、画像情報を同時に活用することにより、マルチモーダルフレームワークで事前訓練される。
320万の未ラベル文書から一般的な表現を学習する。
- 参考スコア(独自算出の注目度): 32.55734039518983
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Document intelligence as a relatively new research topic supports many
business applications. Its main task is to automatically read, understand, and
analyze documents. However, due to the diversity of formats (invoices, reports,
forms, etc.) and layouts in documents, it is difficult to make machines
understand documents. In this paper, we present the GraphDoc, a multimodal
graph attention-based model for various document understanding tasks. GraphDoc
is pre-trained in a multimodal framework by utilizing text, layout, and image
information simultaneously. In a document, a text block relies heavily on its
surrounding contexts, so we inject the graph structure into the attention
mechanism to form a graph attention layer so that each input node can only
attend to its neighborhoods. The input nodes of each graph attention layer are
composed of textual, visual, and positional features from semantically
meaningful regions in a document image. We do the multimodal feature fusion of
each node by the gate fusion layer. The contextualization between each node is
modeled by the graph attention layer. GraphDoc learns a generic representation
from only 320k unlabeled documents via the Masked Sentence Modeling task.
Extensive experimental results on the publicly available datasets show that
GraphDoc achieves state-of-the-art performance, which demonstrates the
effectiveness of our proposed method.
- Abstract(参考訳): ドキュメントインテリジェンス 比較的新しい研究トピックとして、多くのビジネスアプリケーションをサポートする。
主なタスクは、文書を自動的に読み、理解し、分析することである。
しかし、文書の形式(請求書、レポート、フォームなど)やレイアウトの多様性のため、機械に文書を理解させることは困難である。
本稿では,様々な文書理解タスクのためのマルチモーダルグラフ注目モデルであるgraphdocを提案する。
graphdocはテキスト、レイアウト、画像情報を同時に利用するマルチモーダルフレームワークで事前トレーニングされる。
文書において、テキストブロックはその周囲のコンテキストに大きく依存するため、注意機構にグラフ構造を注入し、各入力ノードがその近傍にのみ参加できるように、グラフ注意層を形成する。
各グラフ注目層の入力ノードは、文書画像における意味的に意味のある領域からテキスト的、視覚的、位置的特徴からなる。
ゲート融合層によって各ノードのマルチモーダル機能融合を行う。
各ノード間のコンテキスト化はグラフアテンション層によってモデル化される。
GraphDocは、Masked Sentence Modelingタスクを通じて、320kの未ラベルドキュメントから一般的な表現を学ぶ。
公開データセットの大規模な実験結果から,GraphDocは最先端のパフォーマンスを実現し,提案手法の有効性を示す。
関連論文リスト
- GraphKD: Exploring Knowledge Distillation Towards Document Object
Detection with Structured Graph Creation [14.511401955827875]
ドキュメントにおけるオブジェクト検出は、構造的要素の識別プロセスを自動化するための重要なステップである。
文書画像中の文書オブジェクトを正しく識別し,ローカライズするための,グラフベースの知識蒸留フレームワークを提案する。
論文 参考訳(メタデータ) (2024-02-17T23:08:32Z) - Enhancing Visually-Rich Document Understanding via Layout Structure
Modeling [91.07963806829237]
レイアウトの知識をモデルに注入する新しい文書理解モデルであるGraphLMを提案する。
我々は、FUNSD、XFUND、CORDなど様々なベンチマークでモデルを評価し、最先端の結果を得た。
論文 参考訳(メタデータ) (2023-08-15T13:53:52Z) - Doc2SoarGraph: Discrete Reasoning over Visually-Rich Table-Text
Documents via Semantic-Oriented Hierarchical Graphs [79.0426838808629]
視覚的にリッチなテーブルテキスト文書に答えるTAT-DQAを提案する。
具体的には、離散推論機能を強化した新しいDoc2SoarGraphフレームワークを提案する。
我々は,TAT-DQAデータセットに関する広範な実験を行い,提案したフレームワークは,テストセット上でのエクサクティマッチ(EM)とF1スコアでそれぞれ17.73%,F1スコアで16.91%の最高のベースラインモデルを上回る結果を得た。
論文 参考訳(メタデータ) (2023-05-03T07:30:32Z) - Doc2Graph: a Task Agnostic Document Understanding Framework based on
Graph Neural Networks [0.965964228590342]
GNNモデルに基づくタスクに依存しない文書理解フレームワークDoc2Graphを提案する。
形態理解,請求書レイアウト解析,テーブル検出における鍵情報抽出のための2つの挑戦的データセットに対するアプローチを評価する。
論文 参考訳(メタデータ) (2022-08-23T19:48:10Z) - Doc-GCN: Heterogeneous Graph Convolutional Networks for Document Layout
Analysis [4.920817773181236]
我々のDoc-GCNは、文書レイアウト分析のための異種側面の調和と統合に有効な方法を提供する。
まず、構文、意味、密度、外見/視覚情報を含む4つの主要な側面を明示的に記述するグラフを構築した。
情報の各側面を表現するためにグラフ畳み込みネットワークを適用し、それらを統合するためにプールを使用する。
論文 参考訳(メタデータ) (2022-08-22T07:22:05Z) - Unified Pretraining Framework for Document Understanding [52.224359498792836]
文書理解のための統合事前学習フレームワークであるUDocを紹介する。
UDocは、ほとんどのドキュメント理解タスクをサポートするように設計されており、Transformerを拡張してマルチモーダル埋め込みを入力とする。
UDocの重要な特徴は、3つの自己管理的損失を利用して汎用的な表現を学ぶことである。
論文 参考訳(メタデータ) (2022-04-22T21:47:04Z) - SelfDoc: Self-Supervised Document Representation Learning [46.22910270334824]
SelfDocは、文書イメージ理解のためのタスクに依存しない事前トレーニングフレームワークである。
本フレームワークは,文書中の意味的に意味のあるすべてのコンポーネントの位置情報,テキスト情報,視覚情報を利用する。
複数のダウンストリームタスクにおいて,事前学習段階で使用する文書イメージが従来よりも大幅に少なく,優れたパフォーマンスを実現している。
論文 参考訳(メタデータ) (2021-06-07T04:19:49Z) - Extracting Summary Knowledge Graphs from Long Documents [48.92130466606231]
本稿では,長い文書から要約された知識グラフを予測する新しいテキスト・ツー・グラフタスクを提案する。
自動アノテーションと人文アノテーションを用いた200k文書/グラフペアのデータセットを開発する。
論文 参考訳(メタデータ) (2020-09-19T04:37:33Z) - DocBank: A Benchmark Dataset for Document Layout Analysis [114.81155155508083]
文書レイアウト解析のための詳細なトークンレベルのアノテーションを備えた500Kドキュメントページを含むベンチマークデータセットである textbfDocBank を提示する。
実験の結果,DocBankでトレーニングされたモデルは,さまざまなドキュメントのレイアウト情報を正確に認識することがわかった。
論文 参考訳(メタデータ) (2020-06-01T16:04:30Z) - Heterogeneous Graph Neural Networks for Extractive Document
Summarization [101.17980994606836]
クロス文関係は、抽出文書要約における重要なステップである。
We present a graph-based neural network for extractive summarization (HeterSumGraph)
抽出文書要約のためのグラフベースニューラルネットワークに異なる種類のノードを導入する。
論文 参考訳(メタデータ) (2020-04-26T14:38:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。