論文の概要: LayoutMask: Enhance Text-Layout Interaction in Multi-modal Pre-training
for Document Understanding
- arxiv url: http://arxiv.org/abs/2305.18721v2
- Date: Fri, 9 Jun 2023 03:29:43 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-12 16:24:57.825021
- Title: LayoutMask: Enhance Text-Layout Interaction in Multi-modal Pre-training
for Document Understanding
- Title(参考訳): LayoutMask: 文書理解のためのマルチモーダル事前学習におけるテキストレイアウトインタラクションの強化
- Authors: Yi Tu, Ya Guo, Huan Chen, Jinyang Tang
- Abstract要約: 本稿では,新しいマルチモーダル事前学習モデルLayoutMaskを提案する。
統一されたモデルにおいて、テキストとレイアウトのモダリティ間の相互作用を強化することができる。
様々なVrDU問題に対して最先端の結果が得られる。
- 参考スコア(独自算出の注目度): 7.7514466231699455
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Visually-rich Document Understanding (VrDU) has attracted much research
attention over the past years. Pre-trained models on a large number of document
images with transformer-based backbones have led to significant performance
gains in this field. The major challenge is how to fusion the different
modalities (text, layout, and image) of the documents in a unified model with
different pre-training tasks. This paper focuses on improving text-layout
interactions and proposes a novel multi-modal pre-training model, LayoutMask.
LayoutMask uses local 1D position, instead of global 1D position, as layout
input and has two pre-training objectives: (1) Masked Language Modeling:
predicting masked tokens with two novel masking strategies; (2) Masked Position
Modeling: predicting masked 2D positions to improve layout representation
learning. LayoutMask can enhance the interactions between text and layout
modalities in a unified model and produce adaptive and robust multi-modal
representations for downstream tasks. Experimental results show that our
proposed method can achieve state-of-the-art results on a wide variety of VrDU
problems, including form understanding, receipt understanding, and document
image classification.
- Abstract(参考訳): 視覚的にリッチな文書理解(vrdu)は、近年多くの研究の注目を集めている。
トランスフォーマーベースのバックボーンを持つ多数の文書画像の事前学習モデルがこの分野で大きなパフォーマンス向上をもたらした。
主な課題は、文書の異なるモダリティ(テキスト、レイアウト、画像)を、異なる事前学習タスクで統一されたモデルにどのように融合するかである。
本稿では,テキストレイアウトインタラクションの改善に着目し,新しいマルチモーダル事前学習モデルlayoutmaskを提案する。
layoutmaskは、グローバルな1d位置ではなく、ローカルな1d位置をレイアウト入力として使用し、事前学習目標を2つ備えている。(1) マスク言語モデリング: 2つの新しいマスク戦略によるマスクトークンの予測 (2) マスク位置モデリング: マスク2d位置の予測 レイアウト表現学習を改善する。
LayoutMaskは、統一モデルにおけるテキストとレイアウトのモダリティ間の相互作用を強化し、下流タスクに対して適応的で堅牢なマルチモーダル表現を生成する。
実験の結果,提案手法は,形式理解,レセプション理解,文書画像分類など,多種多様なVrDU問題に対して,最先端の成果が得られることがわかった。
関連論文リスト
- StrucTexTv2: Masked Visual-Textual Prediction for Document Image
Pre-training [64.37272287179661]
StrucTexTv2は、効果的なドキュメントイメージ事前トレーニングフレームワークである。
マスク付き画像モデリングとマスク付き言語モデリングの2つの自己教師付き事前訓練タスクで構成されている。
画像分類、レイアウト解析、テーブル構造認識、ドキュメントOCR、情報抽出など、さまざまな下流タスクにおいて、競合的あるいは新しい最先端パフォーマンスを実現する。
論文 参考訳(メタデータ) (2023-03-01T07:32:51Z) - Towards Unifying Medical Vision-and-Language Pre-training via Soft
Prompts [63.84720380390935]
textiti. には、重い融合モジュールを使用するかどうかに応じて、融合エンコーダタイプと二重エンコーダタイプという2つの典型的なタイプがある。
PTUnifier という2つのタイプを統一する手法を提案する。
まず、最も代表的な画像/テキストを格納する機能バンクとして機能する視覚的およびテキスト的プロンプトを導入することで、入力形式を統一する。
論文 参考訳(メタデータ) (2023-02-17T15:43:42Z) - Unifying Vision, Text, and Layout for Universal Document Processing [105.36490575974028]
本稿では,テキスト,画像,レイアウトのモダリティを文書理解と生成を含むさまざまなタスク形式とともに統合するドキュメントAIモデルを提案する。
我々の手法は、財務報告、学術論文、ウェブサイトなど、さまざまなデータ領域にまたがって、文書理解やQAといった9つのドキュメントAIタスクの最先端を定めている。
論文 参考訳(メタデータ) (2022-12-05T22:14:49Z) - ERNIE-Layout: Layout Knowledge Enhanced Pre-training for Visually-rich
Document Understanding [52.3895498789521]
レイアウト知識を向上した新しい文書事前学習ソリューションであるERNIEを提案する。
まず、直列化段階で入力シーケンスを並べ替え、相関的な事前学習タスクを示し、順序予測を行い、文書の適切な読み順序を学習する。
実験の結果、ERNIEは様々な下流タスクにおいて優れた性能を示し、キー情報に新たな最先端設定、文書質問応答を実現している。
論文 参考訳(メタデータ) (2022-10-12T12:59:24Z) - Knowing Where and What: Unified Word Block Pretraining for Document
Understanding [11.46378901674016]
We propose UTel, a language model with Unified TExt and layout pre-training。
具体的には、レイアウト学習のための単語予測(SWP)と、異なる単語ブロックを特定するための単語埋め込み(CWE)のコントラスト学習の2つの事前学習タスクを提案する。
このようにして、Masked Layout-Language Modeling (MLLM)と2つの新しいタスクの共同トレーニングにより、意味的特徴と空間的特徴を統一的に相互作用させることができる。
論文 参考訳(メタデータ) (2022-07-28T09:43:06Z) - LayoutLMv3: Pre-training for Document AI with Unified Text and Image
Masking [83.09001231165985]
テキストと画像のマスキングを併用した文書AIのためのマルチモーダルトランスフォーマーを事前学習するためのLayoutLMv3を提案する。
単純な統一アーキテクチャとトレーニングの目的により、LayoutLMv3はテキスト中心および画像中心のDocument AIタスクの汎用的な事前トレーニングモデルになる。
論文 参考訳(メタデータ) (2022-04-18T16:19:52Z) - Single-Stream Multi-Level Alignment for Vision-Language Pretraining [103.09776737512078]
モーダルを複数のレベルで整列させる単一ストリームモデルを提案する。
対称的相互モダリティ再構築と擬似ラベル付きキーワード予測という2つの新しいタスクを用いてこれを実現する。
我々は、ゼロショット/ファインチューニングされた画像/テキスト検索、参照表現、VQAといった一連の視覚言語タスクにおいて、トップパフォーマンスを示す。
論文 参考訳(メタデータ) (2022-03-27T21:16:10Z) - ITA: Image-Text Alignments for Multi-Modal Named Entity Recognition [38.08486689940946]
MNER(Multi-modal Named Entity Recognition)は多くの注目を集めている。
画像やテキスト表現などのインタラクションを,それぞれのモダリティのデータに基づいて個別に訓練することは困難である。
本稿では,画像特徴をテキスト空間に整列させるため,bf Image-bf text bf Alignments (ITA)を提案する。
論文 参考訳(メタデータ) (2021-12-13T08:29:43Z) - ImageBERT: Cross-modal Pre-training with Large-scale Weak-supervised
Image-Text Data [9.3935916515127]
画像-テキスト共同埋め込みのための視覚教師付き事前学習モデルである ImageBERT を導入する。
我々のモデルはTransformerベースのモデルであり、入力として異なるモダリティを取り、それらの関係をモデル化する。
論文 参考訳(メタデータ) (2020-01-22T11:35:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。