論文の概要: DocFormerv2: Local Features for Document Understanding
- arxiv url: http://arxiv.org/abs/2306.01733v1
- Date: Fri, 2 Jun 2023 17:58:03 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-05 13:44:51.633216
- Title: DocFormerv2: Local Features for Document Understanding
- Title(参考訳): DocFormerv2: ドキュメント理解のためのローカル機能
- Authors: Srikar Appalaraju, Peng Tang, Qi Dong, Nishant Sankaran, Yichu Zhou,
R. Manmatha
- Abstract要約: 視覚文書理解のためのマルチモーダル変換器DocFormerv2を提案する。
VDUドメインは、フォームから情報を抽出するなど、文書(単なるOCR予測)を理解する必要がある。
我々のアプローチであるDocFormerv2はエンコーダ・デコーダ変換器であり、視覚、言語、空間的特徴を入力とする。
- 参考スコア(独自算出の注目度): 15.669112678509522
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: We propose DocFormerv2, a multi-modal transformer for Visual Document
Understanding (VDU). The VDU domain entails understanding documents (beyond
mere OCR predictions) e.g., extracting information from a form, VQA for
documents and other tasks. VDU is challenging as it needs a model to make sense
of multiple modalities (visual, language and spatial) to make a prediction. Our
approach, termed DocFormerv2 is an encoder-decoder transformer which takes as
input - vision, language and spatial features. DocFormerv2 is pre-trained with
unsupervised tasks employed asymmetrically i.e., two novel document tasks on
encoder and one on the auto-regressive decoder. The unsupervised tasks have
been carefully designed to ensure that the pre-training encourages
local-feature alignment between multiple modalities. DocFormerv2 when evaluated
on nine datasets shows state-of-the-art performance over strong baselines e.g.
TabFact (4.3%), InfoVQA (1.4%), FUNSD (1%). Furthermore, to show generalization
capabilities, on three VQA tasks involving scene-text, Doc- Formerv2
outperforms previous comparably-sized models and even does better than much
larger models (such as GIT2, PaLi and Flamingo) on some tasks. Extensive
ablations show that due to its pre-training, DocFormerv2 understands multiple
modalities better than prior-art in VDU.
- Abstract(参考訳): 本稿では,視覚文書理解のためのマルチモーダルトランスフォーマティブであるdocformerv2を提案する。
VDUドメインは、フォームから情報を取り出す、文書やその他のタスクに対するVQAなどの理解ドキュメント(単なるOCR予測)を必要とする。
VDUは、複数のモーダル(視覚、言語、空間)を理解して予測するモデルを必要とするため、難しい。
docformerv2と呼ばれる我々のアプローチは、視覚、言語、空間的特徴を入力とするエンコーダ・デコーダトランスフォーマです。
DocFormerv2は非対称、すなわちエンコーダの2つの新しいドキュメントタスクと自動回帰デコーダの1つのタスクで事前訓練されている。
教師なしのタスクは、事前トレーニングが複数のモダリティ間のローカル機能アライメントを促進するように、慎重に設計されている。
9つのデータセットで評価されたDocFormerv2は、TabFact (4.3%)、InfoVQA (1.4%)、FUNSD (1%)など、強力なベースライン上での最先端のパフォーマンスを示している。
さらに、シーンテキストを含む3つのVQAタスクの一般化能力を示すために、Doc-Prev2は以前のコンパラブルサイズのモデルよりも優れており、いくつかのタスクではより大きなモデル(GIT2、PaLi、Flamingoなど)よりも優れている。
事前トレーニングのため、DocFormerv2はVDUの先行技術よりも複数のモダリティを理解している。
関連論文リスト
- DocPedia: Unleashing the Power of Large Multimodal Model in the
Frequency Domain for Versatile Document Understanding [98.41782470335032]
本研究は, OCRフリー文書理解のための新しい大規模マルチモーダルモデル(LMM)であるDocPediaを提案する。
既存の作業では高解像度のドキュメントで苦労したり、大きな言語モデルを捨てたり、視覚や言語能力に制約があったりするのに対して、DocPediaでは、ピクセル空間ではなく、周波数領域の視覚入力を直接処理しています。
論文 参考訳(メタデータ) (2023-11-20T14:42:25Z) - Towards Unifying Medical Vision-and-Language Pre-training via Soft
Prompts [63.84720380390935]
textiti. には、重い融合モジュールを使用するかどうかに応じて、融合エンコーダタイプと二重エンコーダタイプという2つの典型的なタイプがある。
PTUnifier という2つのタイプを統一する手法を提案する。
まず、最も代表的な画像/テキストを格納する機能バンクとして機能する視覚的およびテキスト的プロンプトを導入することで、入力形式を統一する。
論文 参考訳(メタデータ) (2023-02-17T15:43:42Z) - Bi-VLDoc: Bidirectional Vision-Language Modeling for Visually-Rich
Document Understanding [72.95838931445498]
マルチモーダル文書事前学習モデルは、様々な視覚的にリッチな文書理解(VrDU)タスクにおいて非常に効果的であることが証明されている。
ドキュメント上の視覚と言語間の相互作用をモデル化し、活用する方法は、より優れた一般化能力とより高い精度から妨げられている。
本稿では,VrDUにおける視覚言語共同表現学習の問題点について,主に監視信号の観点から検討する。
論文 参考訳(メタデータ) (2022-06-27T09:58:34Z) - Coarse-to-Fine Vision-Language Pre-training with Fusion in the Backbone [170.85076677740292]
本稿では、視覚言語(VL)事前学習のための新しいモデルアーキテクチャであるFIBER(Fusion-In-the-Backbone-basedER)を提案する。
ユニモーダルバックボーンの後に、専用のトランスフォーマー層を融合させる代わりに、FIBERはマルチモーダルフュージョンをモデルに深く押し込む。
我々は、VQA、画像キャプション、検索、フレーズグラウンド、参照表現理解、オブジェクト検出など、幅広いVLタスクに関する包括的な実験を行う。
論文 参考訳(メタデータ) (2022-06-15T16:41:29Z) - Unified Pretraining Framework for Document Understanding [52.224359498792836]
文書理解のための統合事前学習フレームワークであるUDocを紹介する。
UDocは、ほとんどのドキュメント理解タスクをサポートするように設計されており、Transformerを拡張してマルチモーダル埋め込みを入力とする。
UDocの重要な特徴は、3つの自己管理的損失を利用して汎用的な表現を学ぶことである。
論文 参考訳(メタデータ) (2022-04-22T21:47:04Z) - LayoutLMv3: Pre-training for Document AI with Unified Text and Image
Masking [83.09001231165985]
テキストと画像のマスキングを併用した文書AIのためのマルチモーダルトランスフォーマーを事前学習するためのLayoutLMv3を提案する。
単純な統一アーキテクチャとトレーニングの目的により、LayoutLMv3はテキスト中心および画像中心のDocument AIタスクの汎用的な事前トレーニングモデルになる。
論文 参考訳(メタデータ) (2022-04-18T16:19:52Z) - DocFormer: End-to-End Transformer for Document Understanding [6.412887519128816]
Visual Document Understanding (VDU) タスクのためのマルチモーダルトランスフォーマーベースのアーキテクチャ DocFormer を提案する。
VDUは、文書を様々な形式(形式、領収書など)で理解することを目的とした、困難な問題である。
論文 参考訳(メタデータ) (2021-06-22T04:28:07Z) - Robust Layout-aware IE for Visually Rich Documents with Pre-trained
Language Models [23.42593796135709]
視覚的にリッチな文書(VRD)からの情報抽出の問題について検討する。
ビジネス文書のテキスト情報と視覚情報の両方を効率的に符号化するために,大規模な事前学習言語モデルとグラフニューラルネットワークのパワーを組み合わせたモデルを提案する。
論文 参考訳(メタデータ) (2020-05-22T06:04:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。