論文の概要: DocFormerv2: Local Features for Document Understanding
- arxiv url: http://arxiv.org/abs/2306.01733v1
- Date: Fri, 2 Jun 2023 17:58:03 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-05 13:44:51.633216
- Title: DocFormerv2: Local Features for Document Understanding
- Title(参考訳): DocFormerv2: ドキュメント理解のためのローカル機能
- Authors: Srikar Appalaraju, Peng Tang, Qi Dong, Nishant Sankaran, Yichu Zhou,
R. Manmatha
- Abstract要約: 視覚文書理解のためのマルチモーダル変換器DocFormerv2を提案する。
VDUドメインは、フォームから情報を抽出するなど、文書(単なるOCR予測)を理解する必要がある。
我々のアプローチであるDocFormerv2はエンコーダ・デコーダ変換器であり、視覚、言語、空間的特徴を入力とする。
- 参考スコア(独自算出の注目度): 15.669112678509522
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: We propose DocFormerv2, a multi-modal transformer for Visual Document
Understanding (VDU). The VDU domain entails understanding documents (beyond
mere OCR predictions) e.g., extracting information from a form, VQA for
documents and other tasks. VDU is challenging as it needs a model to make sense
of multiple modalities (visual, language and spatial) to make a prediction. Our
approach, termed DocFormerv2 is an encoder-decoder transformer which takes as
input - vision, language and spatial features. DocFormerv2 is pre-trained with
unsupervised tasks employed asymmetrically i.e., two novel document tasks on
encoder and one on the auto-regressive decoder. The unsupervised tasks have
been carefully designed to ensure that the pre-training encourages
local-feature alignment between multiple modalities. DocFormerv2 when evaluated
on nine datasets shows state-of-the-art performance over strong baselines e.g.
TabFact (4.3%), InfoVQA (1.4%), FUNSD (1%). Furthermore, to show generalization
capabilities, on three VQA tasks involving scene-text, Doc- Formerv2
outperforms previous comparably-sized models and even does better than much
larger models (such as GIT2, PaLi and Flamingo) on some tasks. Extensive
ablations show that due to its pre-training, DocFormerv2 understands multiple
modalities better than prior-art in VDU.
- Abstract(参考訳): 本稿では,視覚文書理解のためのマルチモーダルトランスフォーマティブであるdocformerv2を提案する。
VDUドメインは、フォームから情報を取り出す、文書やその他のタスクに対するVQAなどの理解ドキュメント(単なるOCR予測)を必要とする。
VDUは、複数のモーダル(視覚、言語、空間)を理解して予測するモデルを必要とするため、難しい。
docformerv2と呼ばれる我々のアプローチは、視覚、言語、空間的特徴を入力とするエンコーダ・デコーダトランスフォーマです。
DocFormerv2は非対称、すなわちエンコーダの2つの新しいドキュメントタスクと自動回帰デコーダの1つのタスクで事前訓練されている。
教師なしのタスクは、事前トレーニングが複数のモダリティ間のローカル機能アライメントを促進するように、慎重に設計されている。
9つのデータセットで評価されたDocFormerv2は、TabFact (4.3%)、InfoVQA (1.4%)、FUNSD (1%)など、強力なベースライン上での最先端のパフォーマンスを示している。
さらに、シーンテキストを含む3つのVQAタスクの一般化能力を示すために、Doc-Prev2は以前のコンパラブルサイズのモデルよりも優れており、いくつかのタスクではより大きなモデル(GIT2、PaLi、Flamingoなど)よりも優れている。
事前トレーニングのため、DocFormerv2はVDUの先行技術よりも複数のモダリティを理解している。
関連論文リスト
- Visually Guided Generative Text-Layout Pre-training for Document Intelligence [51.09853181377696]
視覚誘導型生成テキスト事前学習(ViTLP)を提案する。
文書画像が与えられた場合、モデルは階層言語とレイアウトモデリングの目的を最適化し、インターリーブされたテキストとレイアウトシーケンスを生成する。
ViTLPは、文書画像のテキストをローカライズし、認識するためのネイティブなOCRモデルとして機能する。
論文 参考訳(メタデータ) (2024-03-25T08:00:43Z) - DocPedia: Unleashing the Power of Large Multimodal Model in the Frequency Domain for Versatile Document Understanding [91.17151775296234]
本研究は, OCRフリー文書理解のための新しい大規模マルチモーダルモデル(LMM)であるDocPediaを提案する。
既存の作業では高解像度のドキュメントで苦労したり、大きな言語モデルを捨てたり、視覚や言語能力に制約があったりするのに対して、DocPediaでは、ピクセル空間ではなく、周波数領域の視覚入力を直接処理しています。
論文 参考訳(メタデータ) (2023-11-20T14:42:25Z) - Edit As You Wish: Video Caption Editing with Multi-grained User Control [61.76233268900959]
マルチグラデーションなユーザリクエストでガイドされた既存のビデオ記述を自動的に修正する新しい textbfVideo textbfCaption textbfEditing textbf(VCE) タスクを提案する。
人間の書き直し習慣にインスパイアされたユーザコマンドは、粗い粒度からきめ細かな粒度まで多様なユーザニーズをカバーするために、重要な3重テキスト操作、位置、属性として設計される。
論文 参考訳(メタデータ) (2023-05-15T07:12:19Z) - Bi-VLDoc: Bidirectional Vision-Language Modeling for Visually-Rich
Document Understanding [72.95838931445498]
マルチモーダル文書事前学習モデルは、様々な視覚的にリッチな文書理解(VrDU)タスクにおいて非常に効果的であることが証明されている。
ドキュメント上の視覚と言語間の相互作用をモデル化し、活用する方法は、より優れた一般化能力とより高い精度から妨げられている。
本稿では,VrDUにおける視覚言語共同表現学習の問題点について,主に監視信号の観点から検討する。
論文 参考訳(メタデータ) (2022-06-27T09:58:34Z) - Unified Pretraining Framework for Document Understanding [52.224359498792836]
文書理解のための統合事前学習フレームワークであるUDocを紹介する。
UDocは、ほとんどのドキュメント理解タスクをサポートするように設計されており、Transformerを拡張してマルチモーダル埋め込みを入力とする。
UDocの重要な特徴は、3つの自己管理的損失を利用して汎用的な表現を学ぶことである。
論文 参考訳(メタデータ) (2022-04-22T21:47:04Z) - LayoutLMv3: Pre-training for Document AI with Unified Text and Image
Masking [83.09001231165985]
テキストと画像のマスキングを併用した文書AIのためのマルチモーダルトランスフォーマーを事前学習するためのLayoutLMv3を提案する。
単純な統一アーキテクチャとトレーニングの目的により、LayoutLMv3はテキスト中心および画像中心のDocument AIタスクの汎用的な事前トレーニングモデルになる。
論文 参考訳(メタデータ) (2022-04-18T16:19:52Z) - DocFormer: End-to-End Transformer for Document Understanding [6.412887519128816]
Visual Document Understanding (VDU) タスクのためのマルチモーダルトランスフォーマーベースのアーキテクチャ DocFormer を提案する。
VDUは、文書を様々な形式(形式、領収書など)で理解することを目的とした、困難な問題である。
論文 参考訳(メタデータ) (2021-06-22T04:28:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。