論文の概要: DocFormer: End-to-End Transformer for Document Understanding
- arxiv url: http://arxiv.org/abs/2106.11539v1
- Date: Tue, 22 Jun 2021 04:28:07 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-24 00:19:14.875134
- Title: DocFormer: End-to-End Transformer for Document Understanding
- Title(参考訳): docformer: ドキュメント理解のためのエンドツーエンドトランスフォーマー
- Authors: Srikar Appalaraju and Bhavan Jasani and Bhargava Urala Kota and
Yusheng Xie and R. Manmatha
- Abstract要約: Visual Document Understanding (VDU) タスクのためのマルチモーダルトランスフォーマーベースのアーキテクチャ DocFormer を提案する。
VDUは、文書を様々な形式(形式、領収書など)で理解することを目的とした、困難な問題である。
- 参考スコア(独自算出の注目度): 6.412887519128816
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present DocFormer -- a multi-modal transformer based architecture for the
task of Visual Document Understanding (VDU). VDU is a challenging problem which
aims to understand documents in their varied formats (forms, receipts etc.) and
layouts. In addition, DocFormer is pre-trained in an unsupervised fashion using
carefully designed tasks which encourage multi-modal interaction. DocFormer
uses text, vision and spatial features and combines them using a novel
multi-modal self-attention layer. DocFormer also shares learned spatial
embeddings across modalities which makes it easy for the model to correlate
text to visual tokens and vice versa. DocFormer is evaluated on 4 different
datasets each with strong baselines. DocFormer achieves state-of-the-art
results on all of them, sometimes beating models 4x its size (in no. of
parameters).
- Abstract(参考訳): DocFormer - Visual Document Understanding (VDU)タスクのためのマルチモーダルトランスフォーマーベースのアーキテクチャ。
VDUは、文書を様々な形式(形式、領収書など)で理解することを目的とした、困難な問題である。
レイアウトも
さらに、docformerはマルチモーダルインタラクションを奨励する注意深く設計されたタスクを使用して、教師なしの方法で事前トレーニングされる。
DocFormerはテキスト、視覚、空間的特徴を使い、新しいマルチモーダルな自己認識層を使ってそれらを組み合わせている。
DocFormerはまた、学習された空間埋め込みを共有しており、モデルがテキストとビジュアルトークンの相関を容易にし、その逆も容易にできる。
docformerは、強いベースラインを持つ4つの異なるデータセットで評価される。
docformerは最先端の成果を全て達成し、時にはモデルのサイズが4倍になる(no.0では)。
パラメータの値)。
関連論文リスト
- M3DocRAG: Multi-modal Retrieval is What You Need for Multi-page Multi-document Understanding [63.33447665725129]
M3DocRAGは、様々な文書コンテキストに柔軟に対応する新しいマルチモーダルRAGフレームワークである。
M3DocRAGは視覚情報を保存しながら、単一の文書や多数の文書を効率的に処理できる。
M3DocVQAはオープンドメインDocVQAを3,000以上のPDFドキュメントと4万以上のページで評価するための新しいベンチマークである。
論文 参考訳(メタデータ) (2024-11-07T18:29:38Z) - Unified Multimodal Interleaved Document Representation for Retrieval [57.65409208879344]
複数のモダリティでインターリーブされた文書を階層的に埋め込む手法を提案する。
セグメント化されたパスの表現を1つのドキュメント表現にマージする。
我々は,本手法が関連するベースラインを大幅に上回ることを示す。
論文 参考訳(メタデータ) (2024-10-03T17:49:09Z) - DocLLM: A layout-aware generative language model for multimodal document
understanding [12.093889265216205]
本稿では,従来の大規模言語モデル(LLM)の軽量拡張であるDocLLMについて述べる。
本モデルは,空間配置構造を組み込むための境界ボックス情報にのみ焦点をあてる。
我々のソリューションは、すべてのタスクにまたがる16のデータセットのうち14のデータセットでSotA LLMよりも優れており、これまで見つからなかった5つのデータセットのうち4のデータセットで十分に一般化されていることを実証しています。
論文 参考訳(メタデータ) (2023-12-31T22:37:52Z) - DocPedia: Unleashing the Power of Large Multimodal Model in the Frequency Domain for Versatile Document Understanding [91.17151775296234]
本研究は, OCRフリー文書理解のための新しい大規模マルチモーダルモデル(LMM)であるDocPediaを提案する。
既存の作業では高解像度のドキュメントで苦労したり、大きな言語モデルを捨てたり、視覚や言語能力に制約があったりするのに対して、DocPediaでは、ピクセル空間ではなく、周波数領域の視覚入力を直接処理しています。
論文 参考訳(メタデータ) (2023-11-20T14:42:25Z) - DocFormerv2: Local Features for Document Understanding [15.669112678509522]
視覚文書理解のためのマルチモーダル変換器DocFormerv2を提案する。
VDUドメインは、フォームから情報を抽出するなど、文書(単なるOCR予測)を理解する必要がある。
我々のアプローチであるDocFormerv2はエンコーダ・デコーダ変換器であり、視覚、言語、空間的特徴を入力とする。
論文 参考訳(メタデータ) (2023-06-02T17:58:03Z) - XDoc: Unified Pre-training for Cross-Format Document Understanding [84.63416346227176]
XDocは、単一のモデルで異なるドキュメントフォーマットを扱う、統合された事前訓練されたモデルである。
XDocは、トレーニング済みの個々のモデルと比較して、さまざまなダウンストリームタスクで同等またはそれ以上のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2022-10-06T12:07:18Z) - Unified Pretraining Framework for Document Understanding [52.224359498792836]
文書理解のための統合事前学習フレームワークであるUDocを紹介する。
UDocは、ほとんどのドキュメント理解タスクをサポートするように設計されており、Transformerを拡張してマルチモーダル埋め込みを入力とする。
UDocの重要な特徴は、3つの自己管理的損失を利用して汎用的な表現を学ぶことである。
論文 参考訳(メタデータ) (2022-04-22T21:47:04Z) - DocBank: A Benchmark Dataset for Document Layout Analysis [114.81155155508083]
文書レイアウト解析のための詳細なトークンレベルのアノテーションを備えた500Kドキュメントページを含むベンチマークデータセットである textbfDocBank を提示する。
実験の結果,DocBankでトレーニングされたモデルは,さまざまなドキュメントのレイアウト情報を正確に認識することがわかった。
論文 参考訳(メタデータ) (2020-06-01T16:04:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。