論文の概要: Bi-VLDoc: Bidirectional Vision-Language Modeling for Visually-Rich
Document Understanding
- arxiv url: http://arxiv.org/abs/2206.13155v1
- Date: Mon, 27 Jun 2022 09:58:34 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-28 14:03:37.207877
- Title: Bi-VLDoc: Bidirectional Vision-Language Modeling for Visually-Rich
Document Understanding
- Title(参考訳): Bi-VLDoc:ビジュアルリッチ文書理解のための双方向視覚言語モデリング
- Authors: Chuwei Luo, Guozhi Tang, Qi Zheng, Cong Yao, Lianwen Jin, Chenliang
Li, Yang Xue, Luo Si
- Abstract要約: マルチモーダル文書事前学習モデルは、様々な視覚的にリッチな文書理解(VrDU)タスクにおいて非常に効果的であることが証明されている。
ドキュメント上の視覚と言語間の相互作用をモデル化し、活用する方法は、より優れた一般化能力とより高い精度から妨げられている。
本稿では,VrDUにおける視覚言語共同表現学習の問題点について,主に監視信号の観点から検討する。
- 参考スコア(独自算出の注目度): 72.95838931445498
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multi-modal document pre-trained models have proven to be very effective in a
variety of visually-rich document understanding (VrDU) tasks. Though existing
document pre-trained models have achieved excellent performance on standard
benchmarks for VrDU, the way they model and exploit the interactions between
vision and language on documents has hindered them from better generalization
ability and higher accuracy. In this work, we investigate the problem of
vision-language joint representation learning for VrDU mainly from the
perspective of supervisory signals. Specifically, a pre-training paradigm
called Bi-VLDoc is proposed, in which a bidirectional vision-language
supervision strategy and a vision-language hybrid-attention mechanism are
devised to fully explore and utilize the interactions between these two
modalities, to learn stronger cross-modal document representations with richer
semantics. Benefiting from the learned informative cross-modal document
representations, Bi-VLDoc significantly advances the state-of-the-art
performance on three widely-used document understanding benchmarks, including
Form Understanding (from 85.14% to 93.44%), Receipt Information Extraction
(from 96.01% to 97.84%), and Document Classification (from 96.08% to 97.12%).
On Document Visual QA, Bi-VLDoc achieves the state-of-the-art performance
compared to previous single model methods.
- Abstract(参考訳): マルチモーダル文書事前学習モデルは、視覚的にリッチな文書理解(VrDU)タスクにおいて非常に効果的であることが証明されている。
既存の文書事前学習モデルは、VrDUの標準ベンチマークにおいて優れたパフォーマンスを達成しているが、それらがドキュメント上の視覚と言語間の相互作用をモデル化し、活用する方法は、より優れた一般化能力とより高い精度から妨げている。
本稿では,VrDUにおける視覚言語共同表現学習の問題について,主に監視信号の観点から検討する。
具体的には,Bi-VLDocと呼ばれる事前学習パラダイムを提案し,双方向の視覚言語監視戦略と視覚言語ハイブリッドアテンション機構を考案し,これらの2つのモダリティ間の相互作用を十分に探求し,活用し,よりリッチなセマンティクスでより強力なクロスモーダル文書表現を学習する。
Bi-VLDocは、学習された情報的クロスモーダルな文書表現から恩恵を受け、フォーム理解(85.14%から93.44%)、レセプト情報抽出(96.01%から97.84%)、文書分類(96.08%から97.12%)を含む3つの広く使われている文書理解ベンチマークにおける最先端のパフォーマンスを大幅に向上させた。
Document Visual QAでは、Bi-VLDocは従来の単一モデル手法と比較して最先端のパフォーマンスを実現している。
関連論文リスト
- DocPedia: Unleashing the Power of Large Multimodal Model in the Frequency Domain for Versatile Document Understanding [91.17151775296234]
本研究は, OCRフリー文書理解のための新しい大規模マルチモーダルモデル(LMM)であるDocPediaを提案する。
既存の作業では高解像度のドキュメントで苦労したり、大きな言語モデルを捨てたり、視覚や言語能力に制約があったりするのに対して、DocPediaでは、ピクセル空間ではなく、周波数領域の視覚入力を直接処理しています。
論文 参考訳(メタデータ) (2023-11-20T14:42:25Z) - GlobalDoc: A Cross-Modal Vision-Language Framework for Real-World Document Image Retrieval and Classification [8.880856137902947]
我々は、自己教師型で事前訓練されたクロスモーダルトランスフォーマーベースのアーキテクチャであるGlobalDocを紹介する。
GlobalDocは、言語と視覚表現を統合することによって、よりリッチなセマンティックな概念の学習を改善する。
適切な評価のために,Few-Shot Document Image Classification (DIC)とContent-based Document Image Retrieval (DIR)の2つの新しい文書レベル下流VDUタスクを提案する。
論文 参考訳(メタデータ) (2023-09-11T18:35:14Z) - UniDoc: A Universal Large Multimodal Model for Simultaneous Text
Detection, Recognition, Spotting and Understanding [93.92313947913831]
テキスト検出と認識機能を備えた新しいマルチモーダルモデルUniDocを紹介する。
我々の知る限りでは、これはテキストの検出、認識、スポッティング、理解を同時に行うことができる最初の大規模マルチモーダルモデルである。
論文 参考訳(メタデータ) (2023-08-19T17:32:34Z) - VLCDoC: Vision-Language Contrastive Pre-Training Model for Cross-Modal
Document Classification [3.7798600249187295]
文書データからのマルチモーダル学習は、前もって意味論的に意味のある機能を学習可能な下流タスクに事前学習可能にすることで、近年大きな成功を収めている。
本稿では,言語と視覚の手がかりを通したクロスモーダル表現の学習により,文書分類問題にアプローチする。
提案手法は,ハイレベルなインタラクションを利用して,モダリティ内外における効果的な注意の流れから関連する意味情報を学習する。
論文 参考訳(メタデータ) (2022-05-24T12:28:12Z) - Unified Pretraining Framework for Document Understanding [52.224359498792836]
文書理解のための統合事前学習フレームワークであるUDocを紹介する。
UDocは、ほとんどのドキュメント理解タスクをサポートするように設計されており、Transformerを拡張してマルチモーダル埋め込みを入力とする。
UDocの重要な特徴は、3つの自己管理的損失を利用して汎用的な表現を学ぶことである。
論文 参考訳(メタデータ) (2022-04-22T21:47:04Z) - SelfDoc: Self-Supervised Document Representation Learning [46.22910270334824]
SelfDocは、文書イメージ理解のためのタスクに依存しない事前トレーニングフレームワークである。
本フレームワークは,文書中の意味的に意味のあるすべてのコンポーネントの位置情報,テキスト情報,視覚情報を利用する。
複数のダウンストリームタスクにおいて,事前学習段階で使用する文書イメージが従来よりも大幅に少なく,優れたパフォーマンスを実現している。
論文 参考訳(メタデータ) (2021-06-07T04:19:49Z) - Integrating Semantics and Neighborhood Information with Graph-Driven
Generative Models for Document Retrieval [51.823187647843945]
本稿では,周辺情報をグラフ誘導ガウス分布でエンコードし,その2種類の情報をグラフ駆動生成モデルと統合することを提案する。
この近似の下では、トレーニング対象がシングルトンまたはペアワイズ文書のみを含む用語に分解可能であることを証明し、モデルが非関連文書と同じくらい効率的にトレーニングできることを示す。
論文 参考訳(メタデータ) (2021-05-27T11:29:03Z) - Behind the Scene: Revealing the Secrets of Pre-trained
Vision-and-Language Models [65.19308052012858]
最近のTransformerベースの大規模事前学習モデルは、視覚言語(V+L)研究に革命をもたらした。
VALUEは,マルチモーダル事前学習における内部動作の解明を目的とした,精密に設計された探索タスクのセットである。
主要な観察:事前訓練されたモデルは、推論中の画像よりもテキストに出席する傾向を示す。
論文 参考訳(メタデータ) (2020-05-15T01:06:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。