論文の概要: Wukong-Reader: Multi-modal Pre-training for Fine-grained Visual Document
Understanding
- arxiv url: http://arxiv.org/abs/2212.09621v1
- Date: Mon, 19 Dec 2022 17:00:54 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-20 14:50:15.119674
- Title: Wukong-Reader: Multi-modal Pre-training for Fine-grained Visual Document
Understanding
- Title(参考訳): Wukong-Reader: きめ細かいビジュアル文書理解のためのマルチモーダル事前学習
- Authors: Haoli Bai, Zhiguang Liu, Xiaojun Meng, Wentao Li, Shuang Liu, Nian
Xie, Rongfu Zheng, Liangwei Wang, Lu Hou, Jiansheng Wei, Xin Jiang, Qun Liu
- Abstract要約: Wukong-Readerは、ドキュメントテキストラインにネストされた構造的知識を活用するために、新しいトレーニング済みの目標をトレーニングしている。
マスケ領域モデリングやテキストライングリッドマッチングも、テキストラインの視覚的およびレイアウト的表現を強化するように設計されている。
- 参考スコア(独自算出の注目度): 34.133551546706904
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Unsupervised pre-training on millions of digital-born or scanned documents
has shown promising advances in visual document understanding~(VDU). While
various vision-language pre-training objectives are studied in existing
solutions, the document textline, as an intrinsic granularity in VDU, has
seldom been explored so far. A document textline usually contains words that
are spatially and semantically correlated, which can be easily obtained from
OCR engines. In this paper, we propose Wukong-Reader, trained with new
pre-training objectives to leverage the structural knowledge nested in document
textlines. We introduce textline-region contrastive learning to achieve
fine-grained alignment between the visual regions and texts of document
textlines. Furthermore, masked region modeling and textline-grid matching are
also designed to enhance the visual and layout representations of textlines.
Experiments show that our Wukong-Reader has superior performance on various VDU
tasks such as information extraction. The fine-grained alignment over textlines
also empowers Wukong-Reader with promising localization ability.
- Abstract(参考訳): 数百万のデジタル生まれまたはスキャンされた文書の教師なし事前学習は、視覚的文書理解の有望な進歩を示している。
様々な視覚言語による事前学習目的が既存のソリューションで研究されているが、VDUの本質的な粒度としての文書テキストラインは、これまでほとんど研究されていない。
文書テキストラインは通常、空間的および意味的に相関した単語を含み、OCRエンジンから容易に得ることができる。
本稿では,文書テキストに埋もれた構造的知識を活用すべく,新たな事前学習目標を組み込んだwukong-readerを提案する。
文書テキストラインの視覚領域とテキストの微妙なアライメントを実現するために,テキストライン領域のコントラスト学習を導入する。
さらに、マスキング領域モデリングとテキストライングリッドマッチングは、テキストラインの視覚的およびレイアウト表現を強化するためにも設計されている。
実験の結果,Wukong-Readerは情報抽出などの様々なVDUタスクにおいて優れた性能を示した。
テキストラインの微妙なアライメントは、Wukong-Readerに将来性のあるローカライゼーション能力を与える。
関連論文リスト
- Visually Guided Generative Text-Layout Pre-training for Document Intelligence [51.09853181377696]
視覚誘導型生成テキスト事前学習(ViTLP)を提案する。
文書画像が与えられた場合、モデルは階層言語とレイアウトモデリングの目的を最適化し、インターリーブされたテキストとレイアウトシーケンスを生成する。
ViTLPは、文書画像のテキストをローカライズし、認識するためのネイティブなOCRモデルとして機能する。
論文 参考訳(メタデータ) (2024-03-25T08:00:43Z) - ODM: A Text-Image Further Alignment Pre-training Approach for Scene Text Detection and Spotting [8.397246652127793]
我々は OCR-Text Destylization Modeling (ODM) と呼ばれる新しい事前学習手法を提案する。
ODMは、画像中の様々なスタイルのテキストを、テキストプロンプトに基づいて一様に転送する。
本手法は,シーンテキストの検出やスポッティング作業において,現在の事前学習方法よりも性能が大幅に向上し,性能が向上する。
論文 参考訳(メタデータ) (2024-03-01T06:13:53Z) - Enhancing Visual Document Understanding with Contrastive Learning in
Large Visual-Language Models [56.76307866160105]
文書オブジェクト協調学習(Document Object Contrastive Learning, DoCo)と呼ばれる対照的な学習フレームワークを提案する。
DoCoは補助的なマルチモーダルエンコーダを利用して文書オブジェクトの特徴を取得し、それをLVLM(Large Visual-Language Models)の視覚エンコーダによって生成された視覚的特徴に合わせる。
提案するDoCoは,様々なLVLMの事前学習において,推論過程における計算複雑性の増大を招くことなく,プラグイン・アンド・プレイの事前学習手法として機能することが実証された。
論文 参考訳(メタデータ) (2024-02-29T10:17:27Z) - UReader: Universal OCR-free Visually-situated Language Understanding
with Multimodal Large Language Model [108.85584502396182]
MLLM(Multimodal Large Language Model)に基づく汎用OCRのない視覚的言語理解の最初の探索であるUReaderを提案する。
MLLMの浅いテキスト認識能力を利用することで、パラメータを1.2%だけ微調整した。
言語理解タスク10のうち8つは、最先端のocrフリーな性能を実現している。
論文 参考訳(メタデータ) (2023-10-08T11:33:09Z) - SCOB: Universal Text Understanding via Character-wise Supervised
Contrastive Learning with Online Text Rendering for Bridging Domain Gap [10.011953474950744]
そこで本稿では,オンラインテキストレンダリングによる文字の教師付きコントラスト学習を活用したSCOBという新しい事前学習手法を提案する。
SCOBは弱い教師付き学習を可能にし、アノテーションのコストを大幅に削減する。
以上の結果から,SCOBは読み取り型事前学習法に有効である可能性が示唆された。
論文 参考訳(メタデータ) (2023-09-21T15:06:08Z) - Advancing Visual Grounding with Scene Knowledge: Benchmark and Method [74.72663425217522]
ビジュアルグラウンドディング(VG)は、視覚と言語の間にきめ細かいアライメントを確立することを目的としている。
既存のVGデータセットの多くは、単純な記述テキストを使って構築されている。
我々は、アンダーラインScene underline-guided underlineVisual underlineGroundingの新たなベンチマークを提案する。
論文 参考訳(メタデータ) (2023-07-21T13:06:02Z) - Vision-Language Pre-Training for Boosting Scene Text Detectors [57.08046351495244]
シーンテキスト検出に視覚言語を用いた共同学習を特に応用する。
本稿では,視覚言語による事前学習を通して,文脈化された共同表現を学習することを提案する。
事前訓練されたモデルは、よりリッチなセマンティクスでより情報的な表現を生成することができる。
論文 参考訳(メタデータ) (2022-04-29T03:53:54Z) - Language Matters: A Weakly Supervised Pre-training Approach for Scene
Text Detection and Spotting [69.77701325270047]
本稿では,シーンテキストを効果的に表現できる弱教師付き事前学習手法を提案する。
本ネットワークは,画像エンコーダと文字認識型テキストエンコーダから構成され,視覚的特徴とテキスト的特徴を抽出する。
実験により、事前訓練されたモデルは、重みを他のテキスト検出やスポッティングネットワークに転送しながら、Fスコアを+2.5%、+4.8%改善することが示された。
論文 参考訳(メタデータ) (2022-03-08T08:10:45Z) - Multi-Grained Vision Language Pre-Training: Aligning Texts with Visual
Concepts [14.808701042367401]
物体検出は視覚言語による事前学習には適さないと考えられる。
本稿では,多粒度視覚言語事前学習を行うためのX-VLMという新しい手法を提案する。
論文 参考訳(メタデータ) (2021-11-16T07:55:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。