論文の概要: DiT: Self-supervised Pre-training for Document Image Transformer
- arxiv url: http://arxiv.org/abs/2203.02378v1
- Date: Fri, 4 Mar 2022 15:34:46 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-07 15:52:42.252307
- Title: DiT: Self-supervised Pre-training for Document Image Transformer
- Title(参考訳): DiT: 文書画像変換器のための自己教師付き事前学習
- Authors: Junlong Li, Yiheng Xu, Tengchao Lv, Lei Cui, Cha Zhang, Furu Wei
- Abstract要約: 自己教師付き文書画像変換モデルであるDiTを提案する。
さまざまなビジョンベースのDocument AIタスクでは,バックボーンネットワークとしてDiTを活用しています。
実験結果から, 自己教師付き事前訓練型DiTモデルにより, 新たな最先端結果が得られることが示された。
- 参考スコア(独自算出の注目度): 85.78807512344463
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Image Transformer has recently achieved significant progress for natural
image understanding, either using supervised (ViT, DeiT, etc.) or
self-supervised (BEiT, MAE, etc.) pre-training techniques. In this paper, we
propose DiT, a self-supervised pre-trained Document Image Transformer model
using large-scale unlabeled text images for Document AI tasks, which is
essential since no supervised counterparts ever exist due to the lack of human
labeled document images. We leverage DiT as the backbone network in a variety
of vision-based Document AI tasks, including document image classification,
document layout analysis, as well as table detection. Experiment results have
illustrated that the self-supervised pre-trained DiT model achieves new
state-of-the-art results on these downstream tasks, e.g. document image
classification (91.11 $\rightarrow$ 92.69), document layout analysis (91.0
$\rightarrow$ 94.9) and table detection (94.23 $\rightarrow$ 96.55). The code
and pre-trained models are publicly available at \url{https://aka.ms/msdit}.
- Abstract(参考訳): Image Transformerは最近、教師付き(ViT、DeiTなど)または自己監督型(BeiT、MAEなど)のトレーニング技術を用いて、自然画像理解において大きな進歩を遂げている。
本稿では,文書AIタスクのための大規模未ラベルのテキストイメージを用いた自己教師付き文書画像変換モデルであるDiTを提案する。
文書画像分類や文書レイアウト分析,テーブル検出など,さまざまな視覚ベースのドキュメントAIタスクにおいて,バックボーンネットワークとしてDiTを活用する。
実験の結果、教師付き事前訓練されたDiTモデルは、文書画像分類(91.11$\rightarrow$92.69)、文書レイアウト解析(91.0$\rightarrow$94.9)、テーブル検出(94.23$\rightarrow$96.55)など、これらの下流タスクの新たな最先端結果を達成することが示されている。
コードと事前トレーニングされたモデルは \url{https://aka.ms/msdit} で公開されている。
関連論文リスト
- Vision Grid Transformer for Document Layout Analysis [26.62857594455592]
本稿では、2Dトークンレベルおよびセグメントレベルのセマンティック理解のために、Grid Transformer (GiT) が提案され、事前訓練された2ストリームビジョングリッドトランスフォーマであるVGTを提案する。
実験結果から,提案したVGTモデルにより,文書レイアウト解析タスクにおける新たな最先端結果が得られることが示された。
論文 参考訳(メタデータ) (2023-08-29T02:09:56Z) - DocMAE: Document Image Rectification via Self-supervised Representation
Learning [144.44748607192147]
文書画像修正のための新しい自己教師型フレームワークDocMAEを提案する。
まず、背景を除いた文書画像のランダムなパッチをマスクし、欠落したピクセルを再構成する。
このような自己教師型学習手法により、ネットワークは変形文書の本質的な構造を学習することが奨励される。
論文 参考訳(メタデータ) (2023-04-20T14:27:15Z) - Unifying Vision, Text, and Layout for Universal Document Processing [105.36490575974028]
本稿では,テキスト,画像,レイアウトのモダリティを文書理解と生成を含むさまざまなタスク形式とともに統合するドキュメントAIモデルを提案する。
我々の手法は、財務報告、学術論文、ウェブサイトなど、さまざまなデータ領域にまたがって、文書理解やQAといった9つのドキュメントAIタスクの最先端を定めている。
論文 参考訳(メタデータ) (2022-12-05T22:14:49Z) - LayoutLMv3: Pre-training for Document AI with Unified Text and Image
Masking [83.09001231165985]
テキストと画像のマスキングを併用した文書AIのためのマルチモーダルトランスフォーマーを事前学習するためのLayoutLMv3を提案する。
単純な統一アーキテクチャとトレーニングの目的により、LayoutLMv3はテキスト中心および画像中心のDocument AIタスクの汎用的な事前トレーニングモデルになる。
論文 参考訳(メタデータ) (2022-04-18T16:19:52Z) - LiT: Zero-Shot Transfer with Locked-image Text Tuning [68.78877201319811]
『Locked-image Text tuning』(LiT-tuning)は、新しいタスクのための事前訓練された画像モデルから良い表現を読み取るためのテキストモデルである。
LiTで調整されたモデルでは、画像分類や検索などの新しい視覚タスクへのゼロショット転送が可能となる。
論文 参考訳(メタデータ) (2021-11-15T18:53:48Z) - Multiple Document Datasets Pre-training Improves Text Line Detection
With Deep Neural Networks [2.5352713493505785]
本稿では,文書レイアウト解析タスクのための完全畳み込みネットワークを提案する。
Doc-UFCNは、歴史的文書から物体を検出するためにゼロから訓練されたU字型モデルを用いています。
Doc-UFCNが様々なデータセットの最先端のメソッドより優れていることを示す。
論文 参考訳(メタデータ) (2020-12-28T09:48:33Z) - Self-Supervised Representation Learning on Document Images [8.927538538637783]
パッチベースの事前学習は,異なる構造特性とサンプル内セマンティック情報が乏しいため,文書画像上では不十分であることを示す。
そこで本稿では,Tobacco-3482画像分類タスクの性能向上のための2つのコンテキスト認識手法を提案する。
論文 参考訳(メタデータ) (2020-04-18T10:14:06Z) - LayoutLM: Pre-training of Text and Layout for Document Image
Understanding [108.12766816023783]
スキャンした文書画像間でのテキストとレイアウト情報の相互作用を協調的にモデル化するtextbfLMを提案する。
ドキュメントレベルの事前トレーニングのための単一のフレームワークで、テキストとレイアウトが共同で学習されたのは、これが初めてです。
フォーム理解(70.72から79.27まで)、レセプション理解(94.02から95.24まで)、文書画像分類(93.07から94.42まで)など、いくつかのダウンストリームタスクで新しい最先端の成果を達成する。
論文 参考訳(メタデータ) (2019-12-31T14:31:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。