論文の概要: Vision Grid Transformer for Document Layout Analysis
- arxiv url: http://arxiv.org/abs/2308.14978v1
- Date: Tue, 29 Aug 2023 02:09:56 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-30 16:10:32.534713
- Title: Vision Grid Transformer for Document Layout Analysis
- Title(参考訳): 文書レイアウト解析のためのビジョングリッド変換器
- Authors: Cheng Da, Chuwei Luo, Qi Zheng, Cong Yao
- Abstract要約: 本稿では、2Dトークンレベルおよびセグメントレベルのセマンティック理解のために、Grid Transformer (GiT) が提案され、事前訓練された2ストリームビジョングリッドトランスフォーマであるVGTを提案する。
実験結果から,提案したVGTモデルにより,文書レイアウト解析タスクにおける新たな最先端結果が得られることが示された。
- 参考スコア(独自算出の注目度): 26.62857594455592
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Document pre-trained models and grid-based models have proven to be very
effective on various tasks in Document AI. However, for the document layout
analysis (DLA) task, existing document pre-trained models, even those
pre-trained in a multi-modal fashion, usually rely on either textual features
or visual features. Grid-based models for DLA are multi-modality but largely
neglect the effect of pre-training. To fully leverage multi-modal information
and exploit pre-training techniques to learn better representation for DLA, in
this paper, we present VGT, a two-stream Vision Grid Transformer, in which Grid
Transformer (GiT) is proposed and pre-trained for 2D token-level and
segment-level semantic understanding. Furthermore, a new dataset named D$^4$LA,
which is so far the most diverse and detailed manually-annotated benchmark for
document layout analysis, is curated and released. Experiment results have
illustrated that the proposed VGT model achieves new state-of-the-art results
on DLA tasks, e.g. PubLayNet ($95.7\%$$\rightarrow$$96.2\%$), DocBank
($79.6\%$$\rightarrow$$84.1\%$), and D$^4$LA ($67.7\%$$\rightarrow$$68.8\%$).
The code and models as well as the D$^4$LA dataset will be made publicly
available ~\url{https://github.com/AlibabaResearch/AdvancedLiterateMachinery}.
- Abstract(参考訳): 事前訓練されたモデルとグリッドベースのモデルは、Document AIのさまざまなタスクで非常に効果的であることが証明されている。
しかし、文書レイアウト分析(DLA)タスクでは、既存の文書事前訓練モデル(マルチモーダルな方法で事前訓練されたモデルでさえ、通常、テキストの特徴または視覚的特徴のいずれかに依存している。
DLAのグリッドベースモデルは多モードであるが、事前学習の効果をほとんど無視している。
マルチモーダル情報を完全に活用し,事前学習技術を活用してDLAの表現性を向上するために,本論文では,Grid Transformer (GiT) が提案され,2次元トークンレベルおよびセグメントレベルのセマンティック理解のために事前訓練された2ストリームビジョングリッドトランスフォーマであるVGTを提案する。
さらに、文書レイアウト分析のための最も多種多様な詳細な手動アノテーション付きベンチマークであるD$^4$LAという新しいデータセットがキュレーションされ、リリースされた。
実験結果は、提案されたVGTモデルが、DLAタスク上で新しい最先端結果(例えば、PubLayNet$95.7\%$\rightarrow$96.2\%$)、DocBank$79.6\%$$\rightarrow$84.1\%$)、D$^4$LA$67.7\%$$68.8\%$)を達成することを示した。
D$^4$LAデータセットだけでなく、コードとモデルは、 ~\url{https://github.com/AlibabaResearch/AdvancedLiterateMachinery} として公開される。
関連論文リスト
- VisRAG: Vision-based Retrieval-augmented Generation on Multi-modality Documents [66.42579289213941]
Retrieval-augmented Generation (RAG) は、大規模言語モデルが外部知識ソースを生成に活用できる効果的な手法である。
本稿では,視覚言語モデル(VLM)に基づくRAGパイプラインを構築することで,この問題に対処するVisRAGを紹介する。
このパイプラインでは、まず文書を解析してテキストを得る代わりに、VLMを画像として直接埋め込んで、VLMの生成を強化する。
論文 参考訳(メタデータ) (2024-10-14T15:04:18Z) - DAViD: Domain Adaptive Visually-Rich Document Understanding with Synthetic Insights [8.139817615390147]
本稿では,DAViD(Domain Adaptive Visually-rich Document Understanding)フレームワークを紹介する。
DAViDは細粒度と粗粒度の文書表現学習を統合し、コストのかかる手動ラベリングの必要性を減らすために合成アノテーションを使用する。
論文 参考訳(メタデータ) (2024-10-02T14:47:55Z) - DLAFormer: An End-to-End Transformer For Document Layout Analysis [7.057192434574117]
DLAFormerと呼ばれる文書レイアウト解析のためのエンド・ツー・エンド・トランスフォーマー方式を提案する。
各種DLAサブタスクを関係予測問題として扱い、これらの関係予測ラベルを統一ラベル空間に統合する。
本稿では,DeTRにおけるコンテンツクエリの物理的意味を高めるために,新しいタイプのクエリセットを提案する。
論文 参考訳(メタデータ) (2024-05-20T03:34:24Z) - Visually Guided Generative Text-Layout Pre-training for Document Intelligence [51.09853181377696]
視覚誘導型生成テキスト事前学習(ViTLP)を提案する。
文書画像が与えられた場合、モデルは階層言語とレイアウトモデリングの目的を最適化し、インターリーブされたテキストとレイアウトシーケンスを生成する。
ViTLPは、文書画像のテキストをローカライズし、認識するためのネイティブなOCRモデルとして機能する。
論文 参考訳(メタデータ) (2024-03-25T08:00:43Z) - A Graphical Approach to Document Layout Analysis [2.5108258530670606]
文書レイアウト分析 (Document layout analysis, DLA) は、文書内の別個の意味的内容を検出するタスクである。
既存の最先端(SOTA)のDLAモデルは、ドキュメントをイメージとして表現し、電子的に生成されたPDFで利用可能な豊富なメタデータを捨てる。
本稿では,グラフベースレイアウト解析モデル(GLAM)を紹介する。
論文 参考訳(メタデータ) (2023-08-03T21:09:59Z) - M$^{6}$Doc: A Large-Scale Multi-Format, Multi-Type, Multi-Layout,
Multi-Language, Multi-Annotation Category Dataset for Modern Document Layout
Analysis [23.924144353511984]
本稿では,M6Doc$という大規模かつ多様な文書レイアウト解析データセットを紹介する。
本稿ではTransDLANetと呼ばれるトランスフォーマーを用いた文書レイアウト解析手法を提案する。
我々は,様々なレイアウト解析手法を用いてM6Doc$の総合評価を行い,その効果を実証する。
論文 参考訳(メタデータ) (2023-05-15T15:29:06Z) - $\Delta$-Patching: A Framework for Rapid Adaptation of Pre-trained
Convolutional Networks without Base Performance Loss [71.46601663956521]
大規模なデータセットで事前トレーニングされたモデルはしばしば、時間とともにやってくる新しいタスクやデータセットをサポートするように微調整される。
モデルコピーを格納することなく、効率よく微調整ニューラルネットワークモデルに$Delta$-Patchingを提案する。
我々の実験によると、$Delta$-Networksは、トレーニングされるパラメータのごく一部しか必要とせず、初期のモデルパッチ作業より優れています。
論文 参考訳(メタデータ) (2023-03-26T16:39:44Z) - XDoc: Unified Pre-training for Cross-Format Document Understanding [84.63416346227176]
XDocは、単一のモデルで異なるドキュメントフォーマットを扱う、統合された事前訓練されたモデルである。
XDocは、トレーニング済みの個々のモデルと比較して、さまざまなダウンストリームタスクで同等またはそれ以上のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2022-10-06T12:07:18Z) - DiT: Self-supervised Pre-training for Document Image Transformer [85.78807512344463]
自己教師付き文書画像変換モデルであるDiTを提案する。
さまざまなビジョンベースのDocument AIタスクでは,バックボーンネットワークとしてDiTを活用しています。
実験結果から, 自己教師付き事前訓練型DiTモデルにより, 新たな最先端結果が得られることが示された。
論文 参考訳(メタデータ) (2022-03-04T15:34:46Z) - LayoutLMv2: Multi-modal Pre-training for Visually-Rich Document
Understanding [49.941806975280045]
テキストとレイアウトの事前トレーニングは、視覚的に豊富な文書理解タスクで有効であることが証明されています。
テキスト,レイアウト,イメージをマルチモーダルフレームワークで事前学習することで,テキスト-bfLMv2を提示する。
論文 参考訳(メタデータ) (2020-12-29T13:01:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。