論文の概要: LAMPRET: Layout-Aware Multimodal PreTraining for Document Understanding
- arxiv url: http://arxiv.org/abs/2104.08405v1
- Date: Fri, 16 Apr 2021 23:27:39 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-24 09:33:35.267115
- Title: LAMPRET: Layout-Aware Multimodal PreTraining for Document Understanding
- Title(参考訳): LAMPRET:文書理解のためのレイアウト対応マルチモーダル事前調査
- Authors: Te-Lin Wu, Cheng Li, Mingyang Zhang, Tao Chen, Spurthi Amba Hombaiah,
Michael Bendersky
- Abstract要約: 文書レイアウトは構造的および視覚的(例えば。
機械学習モデルでは無視されがちですが、重要な情報です。
ブロックとドキュメント全体をモデル化する新しいレイアウト対応マルチモーダル階層フレームワーク LAMPreT を提案する。
提案したモデルを,テキストブロック充填と画像提案の2つのレイアウト認識タスクで評価する。
- 参考スコア(独自算出の注目度): 17.179384053140236
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Document layout comprises both structural and visual (eg. font-sizes)
information that is vital but often ignored by machine learning models. The few
existing models which do use layout information only consider textual contents,
and overlook the existence of contents in other modalities such as images.
Additionally, spatial interactions of presented contents in a layout were never
really fully exploited. To bridge this gap, we parse a document into content
blocks (eg. text, table, image) and propose a novel layout-aware multimodal
hierarchical framework, LAMPreT, to model the blocks and the whole document.
Our LAMPreT encodes each block with a multimodal transformer in the lower-level
and aggregates the block-level representations and connections utilizing a
specifically designed transformer at the higher-level. We design hierarchical
pretraining objectives where the lower-level model is trained similarly to
multimodal grounding models, and the higher-level model is trained with our
proposed novel layout-aware objectives. We evaluate the proposed model on two
layout-aware tasks -- text block filling and image suggestion and show the
effectiveness of our proposed hierarchical architecture as well as pretraining
techniques.
- Abstract(参考訳): ドキュメントレイアウトは構造とビジュアルの両方からなる(例)。
フォントサイズ) 重要な情報だが、機械学習モデルによって無視されることが多い。
レイアウト情報を利用する数少ない既存モデルは、テキストの内容のみを考慮し、画像などの他のモダリティにおけるコンテンツの存在を見落としている。
さらに、レイアウト内の提示されたコンテンツの空間的相互作用は、実際に完全に活用されることはなかった。
このギャップを埋めるために、文書をコンテンツブロック(例えば、)にパースします。
テキスト、テーブル、画像) と、ブロックとドキュメント全体をモデル化するレイアウト対応の新しいマルチモーダル階層フレームワーク LAMPreT を提案する。
当社のlampretは,低レベルのマルチモーダルトランスフォーマーで各ブロックをエンコードし,高レベルに特別に設計されたトランスフォーマーを使用して,ブロックレベルの表現と接続を集約する。
我々は,マルチモーダル接地モデルと同様に低レベルモデルが訓練される階層的事前学習目標を設計,高レベルモデルは提案するレイアウト認識目標を用いて訓練する。
提案する2つのレイアウト認識タスク - テキストブロック充填と画像提案 - における提案モデルを評価し,提案する階層的アーキテクチャと事前学習手法の有効性を示す。
関連論文リスト
- GLDesigner: Leveraging Multi-Modal LLMs as Designer for Enhanced Aesthetic Text Glyph Layouts [53.568057283934714]
コンテンツ対応のテキストロゴレイアウトを生成するVLMベースのフレームワークを提案する。
本稿では,複数のグリフ画像の同時処理における計算量を削減するための2つのモデル手法を提案する。
アウトモデルのインストラクションチューニングを支援するために,既存の公開データセットよりも5倍大きい2つの拡張テキストロゴデータセットを構築した。
論文 参考訳(メタデータ) (2024-11-18T10:04:10Z) - PosterLLaVa: Constructing a Unified Multi-modal Layout Generator with LLM [58.67882997399021]
本研究では,グラフィックレイアウトの自動生成のための統合フレームワークを提案する。
データ駆動方式では、レイアウトを生成するために構造化テキスト(JSONフォーマット)とビジュアルインストラクションチューニングを用いる。
我々は、大規模な実験を行い、パブリックなマルチモーダルレイアウト生成ベンチマーク上で、最先端(SOTA)性能を達成した。
論文 参考訳(メタデータ) (2024-06-05T03:05:52Z) - LayoutLLM: Large Language Model Instruction Tuning for Visually Rich Document Understanding [0.0]
本稿では,より柔軟な画像文書解析手法であるLayoutLLMを提案する。
画像,テキスト,レイアウト構造を事前学習することで,文書の理解を高める手法が開発されている。
本実験は,文書解析タスクにおけるベースラインモデルの改善を実証する。
論文 参考訳(メタデータ) (2024-03-21T09:25:24Z) - Hierarchical Multimodal Pre-training for Visually Rich Webpage
Understanding [22.00873805952277]
WebLMは、WebページにおけるHTMLの構造的モダリティとテキストのみをモデリングする制限に対処するために設計されたマルチモーダル事前学習ネットワークである。
本稿では,テキスト,構造,画像モダリティ間の相互作用を効果的にモデル化するための事前学習タスクを提案する。
実験の結果、事前学習されたWebLMは、いくつかのWebページ理解タスクにおいて、従来の最先端の事前学習モデルを大幅に上回っていることが示された。
論文 参考訳(メタデータ) (2024-02-28T11:50:36Z) - LayoutNUWA: Revealing the Hidden Layout Expertise of Large Language
Models [84.16541551923221]
本稿では,レイアウト生成をコード生成タスクとして扱うモデルを提案する。
3つの相互接続モジュールからなるCode Instruct Tuning (CIT) アプローチを開発した。
複数のデータセット上で、最先端のパフォーマンスを実現しています。
論文 参考訳(メタデータ) (2023-09-18T06:35:10Z) - Enhancing Visually-Rich Document Understanding via Layout Structure
Modeling [91.07963806829237]
レイアウトの知識をモデルに注入する新しい文書理解モデルであるGraphLMを提案する。
我々は、FUNSD、XFUND、CORDなど様々なベンチマークでモデルを評価し、最先端の結果を得た。
論文 参考訳(メタデータ) (2023-08-15T13:53:52Z) - LayoutMask: Enhance Text-Layout Interaction in Multi-modal Pre-training
for Document Understanding [7.7514466231699455]
本稿では,新しいマルチモーダル事前学習モデルLayoutMaskを提案する。
統一されたモデルにおいて、テキストとレイアウトのモダリティ間の相互作用を強化することができる。
様々なVrDU問題に対して最先端の結果が得られる。
論文 参考訳(メタデータ) (2023-05-30T03:56:07Z) - Unifying Vision, Text, and Layout for Universal Document Processing [105.36490575974028]
本稿では,テキスト,画像,レイアウトのモダリティを文書理解と生成を含むさまざまなタスク形式とともに統合するドキュメントAIモデルを提案する。
我々の手法は、財務報告、学術論文、ウェブサイトなど、さまざまなデータ領域にまたがって、文書理解やQAといった9つのドキュメントAIタスクの最先端を定めている。
論文 参考訳(メタデータ) (2022-12-05T22:14:49Z) - MGDoc: Pre-training with Multi-granular Hierarchy for Document Image
Understanding [53.03978356918377]
異なるレベルの粒度のコンテンツ間の空間的階層的関係は、文書画像理解タスクに不可欠である。
既存の方法は単語レベルか地域レベルから特徴を学習するが、両方を同時に考えることができない。
MGDocは,ページレベル,領域レベル,単語レベル情報を同時にエンコードするマルチモーダル・マルチグラニュラ事前学習フレームワークである。
論文 参考訳(メタデータ) (2022-11-27T22:47:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。