論文の概要: XYLayoutLM: Towards Layout-Aware Multimodal Networks For Visually-Rich
Document Understanding
- arxiv url: http://arxiv.org/abs/2203.06947v2
- Date: Tue, 15 Mar 2022 14:51:16 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-16 11:33:34.172714
- Title: XYLayoutLM: Towards Layout-Aware Multimodal Networks For Visually-Rich
Document Understanding
- Title(参考訳): XYLayoutLM:ビジュアルリッチ文書理解のためのレイアウト対応マルチモーダルネットワーク
- Authors: Zhangxuan Gu, Changhua Meng, Ke Wang, Jun Lan, Weiqiang Wang, Ming Gu,
Liqing Zhang
- Abstract要約: 拡張されたXYカット条件によって生成された適切な読み出し順序から、リッチなレイアウト情報をキャプチャし、活用するための、堅牢なレイアウト対応マルチモーダルネットワークXYLMを提案する。
実験の結果,XYLMは文書理解タスクにおける競合的な結果が得られることがわかった。
- 参考スコア(独自算出の注目度): 24.624007963156505
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recently, various multimodal networks for Visually-Rich Document
Understanding(VRDU) have been proposed, showing the promotion of transformers
by integrating visual and layout information with the text embeddings. However,
most existing approaches utilize the position embeddings to incorporate the
sequence information, neglecting the noisy improper reading order obtained by
OCR tools. In this paper, we propose a robust layout-aware multimodal network
named XYLayoutLM to capture and leverage rich layout information from proper
reading orders produced by our Augmented XY Cut. Moreover, a Dilated
Conditional Position Encoding module is proposed to deal with the input
sequence of variable lengths, and it additionally extracts local layout
information from both textual and visual modalities while generating position
embeddings. Experiment results show that our XYLayoutLM achieves competitive
results on document understanding tasks.
- Abstract(参考訳): 近年,ビジュアル・リッチ文書理解(VRDU)のための様々なマルチモーダルネットワークが提案されている。
しかし,既存の手法の多くは,ocrツールによる不適切な読み出し順序を無視し,シーケンス情報を取り込む位置埋め込みを用いる。
本稿では,Augmented XY Cut が生成する適切な読み出し順序から,リッチなレイアウト情報を取り込み,活用するための,XYLayoutLM というロバストなレイアウト対応マルチモーダルネットワークを提案する。
さらに、可変長の入力シーケンスを扱うために拡張条件位置符号化モジュールを提案し、さらに位置埋め込みを生成しながら、テキストと視覚の両方から局所レイアウト情報を抽出する。
実験の結果,XYLayoutLMは文書理解タスクにおける競合的な結果が得られることがわかった。
関連論文リスト
- Scaffolding Coordinates to Promote Vision-Language Coordination in Large
Multi-Modal Models [18.772045053892885]
最先端のLMM(Large Multi-Modal Models)は、視覚言語タスクにおいて例外的な機能を示す。
LMMの既存のプロンプト技術は、テキスト推論の改善や画像前処理のためのツールの活用に重点を置いている。
視覚言語コーディネートを促進するために,足場座標の促進を促すScaffoldを提案する。
論文 参考訳(メタデータ) (2024-02-19T11:23:53Z) - DocLLM: A layout-aware generative language model for multimodal document
understanding [12.093889265216205]
本稿では,従来の大規模言語モデル(LLM)の軽量拡張であるDocLLMについて述べる。
本モデルは,空間配置構造を組み込むための境界ボックス情報にのみ焦点をあてる。
我々のソリューションは、すべてのタスクにまたがる16のデータセットのうち14のデータセットでSotA LLMよりも優れており、これまで見つからなかった5つのデータセットのうち4のデータセットで十分に一般化されていることを実証しています。
論文 参考訳(メタデータ) (2023-12-31T22:37:52Z) - LayoutNUWA: Revealing the Hidden Layout Expertise of Large Language
Models [84.16541551923221]
本稿では,レイアウト生成をコード生成タスクとして扱うモデルを提案する。
3つの相互接続モジュールからなるCode Instruct Tuning (CIT) アプローチを開発した。
複数のデータセット上で、最先端のパフォーマンスを実現しています。
論文 参考訳(メタデータ) (2023-09-18T06:35:10Z) - Enhancing Visually-Rich Document Understanding via Layout Structure
Modeling [91.07963806829237]
レイアウトの知識をモデルに注入する新しい文書理解モデルであるGraphLMを提案する。
我々は、FUNSD、XFUND、CORDなど様々なベンチマークでモデルを評価し、最先端の結果を得た。
論文 参考訳(メタデータ) (2023-08-15T13:53:52Z) - Text Reading Order in Uncontrolled Conditions by Sparse Graph
Segmentation [71.40119152422295]
テキストの読み出し順序を識別するための軽量でスケーラブルで一般化可能なアプローチを提案する。
モデルは言語に依存しず、多言語データセットで効果的に実行される。
モバイルデバイスを含むあらゆるプラットフォームにデプロイできるほど小さい。
論文 参考訳(メタデータ) (2023-05-04T06:21:00Z) - TLDW: Extreme Multimodal Summarisation of News Videos [76.50305095899958]
TL;DW - Too Long; Didn't Watch のシナリオに対して,Xtreme Multimodal Summarisation with Multimodal Output (XMSMO)を導入する。
XMSMOは,映像と文書のペアを非常に短い長さの要約にまとめることを目的としており,その内容は1つの表紙フレームを視覚的要約として,1つの文をテキスト要約として構成する。
本手法は, 参照要約を使わずに, 最適輸送計画に基づく意味分布間の距離の観点から, 視覚的およびテキスト的カバレッジを最適化することにより, 訓練を行う。
論文 参考訳(メタデータ) (2022-10-16T08:19:59Z) - ERNIE-Layout: Layout Knowledge Enhanced Pre-training for Visually-rich
Document Understanding [52.3895498789521]
レイアウト知識を向上した新しい文書事前学習ソリューションであるERNIEを提案する。
まず、直列化段階で入力シーケンスを並べ替え、相関的な事前学習タスクを示し、順序予測を行い、文書の適切な読み順序を学習する。
実験の結果、ERNIEは様々な下流タスクにおいて優れた性能を示し、キー情報に新たな最先端設定、文書質問応答を実現している。
論文 参考訳(メタデータ) (2022-10-12T12:59:24Z) - MHMS: Multimodal Hierarchical Multimedia Summarization [80.18786847090522]
視覚領域と言語領域を相互作用させることにより,マルチモーダル階層型マルチメディア要約(MHMS)フレームワークを提案する。
本手法は,ビデオとテキストのセグメンテーションと要約モジュールをそれぞれ含んでいる。
ドメイン間のアライメントの目的を最適な輸送距離で定式化し、代表とテキストの要約を生成する。
論文 参考訳(メタデータ) (2022-04-07T21:00:40Z) - LAMPRET: Layout-Aware Multimodal PreTraining for Document Understanding [17.179384053140236]
文書レイアウトは構造的および視覚的(例えば。
機械学習モデルでは無視されがちですが、重要な情報です。
ブロックとドキュメント全体をモデル化する新しいレイアウト対応マルチモーダル階層フレームワーク LAMPreT を提案する。
提案したモデルを,テキストブロック充填と画像提案の2つのレイアウト認識タスクで評価する。
論文 参考訳(メタデータ) (2021-04-16T23:27:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。