論文の概要: XYLayoutLM: Towards Layout-Aware Multimodal Networks For Visually-Rich
Document Understanding
- arxiv url: http://arxiv.org/abs/2203.06947v2
- Date: Tue, 15 Mar 2022 14:51:16 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-16 11:33:34.172714
- Title: XYLayoutLM: Towards Layout-Aware Multimodal Networks For Visually-Rich
Document Understanding
- Title(参考訳): XYLayoutLM:ビジュアルリッチ文書理解のためのレイアウト対応マルチモーダルネットワーク
- Authors: Zhangxuan Gu, Changhua Meng, Ke Wang, Jun Lan, Weiqiang Wang, Ming Gu,
Liqing Zhang
- Abstract要約: 拡張されたXYカット条件によって生成された適切な読み出し順序から、リッチなレイアウト情報をキャプチャし、活用するための、堅牢なレイアウト対応マルチモーダルネットワークXYLMを提案する。
実験の結果,XYLMは文書理解タスクにおける競合的な結果が得られることがわかった。
- 参考スコア(独自算出の注目度): 24.624007963156505
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recently, various multimodal networks for Visually-Rich Document
Understanding(VRDU) have been proposed, showing the promotion of transformers
by integrating visual and layout information with the text embeddings. However,
most existing approaches utilize the position embeddings to incorporate the
sequence information, neglecting the noisy improper reading order obtained by
OCR tools. In this paper, we propose a robust layout-aware multimodal network
named XYLayoutLM to capture and leverage rich layout information from proper
reading orders produced by our Augmented XY Cut. Moreover, a Dilated
Conditional Position Encoding module is proposed to deal with the input
sequence of variable lengths, and it additionally extracts local layout
information from both textual and visual modalities while generating position
embeddings. Experiment results show that our XYLayoutLM achieves competitive
results on document understanding tasks.
- Abstract(参考訳): 近年,ビジュアル・リッチ文書理解(VRDU)のための様々なマルチモーダルネットワークが提案されている。
しかし,既存の手法の多くは,ocrツールによる不適切な読み出し順序を無視し,シーケンス情報を取り込む位置埋め込みを用いる。
本稿では,Augmented XY Cut が生成する適切な読み出し順序から,リッチなレイアウト情報を取り込み,活用するための,XYLayoutLM というロバストなレイアウト対応マルチモーダルネットワークを提案する。
さらに、可変長の入力シーケンスを扱うために拡張条件位置符号化モジュールを提案し、さらに位置埋め込みを生成しながら、テキストと視覚の両方から局所レイアウト情報を抽出する。
実験の結果,XYLayoutLMは文書理解タスクにおける競合的な結果が得られることがわかった。
関連論文リスト
- Rethinking Visual Prompting for Multimodal Large Language Models with External Knowledge [76.45868419402265]
マルチモーダルな大言語モデル(MLLM)は、膨大な高品質の画像テキストデータセットをトレーニングすることで、大きな進歩を遂げている。
しかし、マスクのような細粒度や空間的に密集した情報をテキストで明示的に伝達することの難しさは、MLLMにとって困難である。
本稿では、特殊な視覚モデルから派生した細粒度の外部知識をMLLMに統合する新しい視覚的プロンプト手法を提案する。
論文 参考訳(メタデータ) (2024-07-05T17:43:30Z) - X-VILA: Cross-Modality Alignment for Large Language Model [91.96081978952283]
X-VILAは、画像、ビデオ、オーディオのモダリティを組み込むことで、大きな言語モデル(LLM)の機能を拡張するために設計された、オールニモダリティモデルである。
視覚情報損失問題に対処するため,視覚埋め込みハイウェイモジュールを用いた視覚アライメント機構を提案する。
X-VILAは、あらゆるモダリティの会話に習熟し、それまでのアプローチを大きなマージンで上回っている。
論文 参考訳(メタデータ) (2024-05-29T17:59:58Z) - Vision Language Models for Spreadsheet Understanding: Challenges and Opportunities [45.07740718952321]
本稿では,スプレッドシート理解における視覚言語モデルの有用性について考察する。
我々は,OCR,空間認識,視覚的フォーマット認識のVLMを評価するための評価指標を用いた3つの自己監督的課題を提案する。
以上の結果から,VLMは有望な機能を示すが,細胞欠失や不適応による不満足な結果をもたらすことが明らかとなった。
論文 参考訳(メタデータ) (2024-05-25T13:51:48Z) - TextHawk: Exploring Efficient Fine-Grained Perception of Multimodal Large Language Models [9.232693392690702]
TextHawkは文書指向マルチモーダル言語モデル(MLLM)である。
4つの専用コンポーネントを設計することで、効率的な微粒化知覚を探索するように設計されている。
汎用MLLMベンチマークと文書指向MLLMベンチマークの両方で広範な実験を行い、TextHawkが最先端の手法より優れていることを示す。
論文 参考訳(メタデータ) (2024-04-14T09:48:37Z) - Visually Guided Generative Text-Layout Pre-training for Document Intelligence [51.09853181377696]
視覚誘導型生成テキスト事前学習(ViTLP)を提案する。
文書画像が与えられた場合、モデルは階層言語とレイアウトモデリングの目的を最適化し、インターリーブされたテキストとレイアウトシーケンスを生成する。
ViTLPは、文書画像のテキストをローカライズし、認識するためのネイティブなOCRモデルとして機能する。
論文 参考訳(メタデータ) (2024-03-25T08:00:43Z) - Scaffolding Coordinates to Promote Vision-Language Coordination in Large
Multi-Modal Models [18.772045053892885]
最先端のLMM(Large Multi-Modal Models)は、視覚言語タスクにおいて例外的な機能を示す。
LMMの既存のプロンプト技術は、テキスト推論の改善や画像前処理のためのツールの活用に重点を置いている。
視覚言語コーディネートを促進するために,足場座標の促進を促すScaffoldを提案する。
論文 参考訳(メタデータ) (2024-02-19T11:23:53Z) - DocLLM: A layout-aware generative language model for multimodal document
understanding [12.093889265216205]
本稿では,従来の大規模言語モデル(LLM)の軽量拡張であるDocLLMについて述べる。
本モデルは,空間配置構造を組み込むための境界ボックス情報にのみ焦点をあてる。
我々のソリューションは、すべてのタスクにまたがる16のデータセットのうち14のデータセットでSotA LLMよりも優れており、これまで見つからなかった5つのデータセットのうち4のデータセットで十分に一般化されていることを実証しています。
論文 参考訳(メタデータ) (2023-12-31T22:37:52Z) - LayoutNUWA: Revealing the Hidden Layout Expertise of Large Language
Models [84.16541551923221]
本稿では,レイアウト生成をコード生成タスクとして扱うモデルを提案する。
3つの相互接続モジュールからなるCode Instruct Tuning (CIT) アプローチを開発した。
複数のデータセット上で、最先端のパフォーマンスを実現しています。
論文 参考訳(メタデータ) (2023-09-18T06:35:10Z) - Text Reading Order in Uncontrolled Conditions by Sparse Graph
Segmentation [71.40119152422295]
テキストの読み出し順序を識別するための軽量でスケーラブルで一般化可能なアプローチを提案する。
モデルは言語に依存しず、多言語データセットで効果的に実行される。
モバイルデバイスを含むあらゆるプラットフォームにデプロイできるほど小さい。
論文 参考訳(メタデータ) (2023-05-04T06:21:00Z) - TLDW: Extreme Multimodal Summarisation of News Videos [76.50305095899958]
TL;DW - Too Long; Didn't Watch のシナリオに対して,Xtreme Multimodal Summarisation with Multimodal Output (XMSMO)を導入する。
XMSMOは,映像と文書のペアを非常に短い長さの要約にまとめることを目的としており,その内容は1つの表紙フレームを視覚的要約として,1つの文をテキスト要約として構成する。
本手法は, 参照要約を使わずに, 最適輸送計画に基づく意味分布間の距離の観点から, 視覚的およびテキスト的カバレッジを最適化することにより, 訓練を行う。
論文 参考訳(メタデータ) (2022-10-16T08:19:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。