論文の概要: ERNIE-mmLayout: Multi-grained MultiModal Transformer for Document
Understanding
- arxiv url: http://arxiv.org/abs/2209.08569v1
- Date: Sun, 18 Sep 2022 13:46:56 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-20 15:39:17.326017
- Title: ERNIE-mmLayout: Multi-grained MultiModal Transformer for Document
Understanding
- Title(参考訳): ERNIE-mmLayout:文書理解のためのマルチモード変換器
- Authors: Wenjin Wang, Zhengjie Huang, Bin Luo, Qianglong Chen, Qiming Peng,
Yinxu Pan, Weichong Yin, Shikun Feng, Yu Sun, Dianhai Yu, Yin Zhang
- Abstract要約: 既存のアプローチは主に単語や文書画像などのきめ細かい要素に焦点を当てており、粗い要素から学ぶことは困難である。
本稿では,高密度情報と一貫したセマンティクスを含む粗粒状要素に,より重要度を付加する。
提案手法は,細粒度要素に基づくマルチモーダル変換器の性能向上と,パラメータの少ない性能向上を実現する。
- 参考スコア(独自算出の注目度): 31.227481709446746
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Recent efforts of multimodal Transformers have improved Visually Rich
Document Understanding (VrDU) tasks via incorporating visual and textual
information. However, existing approaches mainly focus on fine-grained elements
such as words and document image patches, making it hard for them to learn from
coarse-grained elements, including natural lexical units like phrases and
salient visual regions like prominent image regions. In this paper, we attach
more importance to coarse-grained elements containing high-density information
and consistent semantics, which are valuable for document understanding. At
first, a document graph is proposed to model complex relationships among
multi-grained multimodal elements, in which salient visual regions are detected
by a cluster-based method. Then, a multi-grained multimodal Transformer called
mmLayout is proposed to incorporate coarse-grained information into existing
pre-trained fine-grained multimodal Transformers based on the graph. In
mmLayout, coarse-grained information is aggregated from fine-grained, and then,
after further processing, is fused back into fine-grained for final prediction.
Furthermore, common sense enhancement is introduced to exploit the semantic
information of natural lexical units. Experimental results on four tasks,
including information extraction and document question answering, show that our
method can improve the performance of multimodal Transformers based on
fine-grained elements and achieve better performance with fewer parameters.
Qualitative analyses show that our method can capture consistent semantics in
coarse-grained elements.
- Abstract(参考訳): マルチモーダルトランスフォーマーの最近の取り組みは、視覚情報とテキスト情報の統合により、視覚リッチドキュメント理解(vrdu)タスクを改善した。
しかし、既存のアプローチは主に、単語や文書画像パッチのようなきめ細かい要素に焦点を当てており、フレーズのような自然な語彙単位や、顕著な画像領域のような健全な視覚領域を含む粗い要素から学ぶことは困難である。
本稿では,文書理解に有用な高密度情報と一貫した意味論を含む粗粒状要素に,より重要視する。
まず,マルチモーダル要素間の複雑な関係をモデル化する文書グラフを提案する。
次に,mmLayout と呼ばれるマルチモーダル変換器を提案し,そのグラフに基づいて,事前学習したマルチモーダル変換器に粗い情報を組み込む。
mmLayoutでは、粗粒度情報を細粒度から集約し、さらに処理した後、最終的な予測のために細粒度に融合する。
さらに、自然語彙単位の意味情報を活用するために、常識強化を導入する。
情報抽出と文書質問応答を含む4つのタスクにおける実験結果から,細粒度要素に基づくマルチモーダルトランスフォーマーの性能を向上でき,少ないパラメータで性能を向上できることがわかった。
定性解析は,粗粒要素の一貫した意味を捉えることができることを示す。
関連論文リスト
- Detecting Misinformation in Multimedia Content through Cross-Modal Entity Consistency: A Dual Learning Approach [10.376378437321437]
クロスモーダルなエンティティの整合性を利用して、ビデオコンテンツから誤情報を検出するためのマルチメディア誤情報検出フレームワークを提案する。
以上の結果から,MultiMDは最先端のベースラインモデルより優れていることが示された。
論文 参考訳(メタデータ) (2024-08-16T16:14:36Z) - Leveraging Entity Information for Cross-Modality Correlation Learning: The Entity-Guided Multimodal Summarization [49.08348604716746]
Multimodal Summarization with Multimodal Output (MSMO) は、テキストと関連する画像の両方を統合するマルチモーダル要約を作成することを目的としている。
本稿では,Entity-Guided Multimodal Summarization Model (EGMS)を提案する。
我々のモデルは,BART上に構築され,共有重み付きデュアルマルチモーダルエンコーダを用いて,テキスト画像とエンティティ画像情報を並列に処理する。
論文 参考訳(メタデータ) (2024-08-06T12:45:56Z) - Hierarchical Multi-modal Transformer for Cross-modal Long Document Classification [74.45521856327001]
階層構造テキストと埋め込み画像で長い文書を分類する方法は、新しい問題である。
本稿では,階層型マルチモーダル変換器 (HMT) を用いたクロスモーダルな文書分類手法を提案する。
本稿では,マルチモーダル変換器と動的マルチスケールマルチモーダル変換器を用いて,画像特徴とセクションと文特徴の複雑な関係をモデル化する。
論文 参考訳(メタデータ) (2024-07-14T07:12:25Z) - Converging Dimensions: Information Extraction and Summarization through Multisource, Multimodal, and Multilingual Fusion [0.0]
本稿では,複数の情報源の強みを生かして,このような課題に対処する新たな要約手法を提案する。
この研究は、テキストドキュメントのような従来型にない情報源を超えて進展し、YouTubeのプレイリスト、プレプリント、ウィキペディアページなど、より多様なデータを統合している。
論文 参考訳(メタデータ) (2024-06-19T17:15:47Z) - Incorporating Visual Experts to Resolve the Information Loss in
Multimodal Large Language Models [121.83413400686139]
本稿では,MLLMの視覚知覚能力を向上させるために,知識の混合強化機構を提案する。
本稿では,マルチタスクエンコーダとビジュアルツールを既存のMLLM訓練と推論パイプラインに組み込む新しい手法を提案する。
論文 参考訳(メタデータ) (2024-01-06T02:02:34Z) - Absformer: Transformer-based Model for Unsupervised Multi-Document
Abstractive Summarization [1.066048003460524]
MDS(Multi-document summarization)とは、複数の文書のテキストを簡潔な要約に要約する作業である。
抽象MDSは、自然言語生成技術を用いて、複数の文書の一貫性と流動性を備えた要約を生成することを目的としている。
本稿では、教師なし抽象要約生成のためのトランスフォーマーに基づく新しい手法であるAbsformerを提案する。
論文 参考訳(メタデータ) (2023-06-07T21:18:23Z) - MGDoc: Pre-training with Multi-granular Hierarchy for Document Image
Understanding [53.03978356918377]
異なるレベルの粒度のコンテンツ間の空間的階層的関係は、文書画像理解タスクに不可欠である。
既存の方法は単語レベルか地域レベルから特徴を学習するが、両方を同時に考えることができない。
MGDocは,ページレベル,領域レベル,単語レベル情報を同時にエンコードするマルチモーダル・マルチグラニュラ事前学習フレームワークである。
論文 参考訳(メタデータ) (2022-11-27T22:47:37Z) - TRIE++: Towards End-to-End Information Extraction from Visually Rich
Documents [51.744527199305445]
本稿では,視覚的にリッチな文書からエンド・ツー・エンドの情報抽出フレームワークを提案する。
テキスト読み出しと情報抽出は、よく設計されたマルチモーダルコンテキストブロックを介して互いに強化することができる。
フレームワークはエンドツーエンドのトレーニング可能な方法でトレーニングでき、グローバルな最適化が達成できる。
論文 参考訳(メタデータ) (2022-07-14T08:52:07Z) - Hybrid Transformer with Multi-level Fusion for Multimodal Knowledge
Graph Completion [112.27103169303184]
マルチモーダル知識グラフ(MKG)は、視覚テキストの事実知識を整理する。
MKGformerは、マルチモーダルリンク予測、マルチモーダルRE、マルチモーダルNERの4つのデータセット上でSOTA性能を得ることができる。
論文 参考訳(メタデータ) (2022-05-04T23:40:04Z) - Extending Multi-Text Sentence Fusion Resources via Pyramid Annotations [12.394777121890925]
本稿では、過去のデータセット作成の取り組みを再考し、大幅に拡張する。
拡張版では、複数のドキュメントタスクにもっと代表的なテキストを使用し、より大きく、より多様なトレーニングセットを提供しています。
論文 参考訳(メタデータ) (2021-10-09T09:15:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。