論文の概要: MATrIX -- Modality-Aware Transformer for Information eXtraction
- arxiv url: http://arxiv.org/abs/2205.08094v1
- Date: Tue, 17 May 2022 05:06:59 GMT
- ステータス: 処理完了
- システム内更新日: 2022-05-18 22:33:34.432193
- Title: MATrIX -- Modality-Aware Transformer for Information eXtraction
- Title(参考訳): MATrIX -- 情報eXトラクションのためのModality-Aware Transformer
- Authors: Thomas Delteil, Edouard Belval, Lei Chen, Luis Goncalves and Vijay
Mahadevan
- Abstract要約: MATrIX は Visual Document Understanding (VDU) ドメインにおける情報抽出のためのModality-Aware Transformer である。
VDUは、フォーム、請求書、レシート、テーブル、グラフ、プレゼンテーション、広告など、視覚的に豊かなドキュメントから情報を抽出する。
- 参考スコア(独自算出の注目度): 4.621520244272088
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present MATrIX - a Modality-Aware Transformer for Information eXtraction
in the Visual Document Understanding (VDU) domain. VDU covers information
extraction from visually rich documents such as forms, invoices, receipts,
tables, graphs, presentations, or advertisements. In these, text semantics and
visual information supplement each other to provide a global understanding of
the document. MATrIX is pre-trained in an unsupervised way with specifically
designed tasks that require the use of multi-modal information (spatial,
visual, or textual). We consider the spatial and text modalities all at once in
a single token set. To make the attention more flexible, we use a learned
modality-aware relative bias in the attention mechanism to modulate the
attention between the tokens of different modalities. We evaluate MATrIX on 3
different datasets each with strong baselines.
- Abstract(参考訳): 視覚文書理解(VDU)領域における情報抽出のためのモダリティ対応変換器MATrIXを提案する。
VDUは、フォーム、請求書、レシート、テーブル、グラフ、プレゼンテーション、広告など、視覚的に豊かなドキュメントから情報を抽出する。
これらにおいて、テキストセマンティクスと視覚情報は相互に補完し、文書のグローバルな理解を提供する。
MATrIXは、マルチモーダル情報(空間、視覚、テキスト)の使用を必要とする特別に設計されたタスクで、教師なしの方法で事前訓練されている。
空間的およびテキスト的モダリティを1つのトークンセットで同時に考慮する。
注意をより柔軟にするために,注意機構において学習したモダリティを認識可能な相対バイアスを用いて,異なるモダリティのトークン間の注意を変調する。
我々は3つの異なるデータセットでMATrIXを評価する。
関連論文リスト
- Knowledge-Aware Reasoning over Multimodal Semi-structured Tables [85.24395216111462]
本研究では、現在のAIモデルがマルチモーダルな構造化データに基づいて知識を考慮した推論を行うことができるかどうかを検討する。
この目的のために設計された新しいデータセットであるMMTabQAを紹介する。
我々の実験は、複数のテキストと画像の入力を効果的に統合し解釈する上で、現在のAIモデルに対する重大な課題を浮き彫りにしている。
論文 参考訳(メタデータ) (2024-08-25T15:17:43Z) - OmniParser: A Unified Framework for Text Spotting, Key Information Extraction and Table Recognition [79.852642726105]
多様なシナリオにまたがって視覚的なテキストを解析するための統一パラダイムを提案する。
具体的には,3つの視覚的なテキスト解析タスクを同時に処理できるOmniというユニバーサルモデルを提案する。
オムニでは、全てのタスクが統一エンコーダ・デコーダアーキテクチャ、統一目的点条件テキスト生成、統一入力表現を共有している。
論文 参考訳(メタデータ) (2024-03-28T03:51:14Z) - VIXEN: Visual Text Comparison Network for Image Difference Captioning [58.16313862434814]
画像間の視覚的差異をテキストで簡潔に要約する手法であるVIXENを提案する。
提案するネットワークは,事前学習された大規模言語モデルに対するソフトプロンプトを構築し,画像特徴を一対にマッピングする。
論文 参考訳(メタデータ) (2024-02-29T12:56:18Z) - DocLLM: A layout-aware generative language model for multimodal document
understanding [12.093889265216205]
本稿では,従来の大規模言語モデル(LLM)の軽量拡張であるDocLLMについて述べる。
本モデルは,空間配置構造を組み込むための境界ボックス情報にのみ焦点をあてる。
我々のソリューションは、すべてのタスクにまたがる16のデータセットのうち14のデータセットでSotA LLMよりも優れており、これまで見つからなかった5つのデータセットのうち4のデータセットで十分に一般化されていることを実証しています。
論文 参考訳(メタデータ) (2023-12-31T22:37:52Z) - Tagging before Alignment: Integrating Multi-Modal Tags for Video-Text
Retrieval [23.418120617544545]
近年,映像テキスト検索のための視覚言語アライメント学習が注目されている。
本稿では,タグ付けによってマルチモーダル情報を明示的に統合し,タグをアンカーとして使用することにより,ビデオテキストのアライメントを向上する。
ビデオとテキストの相互作用を強化するために,映像,タグ,テキストのトリプルト入力による共同モーダルエンコーダを構築し,さらに2つの教師付きタスクを実行する。
論文 参考訳(メタデータ) (2023-01-30T03:53:19Z) - TRIE++: Towards End-to-End Information Extraction from Visually Rich
Documents [51.744527199305445]
本稿では,視覚的にリッチな文書からエンド・ツー・エンドの情報抽出フレームワークを提案する。
テキスト読み出しと情報抽出は、よく設計されたマルチモーダルコンテキストブロックを介して互いに強化することができる。
フレームワークはエンドツーエンドのトレーニング可能な方法でトレーニングでき、グローバルな最適化が達成できる。
論文 参考訳(メタデータ) (2022-07-14T08:52:07Z) - Going Full-TILT Boogie on Document Understanding with Text-Image-Layout
Transformer [0.6702423358056857]
本稿では,レイアウト情報,視覚特徴,テキスト意味論を同時に学習するtiltニューラルネットワークアーキテクチャを紹介する。
私たちは、テーブル、数字、フォームなど、さまざまなレイアウトの実際の文書のネットワークを訓練しました。
論文 参考訳(メタデータ) (2021-02-18T18:51:47Z) - VX2TEXT: End-to-End Learning of Video-Based Text Generation From
Multimodal Inputs [103.99315770490163]
本稿では,ビデオ+テキスト,音声,音声によるマルチモーダル入力からテキストを生成するフレームワークを提案する。
実験により、一つのアーキテクチャに基づくアプローチは、3つのビデオベースのテキスト生成タスクにおいて最先端のタスクより優れていることが示された。
論文 参考訳(メタデータ) (2021-01-28T15:22:36Z) - Towards Robust Visual Information Extraction in Real World: New Dataset
and Novel Solution [30.438041837029875]
実世界のシナリオに向けた堅牢な視覚情報抽出システム(VIES)を提案する。
VIESは、同時テキスト検出、認識、情報抽出のための統一されたエンドツーエンドのトレーニング可能なフレームワークです。
テキストスポッティングと視覚情報抽出の両方の中国初のベンチマークであるephoieと呼ばれる完全注釈付きデータセットを構築した。
論文 参考訳(メタデータ) (2021-01-24T11:05:24Z) - TRIE: End-to-End Text Reading and Information Extraction for Document
Understanding [56.1416883796342]
本稿では,統合されたエンドツーエンドのテキスト読解と情報抽出ネットワークを提案する。
テキスト読解のマルチモーダル視覚的特徴とテキスト的特徴は、情報抽出のために融合される。
提案手法は, 精度と効率の両面において, 最先端の手法よりも優れていた。
論文 参考訳(メタデータ) (2020-05-27T01:47:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。