論文の概要: MATrIX -- Modality-Aware Transformer for Information eXtraction
- arxiv url: http://arxiv.org/abs/2205.08094v1
- Date: Tue, 17 May 2022 05:06:59 GMT
- ステータス: 処理完了
- システム内更新日: 2022-05-18 22:33:34.432193
- Title: MATrIX -- Modality-Aware Transformer for Information eXtraction
- Title(参考訳): MATrIX -- 情報eXトラクションのためのModality-Aware Transformer
- Authors: Thomas Delteil, Edouard Belval, Lei Chen, Luis Goncalves and Vijay
Mahadevan
- Abstract要約: MATrIX は Visual Document Understanding (VDU) ドメインにおける情報抽出のためのModality-Aware Transformer である。
VDUは、フォーム、請求書、レシート、テーブル、グラフ、プレゼンテーション、広告など、視覚的に豊かなドキュメントから情報を抽出する。
- 参考スコア(独自算出の注目度): 4.621520244272088
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present MATrIX - a Modality-Aware Transformer for Information eXtraction
in the Visual Document Understanding (VDU) domain. VDU covers information
extraction from visually rich documents such as forms, invoices, receipts,
tables, graphs, presentations, or advertisements. In these, text semantics and
visual information supplement each other to provide a global understanding of
the document. MATrIX is pre-trained in an unsupervised way with specifically
designed tasks that require the use of multi-modal information (spatial,
visual, or textual). We consider the spatial and text modalities all at once in
a single token set. To make the attention more flexible, we use a learned
modality-aware relative bias in the attention mechanism to modulate the
attention between the tokens of different modalities. We evaluate MATrIX on 3
different datasets each with strong baselines.
- Abstract(参考訳): 視覚文書理解(VDU)領域における情報抽出のためのモダリティ対応変換器MATrIXを提案する。
VDUは、フォーム、請求書、レシート、テーブル、グラフ、プレゼンテーション、広告など、視覚的に豊かなドキュメントから情報を抽出する。
これらにおいて、テキストセマンティクスと視覚情報は相互に補完し、文書のグローバルな理解を提供する。
MATrIXは、マルチモーダル情報(空間、視覚、テキスト)の使用を必要とする特別に設計されたタスクで、教師なしの方法で事前訓練されている。
空間的およびテキスト的モダリティを1つのトークンセットで同時に考慮する。
注意をより柔軟にするために,注意機構において学習したモダリティを認識可能な相対バイアスを用いて,異なるモダリティのトークン間の注意を変調する。
我々は3つの異なるデータセットでMATrIXを評価する。
関連論文リスト
- VIXEN: Visual Text Comparison Network for Image Difference Captioning [59.907924668417934]
画像間の視覚的差異をテキストで簡潔に要約する手法であるVIXENを提案する。
提案するネットワークは,事前学習された大規模言語モデルに対するソフトプロンプトを構築し,画像特徴を一対にマッピングする。
論文 参考訳(メタデータ) (2024-02-29T12:56:18Z) - DocLLM: A layout-aware generative language model for multimodal document
understanding [12.093889265216205]
本稿では,従来の大規模言語モデル(LLM)の軽量拡張であるDocLLMについて述べる。
本モデルは,空間配置構造を組み込むための境界ボックス情報にのみ焦点をあてる。
我々のソリューションは、すべてのタスクにまたがる16のデータセットのうち14のデータセットでSotA LLMよりも優れており、これまで見つからなかった5つのデータセットのうち4のデータセットで十分に一般化されていることを実証しています。
論文 参考訳(メタデータ) (2023-12-31T22:37:52Z) - PV2TEA: Patching Visual Modality to Textual-Established Information
Extraction [59.76117533540496]
我々は、その視覚的モダリティをテキスト化された属性情報抽出器にパッチする。
PV2TEAは3つのバイアス低減方式を備えたエンコーダデコーダアーキテクチャである。
実世界のeコマースデータセットに関する実証的な結果は、絶対値11.74%(相対値20.97%)のF1の増加を示す。
論文 参考訳(メタデータ) (2023-06-01T05:39:45Z) - Tagging before Alignment: Integrating Multi-Modal Tags for Video-Text
Retrieval [23.418120617544545]
近年,映像テキスト検索のための視覚言語アライメント学習が注目されている。
本稿では,タグ付けによってマルチモーダル情報を明示的に統合し,タグをアンカーとして使用することにより,ビデオテキストのアライメントを向上する。
ビデオとテキストの相互作用を強化するために,映像,タグ,テキストのトリプルト入力による共同モーダルエンコーダを構築し,さらに2つの教師付きタスクを実行する。
論文 参考訳(メタデータ) (2023-01-30T03:53:19Z) - Unifying Vision, Text, and Layout for Universal Document Processing [105.36490575974028]
本稿では,テキスト,画像,レイアウトのモダリティを文書理解と生成を含むさまざまなタスク形式とともに統合するドキュメントAIモデルを提案する。
我々の手法は、財務報告、学術論文、ウェブサイトなど、さまざまなデータ領域にまたがって、文書理解やQAといった9つのドキュメントAIタスクの最先端を定めている。
論文 参考訳(メタデータ) (2022-12-05T22:14:49Z) - TRIE++: Towards End-to-End Information Extraction from Visually Rich
Documents [51.744527199305445]
本稿では,視覚的にリッチな文書からエンド・ツー・エンドの情報抽出フレームワークを提案する。
テキスト読み出しと情報抽出は、よく設計されたマルチモーダルコンテキストブロックを介して互いに強化することができる。
フレームワークはエンドツーエンドのトレーニング可能な方法でトレーニングでき、グローバルな最適化が達成できる。
論文 参考訳(メタデータ) (2022-07-14T08:52:07Z) - Going Full-TILT Boogie on Document Understanding with Text-Image-Layout
Transformer [0.6702423358056857]
本稿では,レイアウト情報,視覚特徴,テキスト意味論を同時に学習するtiltニューラルネットワークアーキテクチャを紹介する。
私たちは、テーブル、数字、フォームなど、さまざまなレイアウトの実際の文書のネットワークを訓練しました。
論文 参考訳(メタデータ) (2021-02-18T18:51:47Z) - VX2TEXT: End-to-End Learning of Video-Based Text Generation From
Multimodal Inputs [103.99315770490163]
本稿では,ビデオ+テキスト,音声,音声によるマルチモーダル入力からテキストを生成するフレームワークを提案する。
実験により、一つのアーキテクチャに基づくアプローチは、3つのビデオベースのテキスト生成タスクにおいて最先端のタスクより優れていることが示された。
論文 参考訳(メタデータ) (2021-01-28T15:22:36Z) - Towards Robust Visual Information Extraction in Real World: New Dataset
and Novel Solution [30.438041837029875]
実世界のシナリオに向けた堅牢な視覚情報抽出システム(VIES)を提案する。
VIESは、同時テキスト検出、認識、情報抽出のための統一されたエンドツーエンドのトレーニング可能なフレームワークです。
テキストスポッティングと視覚情報抽出の両方の中国初のベンチマークであるephoieと呼ばれる完全注釈付きデータセットを構築した。
論文 参考訳(メタデータ) (2021-01-24T11:05:24Z) - TRIE: End-to-End Text Reading and Information Extraction for Document
Understanding [56.1416883796342]
本稿では,統合されたエンドツーエンドのテキスト読解と情報抽出ネットワークを提案する。
テキスト読解のマルチモーダル視覚的特徴とテキスト的特徴は、情報抽出のために融合される。
提案手法は, 精度と効率の両面において, 最先端の手法よりも優れていた。
論文 参考訳(メタデータ) (2020-05-27T01:47:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。