Fugu-MT 論文翻訳(概要): MATrIX -- Modality-Aware Transformer for Information eXtraction

論文の概要: MATrIX -- Modality-Aware Transformer for Information eXtraction

arxiv url: http://arxiv.org/abs/2205.08094v1
Date: Tue, 17 May 2022 05:06:59 GMT
ステータス: 翻訳完了
システム内更新日: 2022-05-18 22:33:34.432193
Title: MATrIX -- Modality-Aware Transformer for Information eXtraction
Title（参考訳）: MATrIX -- 情報eXトラクションのためのModality-Aware Transformer
Authors: Thomas Delteil, Edouard Belval, Lei Chen, Luis Goncalves and Vijay Mahadevan
Abstract要約: MATrIX は Visual Document Understanding (VDU) ドメインにおける情報抽出のためのModality-Aware Transformer である。 VDUは、フォーム、請求書、レシート、テーブル、グラフ、プレゼンテーション、広告など、視覚的に豊かなドキュメントから情報を抽出する。
参考スコア（独自算出の注目度）: 4.621520244272088
License: http://creativecommons.org/licenses/by/4.0/
Abstract: We present MATrIX - a Modality-Aware Transformer for Information eXtraction in the Visual Document Understanding (VDU) domain. VDU covers information extraction from visually rich documents such as forms, invoices, receipts, tables, graphs, presentations, or advertisements. In these, text semantics and visual information supplement each other to provide a global understanding of the document. MATrIX is pre-trained in an unsupervised way with specifically designed tasks that require the use of multi-modal information (spatial, visual, or textual). We consider the spatial and text modalities all at once in a single token set. To make the attention more flexible, we use a learned modality-aware relative bias in the attention mechanism to modulate the attention between the tokens of different modalities. We evaluate MATrIX on 3 different datasets each with strong baselines.
Abstract（参考訳）: 視覚文書理解(VDU)領域における情報抽出のためのモダリティ対応変換器MATrIXを提案する。 VDUは、フォーム、請求書、レシート、テーブル、グラフ、プレゼンテーション、広告など、視覚的に豊かなドキュメントから情報を抽出する。これらにおいて、テキストセマンティクスと視覚情報は相互に補完し、文書のグローバルな理解を提供する。 MATrIXは、マルチモーダル情報(空間、視覚、テキスト)の使用を必要とする特別に設計されたタスクで、教師なしの方法で事前訓練されている。空間的およびテキスト的モダリティを1つのトークンセットで同時に考慮する。注意をより柔軟にするために,注意機構において学習したモダリティを認識可能な相対バイアスを用いて,異なるモダリティのトークン間の注意を変調する。我々は3つの異なるデータセットでMATrIXを評価する。

関連論文リスト

Adaptive Markup Language Generation for Contextually-Grounded Visual Document Understanding [42.506971197471195]
ドキュメント解析のために約3.8Mの事前学習データペアで構成されるDocMark-Pileと、グラウンドド命令に従うための624kの微調整データアノテーションを備えたDocMark-Instructの2つのきめ細かい構造化データセットを紹介した。提案手法は,様々なビジュアル文書理解ベンチマークにおいて,既存の最先端MLLMを著しく上回っている。
論文参考訳（メタデータ） (2025-05-08T17:37:36Z)
The Narrow Gate: Localized Image-Text Communication in Vision-Language Models [36.33608889682152]
本研究では,視覚言語モデルが画像理解タスクをどのように扱うかを検討する。マルチモーダルな出力を持つモデルでは、画像とテキストの埋め込みは残留ストリーム内でより分離される。対照的に、画像生成とテキスト生成のために訓練されたモデルは、視覚情報の狭いゲートとして機能する単一のトークンに依存する傾向がある。
論文参考訳（メタデータ） (2024-12-09T16:39:40Z)
MLAN: Language-Based Instruction Tuning Preserves and Transfers Knowledge in Multimodal Language Models [79.0546136194314]
マルチモーダルな大言語モデルのゼロショットタスクの一般化を改善するために,新しい視覚的インストラクションチューニング手法を提案する。十分な多彩なテキストのみのデータの増加は、視覚言語アプローチよりも効率的でありながら、モダリティ全体にわたって命令追従能力とドメイン知識の伝達を可能にする。
論文参考訳（メタデータ） (2024-11-15T20:09:59Z)
Knowledge-Aware Reasoning over Multimodal Semi-structured Tables [85.24395216111462]
本研究では、現在のAIモデルがマルチモーダルな構造化データに基づいて知識を考慮した推論を行うことができるかどうかを検討する。この目的のために設計された新しいデータセットであるMMTabQAを紹介する。我々の実験は、複数のテキストと画像の入力を効果的に統合し解釈する上で、現在のAIモデルに対する重大な課題を浮き彫りにしている。
論文参考訳（メタデータ） (2024-08-25T15:17:43Z)
OmniParser: A Unified Framework for Text Spotting, Key Information Extraction and Table Recognition [79.852642726105]
多様なシナリオにまたがって視覚的なテキストを解析するための統一パラダイムを提案する。具体的には,3つの視覚的なテキスト解析タスクを同時に処理できるOmniというユニバーサルモデルを提案する。オムニでは、全てのタスクが統一エンコーダ・デコーダアーキテクチャ、統一目的点条件テキスト生成、統一入力表現を共有している。
論文参考訳（メタデータ） (2024-03-28T03:51:14Z)
VIXEN: Visual Text Comparison Network for Image Difference Captioning [58.16313862434814]
画像間の視覚的差異をテキストで簡潔に要約する手法であるVIXENを提案する。提案するネットワークは,事前学習された大規模言語モデルに対するソフトプロンプトを構築し,画像特徴を一対にマッピングする。
論文参考訳（メタデータ） (2024-02-29T12:56:18Z)
DocLLM: A layout-aware generative language model for multimodal document understanding [12.093889265216205]
本稿では,従来の大規模言語モデル(LLM)の軽量拡張であるDocLLMについて述べる。本モデルは,空間配置構造を組み込むための境界ボックス情報にのみ焦点をあてる。我々のソリューションは、すべてのタスクにまたがる16のデータセットのうち14のデータセットでSotA LLMよりも優れており、これまで見つからなかった5つのデータセットのうち4のデータセットで十分に一般化されていることを実証しています。
論文参考訳（メタデータ） (2023-12-31T22:37:52Z)
Tagging before Alignment: Integrating Multi-Modal Tags for Video-Text Retrieval [23.418120617544545]
近年,映像テキスト検索のための視覚言語アライメント学習が注目されている。本稿では,タグ付けによってマルチモーダル情報を明示的に統合し,タグをアンカーとして使用することにより,ビデオテキストのアライメントを向上する。ビデオとテキストの相互作用を強化するために,映像,タグ,テキストのトリプルト入力による共同モーダルエンコーダを構築し,さらに2つの教師付きタスクを実行する。
論文参考訳（メタデータ） (2023-01-30T03:53:19Z)
TRIE++: Towards End-to-End Information Extraction from Visually Rich Documents [51.744527199305445]
本稿では,視覚的にリッチな文書からエンド・ツー・エンドの情報抽出フレームワークを提案する。テキスト読み出しと情報抽出は、よく設計されたマルチモーダルコンテキストブロックを介して互いに強化することができる。フレームワークはエンドツーエンドのトレーニング可能な方法でトレーニングでき、グローバルな最適化が達成できる。
論文参考訳（メタデータ） (2022-07-14T08:52:07Z)
Going Full-TILT Boogie on Document Understanding with Text-Image-Layout Transformer [0.6702423358056857]
本稿では,レイアウト情報,視覚特徴,テキスト意味論を同時に学習するtiltニューラルネットワークアーキテクチャを紹介する。私たちは、テーブル、数字、フォームなど、さまざまなレイアウトの実際の文書のネットワークを訓練しました。
論文参考訳（メタデータ） (2021-02-18T18:51:47Z)
VX2TEXT: End-to-End Learning of Video-Based Text Generation From Multimodal Inputs [103.99315770490163]
本稿では,ビデオ+テキスト,音声,音声によるマルチモーダル入力からテキストを生成するフレームワークを提案する。実験により、一つのアーキテクチャに基づくアプローチは、3つのビデオベースのテキスト生成タスクにおいて最先端のタスクより優れていることが示された。
論文参考訳（メタデータ） (2021-01-28T15:22:36Z)
Towards Robust Visual Information Extraction in Real World: New Dataset and Novel Solution [30.438041837029875]
実世界のシナリオに向けた堅牢な視覚情報抽出システム(VIES)を提案する。 VIESは、同時テキスト検出、認識、情報抽出のための統一されたエンドツーエンドのトレーニング可能なフレームワークです。テキストスポッティングと視覚情報抽出の両方の中国初のベンチマークであるephoieと呼ばれる完全注釈付きデータセットを構築した。
論文参考訳（メタデータ） (2021-01-24T11:05:24Z)
TRIE: End-to-End Text Reading and Information Extraction for Document Understanding [56.1416883796342]
本稿では,統合されたエンドツーエンドのテキスト読解と情報抽出ネットワークを提案する。テキスト読解のマルチモーダル視覚的特徴とテキスト的特徴は、情報抽出のために融合される。提案手法は, 精度と効率の両面において, 最先端の手法よりも優れていた。
論文参考訳（メタデータ） (2020-05-27T01:47:26Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。