論文の概要: Sequence-to-Sequence Pre-training with Unified Modality Masking for
Visual Document Understanding
- arxiv url: http://arxiv.org/abs/2305.10448v1
- Date: Tue, 16 May 2023 15:25:19 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-19 18:55:20.598077
- Title: Sequence-to-Sequence Pre-training with Unified Modality Masking for
Visual Document Understanding
- Title(参考訳): 視覚文書理解のための統一モダリティマスキングを用いたシーケンスからシーケンスへの事前学習
- Authors: Shuwei Feng, Tianyang Zhan, Zhanming Jie, Trung Quoc Luong, Xiaoran
Jin
- Abstract要約: GenDocは、3つのモードにわたる統一マスキングで事前訓練されたシーケンスからシーケンスまでの文書理解モデルである。
提案手法はエンコーダ・デコーダアーキテクチャを用いて,幅広い下流タスクへの適応性を向上する。
- 参考スコア(独自算出の注目度): 3.185382039518151
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: This paper presents GenDoc, a general sequence-to-sequence document
understanding model pre-trained with unified masking across three modalities:
text, image, and layout. The proposed model utilizes an encoder-decoder
architecture, which allows for increased adaptability to a wide range of
downstream tasks with diverse output formats, in contrast to the encoder-only
models commonly employed in document understanding. In addition to the
traditional text infilling task used in previous encoder-decoder models, our
pre-training extends to include tasks of masked image token prediction and
masked layout prediction. We also design modality-specific instruction and
adopt both disentangled attention and the mixture-of-modality-experts strategy
to effectively capture the information leveraged by each modality. Evaluation
of the proposed model through extensive experiments on several downstream tasks
in document understanding demonstrates its ability to achieve superior or
competitive performance compared to state-of-the-art approaches. Our analysis
further suggests that GenDoc is more robust than the encoder-only models in
scenarios where the OCR quality is imperfect.
- Abstract(参考訳): 本稿では、テキスト、画像、レイアウトの3つのモードにまたがる統一マスキングを事前訓練した、一般的なシーケンス間文書理解モデルGenDocを提案する。
提案モデルではエンコーダ-デコーダアーキテクチャを用いて,文書理解に一般的に使用されるエンコーダのみのモデルとは対照的に,多様な出力形式を持つ幅広いダウンストリームタスクへの適応性を向上する。
従来のエンコーダ・デコーダモデルで使用される従来のテキストインフィルディングタスクに加えて,マスクドイメージトークンの予測やマスクドレイアウトの予測といったタスクも前もって行っています。
また,モダリティ固有の命令の設計を行い,各モダリティが活用する情報を効果的に捉えるために,不連続注意と混合モダリティ・エキスパート戦略の両方を採用する。
文書理解における下流タスクの広範囲な実験による提案モデルの評価は,最先端の手法と比較して優れた,あるいは競争的な性能を実現する能力を示している。
我々はさらに、OCRの品質が不十分なシナリオにおいて、GenDocはエンコーダのみのモデルよりも堅牢であることを示す。
関連論文リスト
- Unified Coding for Both Human Perception and Generalized Machine Analytics with CLIP Supervision [44.5080084219247]
本稿では、マルチモーダル事前学習モデルを導入し、人間の視覚知覚とマシンビジョンを同時にサポートする適応型多目的最適化を1ビットストリームで実現する。
提案したUnified and Generalized Image Coding for Machine (UG-ICM) は、さまざまな未確認マシン分析タスクにおいて顕著な改善を実現することができる。
論文 参考訳(メタデータ) (2025-01-08T15:48:30Z) - Few-shot Action Recognition with Captioning Foundation Models [61.40271046233581]
CapFSARは、テキストを手動でアノテートすることなく、マルチモーダルモデルの知識を利用するフレームワークである。
Transformerをベースとしたビジュアルテキストアグリゲーションモジュールはさらに、モーダル時間間の補完情報を組み込むように設計されている。
複数の標準的な数ショットベンチマークの実験では、提案したCapFSARが既存の手法に対して好適に動作することを示した。
論文 参考訳(メタデータ) (2023-10-16T07:08:39Z) - Towards General Visual-Linguistic Face Forgery Detection [95.73987327101143]
ディープフェイクは現実的な顔操作であり、セキュリティ、プライバシー、信頼に深刻な脅威をもたらす可能性がある。
既存の方法は、このタスクを、デジタルラベルまたはマスク信号を使用して検出モデルをトレーニングするバイナリ分類として扱う。
本稿では, 微粒な文レベルのプロンプトをアノテーションとして用いた, VLFFD (Visual-Linguistic Face Forgery Detection) という新しいパラダイムを提案する。
論文 参考訳(メタデータ) (2023-07-31T10:22:33Z) - Exploring and Exploiting Multi-Granularity Representations for Machine
Reading Comprehension [13.191437539419681]
適応的双方向注意カプセルネットワーク(ABA-Net)という新しい手法を提案する。
ABA-Netは、異なるレベルのソース表現を予測子に適応的に活用する。
私たちはSQuAD 1.0データセットに新しい最先端パフォーマンスを設定しました。
論文 参考訳(メタデータ) (2022-08-18T10:14:32Z) - Unified Pretraining Framework for Document Understanding [52.224359498792836]
文書理解のための統合事前学習フレームワークであるUDocを紹介する。
UDocは、ほとんどのドキュメント理解タスクをサポートするように設計されており、Transformerを拡張してマルチモーダル埋め込みを入力とする。
UDocの重要な特徴は、3つの自己管理的損失を利用して汎用的な表現を学ぶことである。
論文 参考訳(メタデータ) (2022-04-22T21:47:04Z) - Disentangled Sequence to Sequence Learning for Compositional
Generalization [62.954842223732435]
本稿では,ソース入力を適応的に再符号化することで,不整合表現の学習を可能にするシーケンス・ツー・シーケンス・モデルの拡張を提案する。
意味解析と機械翻訳の実験結果から,提案手法はより不整合な表現とより優れた一般化をもたらすことが示された。
論文 参考訳(メタデータ) (2021-10-09T22:27:19Z) - HydraSum -- Disentangling Stylistic Features in Text Summarization using
Multi-Decoder Models [12.070474521259776]
現在のモデルの単一デコーダフレームワークを拡張した,新しい要約アーキテクチャであるHydraSumを紹介する。
提案モデルでは,各専門家,すなわちデコーダに対して,スタイリスティックな要約の学習と生成を奨励する。
トレーニングプロセスのガイド付きバージョンは、デコーダ間でどのサマリスタイルが分割されているかを明示的に規定することができる。
論文 参考訳(メタデータ) (2021-10-08T22:49:49Z) - SelfDoc: Self-Supervised Document Representation Learning [46.22910270334824]
SelfDocは、文書イメージ理解のためのタスクに依存しない事前トレーニングフレームワークである。
本フレームワークは,文書中の意味的に意味のあるすべてのコンポーネントの位置情報,テキスト情報,視覚情報を利用する。
複数のダウンストリームタスクにおいて,事前学習段階で使用する文書イメージが従来よりも大幅に少なく,優れたパフォーマンスを実現している。
論文 参考訳(メタデータ) (2021-06-07T04:19:49Z) - Adaptive Bi-directional Attention: Exploring Multi-Granularity
Representations for Machine Reading Comprehension [29.717816161964105]
異なるレベルのソース表現を予測器に適応的に適用するAdaptive Bidirectional Attentionと呼ばれる新しいアプローチを提案する。
結果は、2.5$%$ EMと2.3$%$ F1スコアによる以前の最新モデルよりも優れています。
論文 参考訳(メタデータ) (2020-12-20T09:31:35Z) - Cross-Thought for Sentence Encoder Pre-training [89.32270059777025]
Cross-Thoughtは、事前トレーニングシーケンスエンコーダに対する新しいアプローチである。
我々は、Transformerベースのシーケンスエンコーダを、多数の短いシーケンスに対してトレーニングする。
質問応答とテキストのエンコーダタスクの実験は、事前学習したエンコーダが最先端のエンコーダより優れていることを示す。
論文 参考訳(メタデータ) (2020-10-07T21:02:41Z) - Rethinking and Improving Natural Language Generation with Layer-Wise
Multi-View Decoding [59.48857453699463]
シーケンシャル・ツー・シーケンス学習では、デコーダは注意機構に依存してエンコーダから情報を効率的に抽出する。
近年の研究では、異なるエンコーダ層からの表現を多様なレベルの情報に利用することが提案されている。
本稿では, 各デコーダ層に対して, グローバルビューとして機能する最後のエンコーダ層からの表現とともに, ソースシーケンスの立体視のために他のエンコーダ層からのデコーダ層からのデコーダ層を補足するレイヤワイド・マルチビューデコーダを提案する。
論文 参考訳(メタデータ) (2020-05-16T20:00:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。