論文の概要: Fast-StrucTexT: An Efficient Hourglass Transformer with Modality-guided
Dynamic Token Merge for Document Understanding
- arxiv url: http://arxiv.org/abs/2305.11392v1
- Date: Fri, 19 May 2023 02:42:35 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-22 16:32:12.852742
- Title: Fast-StrucTexT: An Efficient Hourglass Transformer with Modality-guided
Dynamic Token Merge for Document Understanding
- Title(参考訳): Fast-StrucTexT: 文書理解のためのモダリティ誘導動的トーケンマージを用いた高効率フールグラストランス
- Authors: Mingliang Zhai, Yulin Li, Xiameng Qin, Chen Yi, Qunyi Xie, Chengquan
Zhang, Kun Yao, Yuwei Wu, Yunde Jia
- Abstract要約: 一般的な効率的な変換器は、直接モデル文書に適合させることが困難である。
Fast-StrucTexTは、時間ガラストランスアーキテクチャを備えたStrucTexTアルゴリズムに基づく効率的なマルチモーダルフレームワークである。
提案モデルでは,最先端の手法よりも約1.9倍高速な推論時間を実現する。
- 参考スコア(独自算出の注目度): 40.322453628755376
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Transformers achieve promising performance in document understanding because
of their high effectiveness and still suffer from quadratic computational
complexity dependency on the sequence length. General efficient transformers
are challenging to be directly adapted to model document. They are unable to
handle the layout representation in documents, e.g. word, line and paragraph,
on different granularity levels and seem hard to achieve a good trade-off
between efficiency and performance. To tackle the concerns, we propose
Fast-StrucTexT, an efficient multi-modal framework based on the StrucTexT
algorithm with an hourglass transformer architecture, for visual document
understanding. Specifically, we design a modality-guided dynamic token merging
block to make the model learn multi-granularity representation and prunes
redundant tokens. Additionally, we present a multi-modal interaction module
called Symmetry Cross Attention (SCA) to consider multi-modal fusion and
efficiently guide the token mergence. The SCA allows one modality input as
query to calculate cross attention with another modality in a dual phase.
Extensive experiments on FUNSD, SROIE, and CORD datasets demonstrate that our
model achieves the state-of-the-art performance and almost 1.9X faster
inference time than the state-of-the-art methods.
- Abstract(参考訳): 変換器はその有効性が高いため文書理解において有望な性能を達成し、シークエンス長の2次計算複雑性に悩まされている。
一般的な効率的なトランスフォーマーは、モデル文書に直接適応することが困難である。
彼らは、単語、行、段落などの文書のレイアウト表現を異なる粒度レベルで扱うことができず、効率と性能の良好なトレードオフを達成できないように思える。
そこで本研究では,砂時計トランスフォーマーアーキテクチャを用いた構造体アルゴリズムに基づく効率的なマルチモーダルフレームワークであるfast-structextを提案する。
具体的には、モーダリティ誘導型動的トークンマージブロックを設計し、モデルを多粒度表現を学習させ、冗長トークンを創発する。
さらに,マルチモーダル融合を考慮し,トークンマージを効率的に導くために,対称クロスアテンション(sca)と呼ばれるマルチモーダルインタラクションモジュールを提案する。
SCAでは、クエリとして1つのモダリティ入力を2つのフェーズで別のモダリティでクロスアテンションを計算することができる。
FUNSD, SROIE, CORDデータセットの大規模な実験により、我々のモデルは最先端の手法よりも1.9倍高速な推論時間を実現することが示された。
関連論文リスト
- MADTP: Multimodal Alignment-Guided Dynamic Token Pruning for
Accelerating Vision-Language Transformer [66.71930982549028]
VLT(Vision-Language Transformer)は近年大きな成功を収めている。
各種VLTの高速化を目的としたマルチモーダルアライメント誘導動的トーケンプルーニング(MADTP)という新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2024-03-05T14:13:50Z) - Perceiving Longer Sequences With Bi-Directional Cross-Attention
Transformers [15.150460618892405]
BiXTは、計算コストとメモリ消費の観点から、入力サイズと線形にスケールする。
BiXTはPerceiverアーキテクチャにインスパイアされているが、反復的な注意を効率よく双方向のクロスアテンションモジュールに置き換える。
論文 参考訳(メタデータ) (2024-02-19T13:38:15Z) - CrossGET: Cross-Guided Ensemble of Tokens for Accelerating
Vision-Language Transformers [56.39699688879299]
本稿では、視覚言語変換のためのユニバーサルアクセラレーションフレームワークであるtextbfCross-textbfGuided textbfTokens (textbfemphCrossGET)について紹介する。
このフレームワークは、リアルタイムのクロスモーダルガイダンスを通じてトークンを適応的に結合し、高い性能を維持しながら実質的な加速を実現する。
論文 参考訳(メタデータ) (2023-05-27T12:07:21Z) - Joint Spatial-Temporal and Appearance Modeling with Transformer for
Multiple Object Tracking [59.79252390626194]
本稿ではTransSTAMという新しい手法を提案する。Transformerを利用して各オブジェクトの外観特徴とオブジェクト間の空間的時間的関係の両方をモデル化する。
提案手法はMOT16, MOT17, MOT20を含む複数の公開ベンチマークで評価され, IDF1とHOTAの両方で明確な性能向上を実現している。
論文 参考訳(メタデータ) (2022-05-31T01:19:18Z) - Fastformer: Additive Attention Can Be All You Need [51.79399904527525]
本稿では,加法的注意に基づく効率的なトランスフォーマーモデルであるFastformerを提案する。
Fastformerでは、トークン間のペアワイズインタラクションをモデル化する代わりに、まずグローバルコンテキストをモデル化するために追加アテンションメカニズムを使用します。
このように、Fastformerは線形複雑性を伴う効果的なコンテキストモデリングを実現することができる。
論文 参考訳(メタデータ) (2021-08-20T09:44:44Z) - StrucTexT: Structured Text Understanding with Multi-Modal Transformers [29.540122964399046]
Visually Rich Documents (VRD)における構造化テキスト理解は、ドキュメントインテリジェンスの重要な部分である。
本稿では,SrucTexTという統合フレームワークを提案する。
セグメントレベルおよびトークンレベルで構造化されたテキスト理解の手法を評価し,その手法が最先端のテキスト理解よりも優れていることを示す。
論文 参考訳(メタデータ) (2021-08-06T02:57:07Z) - Retrieve Fast, Rerank Smart: Cooperative and Joint Approaches for
Improved Cross-Modal Retrieval [80.35589927511667]
画像中のすべての単語やオブジェクトに係わるクロスアテンション機構を備えたTransformerベースのアーキテクチャを頼りに、クロスモーダル検索プロセスのテキストとビジュアルインプットへの最先端のアプローチ。
事前学習したテキスト画像のマルチモーダルモデルを効率的な検索モデルに変換する新しい微調整フレームワークを提案する。
我々は,モノリンガル,マルチリンガル,ゼロショットにおける一連の標準クロスモーダル検索ベンチマーク実験を行い,最先端クロスエンコーダに対する精度向上と大幅な効率向上を実証した。
論文 参考訳(メタデータ) (2021-03-22T15:08:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。