Fugu-MT 論文翻訳(概要): Fast-StrucTexT: An Efficient Hourglass Transformer with Modality-guided Dynamic Token Merge for Document Understanding

論文の概要: Fast-StrucTexT: An Efficient Hourglass Transformer with Modality-guided Dynamic Token Merge for Document Understanding

arxiv url: http://arxiv.org/abs/2305.11392v1
Date: Fri, 19 May 2023 02:42:35 GMT
ステータス: 翻訳完了
システム内更新日: 2023-05-22 16:32:12.852742
Title: Fast-StrucTexT: An Efficient Hourglass Transformer with Modality-guided Dynamic Token Merge for Document Understanding
Title（参考訳）: Fast-StrucTexT: 文書理解のためのモダリティ誘導動的トーケンマージを用いた高効率フールグラストランス
Authors: Mingliang Zhai, Yulin Li, Xiameng Qin, Chen Yi, Qunyi Xie, Chengquan Zhang, Kun Yao, Yuwei Wu, Yunde Jia
Abstract要約: 一般的な効率的な変換器は、直接モデル文書に適合させることが困難である。 Fast-StrucTexTは、時間ガラストランスアーキテクチャを備えたStrucTexTアルゴリズムに基づく効率的なマルチモーダルフレームワークである。提案モデルでは,最先端の手法よりも約1.9倍高速な推論時間を実現する。
参考スコア（独自算出の注目度）: 40.322453628755376
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Transformers achieve promising performance in document understanding because of their high effectiveness and still suffer from quadratic computational complexity dependency on the sequence length. General efficient transformers are challenging to be directly adapted to model document. They are unable to handle the layout representation in documents, e.g. word, line and paragraph, on different granularity levels and seem hard to achieve a good trade-off between efficiency and performance. To tackle the concerns, we propose Fast-StrucTexT, an efficient multi-modal framework based on the StrucTexT algorithm with an hourglass transformer architecture, for visual document understanding. Specifically, we design a modality-guided dynamic token merging block to make the model learn multi-granularity representation and prunes redundant tokens. Additionally, we present a multi-modal interaction module called Symmetry Cross Attention (SCA) to consider multi-modal fusion and efficiently guide the token mergence. The SCA allows one modality input as query to calculate cross attention with another modality in a dual phase. Extensive experiments on FUNSD, SROIE, and CORD datasets demonstrate that our model achieves the state-of-the-art performance and almost 1.9X faster inference time than the state-of-the-art methods.
Abstract（参考訳）: 変換器はその有効性が高いため文書理解において有望な性能を達成し、シークエンス長の2次計算複雑性に悩まされている。一般的な効率的なトランスフォーマーは、モデル文書に直接適応することが困難である。彼らは、単語、行、段落などの文書のレイアウト表現を異なる粒度レベルで扱うことができず、効率と性能の良好なトレードオフを達成できないように思える。そこで本研究では,砂時計トランスフォーマーアーキテクチャを用いた構造体アルゴリズムに基づく効率的なマルチモーダルフレームワークであるfast-structextを提案する。具体的には、モーダリティ誘導型動的トークンマージブロックを設計し、モデルを多粒度表現を学習させ、冗長トークンを創発する。さらに,マルチモーダル融合を考慮し,トークンマージを効率的に導くために,対称クロスアテンション(sca)と呼ばれるマルチモーダルインタラクションモジュールを提案する。 SCAでは、クエリとして1つのモダリティ入力を2つのフェーズで別のモダリティでクロスアテンションを計算することができる。 FUNSD, SROIE, CORDデータセットの大規模な実験により、我々のモデルは最先端の手法よりも1.9倍高速な推論時間を実現することが示された。

関連論文リスト

Sliding Window Attention Training for Efficient Large Language Models [55.56483740523027]
SWATを導入し,スライディングウインドウ・アテンション・トレーニング(Sliding Window Attention Training)により,より効率的な長文処理を実現する。本稿では,まず,変圧器の非効率性について,ソフトマックス動作のばらつきから生じる注意シンク現象を考察する。実験により、SWATは8つのベンチマーク上での最先端の線形リカレントアーキテクチャと比較してSOTA性能を達成することが示された。
論文参考訳（メタデータ） (2025-02-26T05:31:44Z)
AsCAN: Asymmetric Convolution-Attention Networks for Efficient Recognition and Generation [48.82264764771652]
本稿では,畳み込みブロックと変圧器ブロックを組み合わせたハイブリッドアーキテクチャAsCANを紹介する。 AsCANは、認識、セグメンテーション、クラス条件画像生成など、さまざまなタスクをサポートしている。次に、同じアーキテクチャをスケールして、大規模なテキスト・イメージタスクを解決し、最先端のパフォーマンスを示す。
論文参考訳（メタデータ） (2024-11-07T18:43:17Z)
Hierarchical Multi-modal Transformer for Cross-modal Long Document Classification [74.45521856327001]
階層構造テキストと埋め込み画像で長い文書を分類する方法は、新しい問題である。本稿では,階層型マルチモーダル変換器 (HMT) を用いたクロスモーダルな文書分類手法を提案する。本稿では,マルチモーダル変換器と動的マルチスケールマルチモーダル変換器を用いて,画像特徴とセクションと文特徴の複雑な関係をモデル化する。
論文参考訳（メタデータ） (2024-07-14T07:12:25Z)
Perceiving Longer Sequences With Bi-Directional Cross-Attention Transformers [13.480259378415505]
BiXTは、計算コストとメモリ消費の観点から、入力サイズと線形にスケールする。 BiXTはPerceiverアーキテクチャにインスパイアされているが、反復的な注意を効率よく双方向のクロスアテンションモジュールに置き換える。効率性とフルトランスフォーマーアーキテクチャの汎用性と性能を組み合わせることで、BiXTはより長いシーケンスを処理できる。
論文参考訳（メタデータ） (2024-02-19T13:38:15Z)
CrossGET: Cross-Guided Ensemble of Tokens for Accelerating Vision-Language Transformers [53.224004166460254]
本稿では,視覚言語変換のための一般的なアクセラレーションフレームワークであるクロスガイド・アンサンブル・オブ・トークン(CrossGET)を紹介する。 CrossGETは推論中にリアルタイムでトークンを適応的に結合し、計算コストを大幅に削減する。画像テキスト検索、視覚的推論、画像キャプション、視覚的質問応答など、様々な視覚言語タスクの実験が行われている。
論文参考訳（メタデータ） (2023-05-27T12:07:21Z)
Fastformer: Additive Attention Can Be All You Need [51.79399904527525]
本稿では,加法的注意に基づく効率的なトランスフォーマーモデルであるFastformerを提案する。 Fastformerでは、トークン間のペアワイズインタラクションをモデル化する代わりに、まずグローバルコンテキストをモデル化するために追加アテンションメカニズムを使用します。このように、Fastformerは線形複雑性を伴う効果的なコンテキストモデリングを実現することができる。
論文参考訳（メタデータ） (2021-08-20T09:44:44Z)
Retrieve Fast, Rerank Smart: Cooperative and Joint Approaches for Improved Cross-Modal Retrieval [80.35589927511667]
画像中のすべての単語やオブジェクトに係わるクロスアテンション機構を備えたTransformerベースのアーキテクチャを頼りに、クロスモーダル検索プロセスのテキストとビジュアルインプットへの最先端のアプローチ。事前学習したテキスト画像のマルチモーダルモデルを効率的な検索モデルに変換する新しい微調整フレームワークを提案する。我々は,モノリンガル,マルチリンガル,ゼロショットにおける一連の標準クロスモーダル検索ベンチマーク実験を行い,最先端クロスエンコーダに対する精度向上と大幅な効率向上を実証した。
論文参考訳（メタデータ） (2021-03-22T15:08:06Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。