論文の概要: MADTP: Multimodal Alignment-Guided Dynamic Token Pruning for
Accelerating Vision-Language Transformer
- arxiv url: http://arxiv.org/abs/2403.02991v1
- Date: Tue, 5 Mar 2024 14:13:50 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-06 14:42:45.241489
- Title: MADTP: Multimodal Alignment-Guided Dynamic Token Pruning for
Accelerating Vision-Language Transformer
- Title(参考訳): MADTP:マルチモーダルアライメント誘導動的トーケンプルーニングによるビジョンランゲージ変換器の高速化
- Authors: Jianjian Cao and Peng Ye and Shengze Li and Chong Yu and Yansong Tang
and Jiwen Lu and Tao Chen
- Abstract要約: VLT(Vision-Language Transformer)は近年大きな成功を収めている。
各種VLTの高速化を目的としたマルチモーダルアライメント誘導動的トーケンプルーニング(MADTP)という新しいフレームワークを提案する。
- 参考スコア(独自算出の注目度): 66.71930982549028
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Vision-Language Transformers (VLTs) have shown great success recently, but
are meanwhile accompanied by heavy computation costs, where a major reason can
be attributed to the large number of visual and language tokens. Existing token
pruning research for compressing VLTs mainly follows a single-modality-based
scheme yet ignores the critical role of aligning different modalities for
guiding the token pruning process, causing the important tokens for one
modality to be falsely pruned in another modality branch. Meanwhile, existing
VLT pruning works also lack the flexibility to dynamically compress each layer
based on different input samples. To this end, we propose a novel framework
named Multimodal Alignment-Guided Dynamic Token Pruning (MADTP) for
accelerating various VLTs. Specifically, we first introduce a well-designed
Multi-modality Alignment Guidance (MAG) module that can align features of the
same semantic concept from different modalities, to ensure the pruned tokens
are less important for all modalities. We further design a novel Dynamic Token
Pruning (DTP) module, which can adaptively adjust the token compression ratio
in each layer based on different input instances. Extensive experiments on
various benchmarks demonstrate that MADTP significantly reduces the
computational complexity of kinds of multimodal models while preserving
competitive performance. Notably, when applied to the BLIP model in the NLVR2
dataset, MADTP can reduce the GFLOPs by 80% with less than 4% performance
degradation.
- Abstract(参考訳): 視覚言語トランスフォーマー(vlts)は近年大きな成功を収めているが、その一方で大きな計算コストが伴っている。
VLTを圧縮するための既存のトークンプルーニング研究は、主に単一モダリティに基づくスキームに従うが、トークンプルーニングプロセスを導くために異なるモダリティを整列させる重要な役割を無視し、あるモダリティの重要なトークンを別のモダリティブランチで誤ってプルーニングする。
一方、既存のVLTプルーニング作業では、異なる入力サンプルに基づいて各レイヤを動的に圧縮する柔軟性が欠けている。
そこで本研究では,様々なVLTの高速化を目的としたマルチモーダルアライメント誘導動的トケンプルーニング(MADTP)を提案する。
具体的には、我々はまず、異なるモダリティから同じ意味概念の特徴をアライメントできるよく設計されたマルチモダリティアライメントガイダンス(mag)モジュールを導入し、全てのモダリティに対して、プルーニングされたトークンが重要でないことを保証する。
さらに、異なる入力インスタンスに基づいて各レイヤのトークン圧縮比を適応的に調整できる新しい動的トークン・プルーニング(DTP)モジュールを設計する。
様々なベンチマーク実験により、MADTPは競争性能を保ちながら、マルチモーダルモデルの計算複雑性を著しく低減することが示された。
特に、NLVR2データセットのBLIPモデルに適用すると、MADTPはGFLOPを80%削減でき、性能劣化は4%以下である。
関連論文リスト
- VLTP: Vision-Language Guided Token Pruning for Task-Oriented Segmentation [18.9885501527331]
ビジョントランスフォーマー(ViT)は多くのセグメンテーションモデルのバックボーンとして登場し、常に最先端(SOTA)のパフォーマンスを実現している。
画像トークンのプルーニングは、この複雑さに対処する最も効果的な戦略の1つである。
この研究は、VLTP(Vision Language Guided Token Pruning)を導入し、ViTベースのセグメンテーションモデルを高速化する新しいトークンプルーニングメカニズムを紹介した。
論文 参考訳(メタデータ) (2024-09-13T01:30:24Z) - AdapMTL: Adaptive Pruning Framework for Multitask Learning Model [5.643658120200373]
AdapMTLはマルチタスクモデルのための適応型プルーニングフレームワークである。
複数のタスクにまたがって、空間割り当てと精度のパフォーマンスのバランスをとる。
最先端の刈り取り法に比べて優れた性能を示す。
論文 参考訳(メタデータ) (2024-08-07T17:19:15Z) - MULTIFLOW: Shifting Towards Task-Agnostic Vision-Language Pruning [28.254318215697527]
VLM(Vision-Language Model)は、多数のパラメータによって計算コストが高い。
VLMの既存の技術はタスク固有であり、新しいタスクごとにネットワークをスクラッチから切り離す必要がある。
タスク非依存型視覚言語計画(TA-Language Pruning:TA-Language Pruning)
TA言語のための第1のグラデーションフリー・プルーニングフレームワークであるMultimodal FlowPruning (MULTIFLOW)を提案する。
論文 参考訳(メタデータ) (2024-04-08T15:51:21Z) - Bi-directional Adapter for Multi-modal Tracking [67.01179868400229]
汎用の双方向アダプタを用いたマルチモーダル視覚プロンプト追跡モデルを提案する。
我々は、モーダリティ固有の情報をあるモーダリティから別のモーダリティへ転送するための、シンプルだが効果的なライト・フィーチャー・アダプタを開発した。
本モデルでは,完全微調整法と素早い学習法の両方と比較して,追跡性能が優れている。
論文 参考訳(メタデータ) (2023-12-17T05:27:31Z) - Lightweight In-Context Tuning for Multimodal Unified Models [57.10831399642176]
MultiModal In-conteXt Tuning (M$2$IXT)は、マルチモーダル統一モデルのICL機能を強化する軽量モジュールである。
最大50Kのマルチモーダルデータをチューニングすると、M$2$IXTは数ショットのICL性能を大幅に向上させることができる。
論文 参考訳(メタデータ) (2023-10-08T10:47:24Z) - FM-ViT: Flexible Modal Vision Transformers for Face Anti-Spoofing [88.6654909354382]
本稿では,顔のアンチ・スプーフィングのためのフレキシブル・モーダル・ビジョン・トランス (FM-ViT) と呼ばれる,純粋なトランスフォーマーベースのフレームワークを提案する。
FM-ViTは、利用可能なマルチモーダルデータの助けを借りて、任意の単一モーダル(すなわちRGB)攻撃シナリオを柔軟にターゲットすることができる。
実験により、FM-ViTに基づいてトレーニングされた単一モデルは、異なるモーダルサンプルを柔軟に評価できるだけでなく、既存のシングルモーダルフレームワークよりも大きなマージンで優れていることが示された。
論文 参考訳(メタデータ) (2023-05-05T04:28:48Z) - MA-ViT: Modality-Agnostic Vision Transformers for Face Anti-Spoofing [3.3031006227198003]
マルチモーダルデータの助けを借りて任意のモーダルアタックの性能を向上させることを目的としたモダリティ非依存型視覚変換器(MA-ViT)を提案する。
具体的には、MA-ViTは早期融合を採用し、利用可能なすべてのトレーニングモダリティデータを集約し、任意のモダリティサンプルの柔軟なテストを可能にする。
実験により、MA-ViTでトレーニングされた単一モデルは、異なるモーダルサンプルを柔軟に評価できるだけでなく、既存のシングルモーダルフレームワークよりも大きなマージンで優れていることが示された。
論文 参考訳(メタデータ) (2023-04-15T13:03:44Z) - Learning Visual Representation from Modality-Shared Contrastive
Language-Image Pre-training [88.80694147730883]
本稿では,多種多様なモダリティ共有コントラスト言語-画像事前学習(MS-CLIP)フレームワークについて検討する。
学習条件下では、視覚と言語信号のためのほとんど統一されたエンコーダが、より多くのパラメータを分離する他のすべてのバリエーションより優れていることが観察された。
我々のアプローチは、24の下流視覚タスクのコレクションに基づいて、線形探索においてバニラCLIPを1.6ポイント上回ります。
論文 参考訳(メタデータ) (2022-07-26T05:19:16Z) - Pruning Self-attentions into Convolutional Layers in Single Path [89.55361659622305]
ビジョントランスフォーマー(ViT)は、様々なコンピュータビジョンタスクに対して印象的なパフォーマンスを実現している。
トレーニング済みのViTを効率よく自動圧縮するSPViT(Single-Path Vision Transformer pruning)を提案する。
われわれのSPViTはDeiT-Bで52.0%のFLOPをトリミングできる。
論文 参考訳(メタデータ) (2021-11-23T11:35:54Z) - Dynamic Clone Transformer for Efficient Convolutional Neural Netwoks [0.0]
本稿では,多経路完全連結パターン(MPFC)という概念を導入し,位相パターンの相互依存性,精度,効率性を再考する。
MPFCにインスパイアされた動的クローントランス (DCT) と呼ばれるデュアルブランチモジュールを提案し、入力から複数の複製を生成する。
論文 参考訳(メタデータ) (2021-06-12T13:42:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。