論文の概要: Bilaterally Slimmable Transformer for Elastic and Efficient Visual
Question Answering
- arxiv url: http://arxiv.org/abs/2203.12814v2
- Date: Fri, 12 May 2023 15:15:16 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-15 16:42:30.396928
- Title: Bilaterally Slimmable Transformer for Elastic and Efficient Visual
Question Answering
- Title(参考訳): 弾性・高能率視覚質問応答のための両側スリム化トランス
- Authors: Zhou Yu, Zitian Jin, Jun Yu, Mingliang Xu, Hongbo Wang, Jianping Fan
- Abstract要約: 左右にスリム化可能なトランスフォーマー(BST)は任意のトランスフォーマーベースのVQAモデルに統合される。
1つのスリム化MCAN-BSTサブモデルは、VQA-v2で同等の精度を達成する。
最も小さなMCAN-BSTサブモデルは、推論中に9Mパラメータと0.16GのFLOPを持つ。
- 参考スコア(独自算出の注目度): 75.86788916930377
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent advances in Transformer architectures [1] have brought remarkable
improvements to visual question answering (VQA). Nevertheless,
Transformer-based VQA models are usually deep and wide to guarantee good
performance, so they can only run on powerful GPU servers and cannot run on
capacity-restricted platforms such as mobile phones. Therefore, it is desirable
to learn an elastic VQA model that supports adaptive pruning at runtime to meet
the efficiency constraints of different platforms. To this end, we present the
bilaterally slimmable Transformer (BST), a general framework that can be
seamlessly integrated into arbitrary Transformer-based VQA models to train a
single model once and obtain various slimmed submodels of different widths and
depths. To verify the effectiveness and generality of this method, we integrate
the proposed BST framework with three typical Transformer-based VQA approaches,
namely MCAN [2], UNITER [3], and CLIP-ViL [4], and conduct extensive
experiments on two commonly-used benchmark datasets. In particular, one slimmed
MCAN-BST submodel achieves comparable accuracy on VQA-v2, while being 0.38x
smaller in model size and having 0.27x fewer FLOPs than the reference MCAN
model. The smallest MCAN-BST submodel only has 9M parameters and 0.16G FLOPs
during inference, making it possible to deploy it on a mobile device with less
than 60 ms latency.
- Abstract(参考訳): トランスフォーマーアーキテクチャの最近の進歩[1]は視覚的質問応答(VQA)に顕著な改善をもたらした。
それにもかかわらず、TransformerベースのVQAモデルは通常、優れたパフォーマンスを保証するために深く幅が広いため、強力なGPUサーバ上でのみ動作でき、携帯電話のような容量制限のあるプラットフォーム上では動作できない。
したがって、異なるプラットフォームの効率制約を満たすために、実行時に適応的なプルーニングをサポートする弾性VQAモデルを学習することが望ましい。
この目的のために、任意のTransformerベースのVQAモデルにシームレスに統合し、1つのモデルをトレーニングし、異なる幅と深さの様々なスリム化サブモデルを得ることのできる、両側スリム化可能なTransformer (BST) を提案する。
本手法の有効性と汎用性を検証するため,提案手法のBSTフレームワークを,MCAN [2], UNITER [3], CLIP-ViL [4] の3つの典型的なトランスフォーマーベースのVQAアプローチと統合し,2つの一般的なベンチマークデータセットに対して広範な実験を行う。
特に、1つのスリム化MCAN-BSTサブモデルはVQA-v2で同等の精度を達成し、モデルサイズは0.38倍小さく、参照MCANモデルよりも0.27倍小さいFLOPを持つ。
最小のMCAN-BSTサブモデルは、推論中に9Mパラメータと0.16GのFLOPしか持たないため、60ミリ秒未満のレイテンシでモバイルデバイスにデプロイできる。
関連論文リスト
- Transformers to SSMs: Distilling Quadratic Knowledge to Subquadratic Models [92.36510016591782]
本稿では,事前学習したトランスフォーマーアーキテクチャを,状態空間モデル(SSM)などの代替アーキテクチャに蒸留する手法を提案する。
提案手法はMOHAWKと呼ばれ、3Bトークンと5Bトークンを用いたハイブリッドバージョン(Hybrid Phi-Mamba)を用いてPhi-1.5アーキテクチャに基づくMamba-2変異体を蒸留することができる。
Phi-Mambaは、スクラッチからモデルのトレーニングに使用されるトレーニングデータの1%未満を使用してはいるが、過去のオープンソース非トランスフォーマーモデルと比較して、大幅にパフォーマンスが向上している。
論文 参考訳(メタデータ) (2024-08-19T17:48:11Z) - UniTST: Effectively Modeling Inter-Series and Intra-Series Dependencies for Multivariate Time Series Forecasting [98.12558945781693]
フラット化されたパッチトークンに統一された注意機構を含む変圧器ベースモデルUniTSTを提案する。
提案モデルでは単純なアーキテクチャを採用しているが,時系列予測のためのいくつかのデータセットの実験で示されたような,魅力的な性能を提供する。
論文 参考訳(メタデータ) (2024-06-07T14:39:28Z) - Monarch Mixer: A Simple Sub-Quadratic GEMM-Based Architecture [31.763186154430347]
新しいアーキテクチャであるMonarch Mixer (M2)を導入し、配列長とモデル次元の両方で同じサブクアクラティックプリミティブを使用する。
概念実証として,非因果型BERT型言語モデリング,ViT型分類,因果型GPT型言語モデリングの3分野におけるM2の性能について検討する。
非因果的 BERT スタイルのモデリングでは、M2 は BERT-base と BERT-large と GLUE の品質を最大 27% のパラメータで一致させ、最大 9.1$times のシーケンス長 4K でのスループット向上を実現した。
論文 参考訳(メタデータ) (2023-10-18T17:06:22Z) - MatFormer: Nested Transformer for Elastic Inference [94.1789252941718]
MatFormerは、様々なデプロイメント制約で弾力性を提供するように設計されたネストトランスフォーマーアーキテクチャである。
2.6BデコーダのみのMatFormer言語モデル(MatLM)は1.5Bから2.6Bまでの小さなモデルを抽出できることを示す。
また,MatFormerベースのViT(MatViT)エンコーダから抽出した小さなエンコーダは,適応的な大規模検索のための距離空間構造を保持する。
論文 参考訳(メタデータ) (2023-10-11T17:57:14Z) - Quantized Transformer Language Model Implementations on Edge Devices [1.2979415757860164]
Bidirectional Representations from Transformers (BERT) のような大規模なトランスフォーマーベースモデルは自然言語処理(NLP)アプリケーションに広く利用されている。
これらのモデルは最初、数百万のパラメータを持つ大きなコーパスで事前訓練され、下流のNLPタスクのために微調整される。
これらの大規模モデルの大きな制限の1つは、大きなモデルサイズと推論遅延の増加のため、リソース制限されたデバイスにデプロイできないことである。
論文 参考訳(メタデータ) (2023-10-06T01:59:19Z) - Efficiently Scaling Transformer Inference [8.196193683641582]
本稿では,トランスフォーマーモデルにおける効率的な生成推論の問題について,最も困難な設定の1つとして検討する。
我々は,TPU v4スライスに最適化された最適多次元分割手法を選択するための,推論効率の簡易な解析モデルを開発した。
我々は,入力トークンの大規模処理において,発生時に1トークンあたり29msの低バッチレイテンシを実現する(Int8重み量子化)。
論文 参考訳(メタデータ) (2022-11-09T18:50:38Z) - Vision Transformer Slimming: Multi-Dimension Searching in Continuous
Optimization Space [35.04846842178276]
複数の次元にまたがってそのようなサブ構造を探索できる純粋視覚トランスフォーマースライミング(ViT-Slim)フレームワークを導入する。
本手法は,各次元の連続探索空間におけるグローバルな重要性を反映した,事前定義された因子による学習可能かつ統一されたl1空間制約に基づく。
我々のViT-Slimは、パラメータの最大40%と様々な視覚変換器上でのFLOPを圧縮でき、ImageNetの精度は0.6%向上する。
論文 参考訳(メタデータ) (2022-01-03T18:59:54Z) - Pruning Self-attentions into Convolutional Layers in Single Path [89.55361659622305]
ビジョントランスフォーマー(ViT)は、様々なコンピュータビジョンタスクに対して印象的なパフォーマンスを実現している。
トレーニング済みのViTを効率よく自動圧縮するSPViT(Single-Path Vision Transformer pruning)を提案する。
われわれのSPViTはDeiT-Bで52.0%のFLOPをトリミングできる。
論文 参考訳(メタデータ) (2021-11-23T11:35:54Z) - Global Vision Transformer Pruning with Hessian-Aware Saliency [93.33895899995224]
この研究はヴィジュアルトランスフォーマー(ViT)モデルの共通設計哲学に挑戦する。
遅延を意識した規則化による直接遅延低減を実現し,すべての層や構造に匹敵する新しいヘッセン型構造解析基準を導出する。
DeiT-Baseモデルで反復的なプルーニングを実行すると、NViT(Novel ViT)と呼ばれる新しいアーキテクチャファミリが生まれ、パラメータをより効率的に利用する新しいパラメータが現れる。
論文 参考訳(メタデータ) (2021-10-10T18:04:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。