論文の概要: Towards Efficient and Elastic Visual Question Answering with Doubly
Slimmable Transformer
- arxiv url: http://arxiv.org/abs/2203.12814v1
- Date: Thu, 24 Mar 2022 02:26:04 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-26 00:49:37.652362
- Title: Towards Efficient and Elastic Visual Question Answering with Doubly
Slimmable Transformer
- Title(参考訳): ダブルスリムな変圧器を用いた視覚的質問応答の効率化
- Authors: Zhou Yu, Zitian Jin, Jun Yu, Mingliang Xu, Jianping Fan
- Abstract要約: Doubly Slimmable Transformer (DST)は、任意のTransformerベースのVQAモデルにシームレスに統合できる一般的なフレームワークである。
1つのスリム化MCAN_DSTサブモデルはVQA-v2で同等の精度を実現し、モデルサイズは0.38倍小さく、FLOPは0.27倍少ない。
最小のMCAN_DSTサブモデルは、推論段階で9Mパラメータと0.16GのFLOPを持ち、エッジデバイスにデプロイできる。
- 参考スコア(独自算出の注目度): 81.15394185287087
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Transformer-based approaches have shown great success in visual question
answering (VQA). However, they usually require deep and wide models to
guarantee good performance, making it difficult to deploy on
capacity-restricted platforms. It is a challenging yet valuable task to design
an elastic VQA model that supports adaptive pruning at runtime to meet the
efficiency constraints of diverse platforms. In this paper, we present the
Doubly Slimmable Transformer (DST), a general framework that can be seamlessly
integrated into arbitrary Transformer-based VQA models to train one single
model once and obtain various slimmed submodels of different widths and depths.
Taking two typical Transformer-based VQA approaches, i.e., MCAN and UNITER, as
the reference models, the obtained slimmable MCAN_DST and UNITER_DST models
outperform the state-of-the-art methods trained independently on two benchmark
datasets. In particular, one slimmed MCAN_DST submodel achieves a comparable
accuracy on VQA-v2, while being 0.38x smaller in model size and having 0.27x
fewer FLOPs than the reference MCAN model. The smallest MCAN_DST submodel has
9M parameters and 0.16G FLOPs in the inference stage, making it possible to be
deployed on edge devices.
- Abstract(参考訳): トランスフォーマーに基づくアプローチは、視覚的質問応答(VQA)において大きな成功を収めている。
しかしながら、パフォーマンスを保証するために、通常は深いモデルと広いモデルを必要とするため、キャパシティ制限のあるプラットフォームにデプロイするのは困難である。
多様なプラットフォームの効率制約を満たすために、実行時に適応的なプルーニングをサポートする弾力性のあるVQAモデルを設計することは、難しいが価値のある作業である。
本稿では,Douubly Slimmable Transformer(DST)を提案する。このフレームワークは任意のTransformerベースのVQAモデルにシームレスに統合して,単一モデルを一度にトレーニングし,さまざまな幅と深さのスリム化サブモデルを得る。
2つの典型的なトランスフォーマーベースのVQAアプローチ、すなわちMCANとUNITERを基準モデルとして、得られたスリム化可能なMCAN_DSTとUNITER_DSTモデルは、2つのベンチマークデータセットで独立にトレーニングされた最先端の手法より優れている。
特に、1つのスリム化MCAN_DSTサブモデルはVQA-v2で同等の精度を達成し、モデルサイズは0.38倍小さく、参照MCANモデルよりも0.27倍小さいFLOPを持つ。
最小のMCAN_DSTサブモデルは、推論段階で9Mパラメータと0.16GのFLOPを持ち、エッジデバイスにデプロイできる。
関連論文リスト
- Transformers to SSMs: Distilling Quadratic Knowledge to Subquadratic Models [92.36510016591782]
本稿では,事前学習したトランスフォーマーアーキテクチャを,状態空間モデル(SSM)などの代替アーキテクチャに蒸留する手法を提案する。
提案手法はMOHAWKと呼ばれ、3Bトークンと5Bトークンを用いたハイブリッドバージョン(Hybrid Phi-Mamba)を用いてPhi-1.5アーキテクチャに基づくMamba-2変異体を蒸留することができる。
Phi-Mambaは、スクラッチからモデルのトレーニングに使用されるトレーニングデータの1%未満を使用してはいるが、過去のオープンソース非トランスフォーマーモデルと比較して、大幅にパフォーマンスが向上している。
論文 参考訳(メタデータ) (2024-08-19T17:48:11Z) - UniTST: Effectively Modeling Inter-Series and Intra-Series Dependencies for Multivariate Time Series Forecasting [98.12558945781693]
フラット化されたパッチトークンに統一された注意機構を含む変圧器ベースモデルUniTSTを提案する。
提案モデルでは単純なアーキテクチャを採用しているが,時系列予測のためのいくつかのデータセットの実験で示されたような,魅力的な性能を提供する。
論文 参考訳(メタデータ) (2024-06-07T14:39:28Z) - Monarch Mixer: A Simple Sub-Quadratic GEMM-Based Architecture [31.763186154430347]
新しいアーキテクチャであるMonarch Mixer (M2)を導入し、配列長とモデル次元の両方で同じサブクアクラティックプリミティブを使用する。
概念実証として,非因果型BERT型言語モデリング,ViT型分類,因果型GPT型言語モデリングの3分野におけるM2の性能について検討する。
非因果的 BERT スタイルのモデリングでは、M2 は BERT-base と BERT-large と GLUE の品質を最大 27% のパラメータで一致させ、最大 9.1$times のシーケンス長 4K でのスループット向上を実現した。
論文 参考訳(メタデータ) (2023-10-18T17:06:22Z) - MatFormer: Nested Transformer for Elastic Inference [94.1789252941718]
MatFormerは、様々なデプロイメント制約で弾力性を提供するように設計されたネストトランスフォーマーアーキテクチャである。
2.6BデコーダのみのMatFormer言語モデル(MatLM)は1.5Bから2.6Bまでの小さなモデルを抽出できることを示す。
また,MatFormerベースのViT(MatViT)エンコーダから抽出した小さなエンコーダは,適応的な大規模検索のための距離空間構造を保持する。
論文 参考訳(メタデータ) (2023-10-11T17:57:14Z) - Quantized Transformer Language Model Implementations on Edge Devices [1.2979415757860164]
Bidirectional Representations from Transformers (BERT) のような大規模なトランスフォーマーベースモデルは自然言語処理(NLP)アプリケーションに広く利用されている。
これらのモデルは最初、数百万のパラメータを持つ大きなコーパスで事前訓練され、下流のNLPタスクのために微調整される。
これらの大規模モデルの大きな制限の1つは、大きなモデルサイズと推論遅延の増加のため、リソース制限されたデバイスにデプロイできないことである。
論文 参考訳(メタデータ) (2023-10-06T01:59:19Z) - Efficiently Scaling Transformer Inference [8.196193683641582]
本稿では,トランスフォーマーモデルにおける効率的な生成推論の問題について,最も困難な設定の1つとして検討する。
我々は,TPU v4スライスに最適化された最適多次元分割手法を選択するための,推論効率の簡易な解析モデルを開発した。
我々は,入力トークンの大規模処理において,発生時に1トークンあたり29msの低バッチレイテンシを実現する(Int8重み量子化)。
論文 参考訳(メタデータ) (2022-11-09T18:50:38Z) - Vision Transformer Slimming: Multi-Dimension Searching in Continuous
Optimization Space [35.04846842178276]
複数の次元にまたがってそのようなサブ構造を探索できる純粋視覚トランスフォーマースライミング(ViT-Slim)フレームワークを導入する。
本手法は,各次元の連続探索空間におけるグローバルな重要性を反映した,事前定義された因子による学習可能かつ統一されたl1空間制約に基づく。
我々のViT-Slimは、パラメータの最大40%と様々な視覚変換器上でのFLOPを圧縮でき、ImageNetの精度は0.6%向上する。
論文 参考訳(メタデータ) (2022-01-03T18:59:54Z) - Pruning Self-attentions into Convolutional Layers in Single Path [89.55361659622305]
ビジョントランスフォーマー(ViT)は、様々なコンピュータビジョンタスクに対して印象的なパフォーマンスを実現している。
トレーニング済みのViTを効率よく自動圧縮するSPViT(Single-Path Vision Transformer pruning)を提案する。
われわれのSPViTはDeiT-Bで52.0%のFLOPをトリミングできる。
論文 参考訳(メタデータ) (2021-11-23T11:35:54Z) - Global Vision Transformer Pruning with Hessian-Aware Saliency [93.33895899995224]
この研究はヴィジュアルトランスフォーマー(ViT)モデルの共通設計哲学に挑戦する。
遅延を意識した規則化による直接遅延低減を実現し,すべての層や構造に匹敵する新しいヘッセン型構造解析基準を導出する。
DeiT-Baseモデルで反復的なプルーニングを実行すると、NViT(Novel ViT)と呼ばれる新しいアーキテクチャファミリが生まれ、パラメータをより効率的に利用する新しいパラメータが現れる。
論文 参考訳(メタデータ) (2021-10-10T18:04:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。