論文の概要: Pruning Self-attentions into Convolutional Layers in Single Path
- arxiv url: http://arxiv.org/abs/2111.11802v1
- Date: Tue, 23 Nov 2021 11:35:54 GMT
- ステータス: 処理完了
- システム内更新日: 2021-11-24 23:11:45.297261
- Title: Pruning Self-attentions into Convolutional Layers in Single Path
- Title(参考訳): 単一経路の畳み込み層に自己注意を吹き込む
- Authors: Haoyu He, Jing Liu, Zizheng Pan, Jianfei Cai, Jing Zhang, Dacheng Tao,
Bohan Zhuang
- Abstract要約: ビジョントランスフォーマー(ViT)は、様々なコンピュータビジョンタスクに対して印象的なパフォーマンスを実現している。
本稿では,MSAと畳み込み操作の新たな重み付け手法を提案し,各MSA層で使用するパラメータのサブセットを探索問題とみなす。
提案手法が良好な精度・効率のトレードオフを実現することを示す2つの代表的なViTモデルについて広範な実験を行った。
- 参考スコア(独自算出の注目度): 112.8673860548571
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Vision Transformers (ViTs) have achieved impressive performance over various
computer vision tasks. However, modeling global correlations with multi-head
self-attention (MSA) layers leads to two widely recognized issues: the massive
computational resource consumption and the lack of intrinsic inductive bias for
modeling local visual patterns. One unified solution is to search whether to
replace some MSA layers with convolution-like inductive biases that are
computationally efficient via neural architecture search (NAS) based pruning
methods. However, maintaining MSA and different candidate convolutional
operations as separate trainable paths gives rise to expensive search cost and
challenging optimization. Instead, we propose a novel weight-sharing scheme
between MSA and convolutional operations and cast the search problem as finding
which subset of parameters to use in each MSA layer. The weight-sharing scheme
further allows us to devise an automatic Single-Path Vision Transformer pruning
method (SPViT) to quickly prune the pre-trained ViTs into accurate and compact
hybrid models with significantly reduced search cost, given target efficiency
constraints. We conduct extensive experiments on two representative ViT models
showing our method achieves a favorable accuracy-efficiency trade-off. Code is
available at https://github.com/zhuang-group/SPViT.
- Abstract(参考訳): 視覚トランスフォーマー (vits) は様々なコンピュータビジョンタスクで素晴らしい性能を達成している。
しかしながら、msa(multi-head self-attention)層とのグローバル相関のモデリングは、大きな計算リソースの消費と、局所的な視覚パターンのモデリングに固有の帰納的バイアスの欠如という、2つの広く認識される問題に繋がる。
統一された解決策の1つは、いくつかのMSA層を、ニューラルアーキテクチャサーチ(NAS)ベースのプルーニング手法によって計算的に効率的である畳み込みのような帰納バイアスに置き換えるかどうかである。
しかし、MSAと異なる候補畳み込み操作を個別に訓練可能な経路として維持することは、高価な探索コストと挑戦的な最適化をもたらす。
そこで本研究では,MSAと畳み込み操作のウェイトシェアリング手法を提案し,各MSA層で使用するパラメータのサブセットを探索問題とみなす。
さらに, 重み共有方式により, 目標効率制約を考慮すれば, 事前学習したvitsを精度良くコンパクトなハイブリッドモデルに素早く投入できるspvit (singing automatic single-path vision transformer pruning method) を考案することができる。
提案手法が良好な精度・効率のトレードオフを実現することを示す2つの代表的なViTモデルについて広範な実験を行った。
コードはhttps://github.com/zhuang-group/spvitで入手できる。
関連論文リスト
- Sparse-Tuning: Adapting Vision Transformers with Efficient Fine-tuning and Inference [14.030836300221756]
textbfSparse-Tuningは、画像やビデオの情報冗長性を考慮に入れた新しいPEFTメソッドである。
Sparse-Tuningは各層で処理されるトークンの量を最小限に抑え、計算とメモリのオーバーヘッドを2次的に削減する。
我々のSparse-TuningはGFLOPsを62%-70%に削減し,最先端性能を実現した。
論文 参考訳(メタデータ) (2024-05-23T15:34:53Z) - Edge-MoE: Memory-Efficient Multi-Task Vision Transformer Architecture
with Task-level Sparsity via Mixture-of-Experts [60.1586169973792]
M$3$ViTは、Mix-of-experts (MoE)を導入した最新のマルチタスクViTモデルである。
MoEは精度の向上と80%以上の削減計算を実現しているが、FPGAに効率的なデプロイを行う上での課題は残されている。
Edge-MoEと呼ばれる私たちの研究は、アーキテクチャの革新の集合を伴って、マルチタスクのViTのための最初のエンドツーエンドFPGAアクセラレータを導入するという課題を解決します。
論文 参考訳(メタデータ) (2023-05-30T02:24:03Z) - Parameter-efficient Tuning of Large-scale Multimodal Foundation Model [68.24510810095802]
我々はこれらの課題を克服するために、クロスモーダル転送(Aurora)のための優雅なプロンプトフレームワークを提案する。
既存のアーキテクチャの冗長性を考慮すると、まずモード近似を用いて0.1Mのトレーニング可能なパラメータを生成し、マルチモーダルプロンプトチューニングを実装する。
6つのクロスモーダルベンチマークの徹底的な評価は、最先端のベンチマークを上回るだけでなく、完全な微調整アプローチよりも優れていることを示している。
論文 参考訳(メタデータ) (2023-05-15T06:40:56Z) - DilateFormer: Multi-Scale Dilated Transformer for Visual Recognition [62.95223898214866]
我々は,視覚変換器の有効性を探究し,参加する受容領域の計算複雑性とサイズとのトレードオフを追求する。
ピラミッドアーキテクチャを用いて,MSDAブロックを低レベルに積み重ねたマルチスケールDilated Transformer (DilateFormer) と,高レベルにグローバルなマルチヘッド自己保持ブロックを構築する。
実験の結果,DilateFormerは様々な視覚タスクで最先端のパフォーマンスを実現していることがわかった。
論文 参考訳(メタデータ) (2023-02-03T14:59:31Z) - Rethinking Hierarchicies in Pre-trained Plain Vision Transformer [76.35955924137986]
マスク付き画像モデリング(MIM)による自己教師付き事前学習型視覚変換器(ViT)は非常に効果的であることが証明されている。
カスタマイズされたアルゴリズムは、平易なViTのためにバニラと単純なMAEを使用する代わりに、例えばGreenMIMのような階層的なViTのために慎重に設計されるべきである。
本稿では,自己指導型事前学習から階層型アーキテクチャ設計を遠ざける新しいアイデアを提案する。
論文 参考訳(メタデータ) (2022-11-03T13:19:23Z) - ViTAEv2: Vision Transformer Advanced by Exploring Inductive Bias for
Image Recognition and Beyond [76.35955924137986]
我々は、内在性IBを畳み込み、すなわちViTAEから探索するビジョントランスフォーマーを提案する。
ViTAEはいくつかの空間ピラミッド縮小モジュールを備えており、入力イメージをリッチなマルチスケールコンテキストでトークンに埋め込む。
我々は、ImageNet検証セット上で88.5%のTop-1分類精度と、ImageNet実検証セット上で最高の91.2%のTop-1分類精度を得る。
論文 参考訳(メタデータ) (2022-02-21T10:40:05Z) - SimViT: Exploring a Simple Vision Transformer with sliding windows [3.3107339588116123]
視覚変換器に空間構造と局所情報を組み込む視覚変換器SimViTを導入する。
SimViTは、密集予測タスクのために異なるレイヤからマルチスケール階層的特徴を抽出する。
私たちのSimViT-Microは、ImageNet-1kデータセットで71.1%のトップ-1の精度を達成するのに、3.3Mパラメータしか必要としない。
論文 参考訳(メタデータ) (2021-12-24T15:18:20Z) - FQ-ViT: Fully Quantized Vision Transformer without Retraining [13.82845665713633]
本稿では,量子変換器の性能劣化と推論の複雑さを低減するための系統的手法を提案する。
完全に量子化された視覚変換器上で、我々は初めて精度の劣化(1%)を達成した。
論文 参考訳(メタデータ) (2021-11-27T06:20:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。