論文の概要: Efficient Low-rank Backpropagation for Vision Transformer Adaptation
- arxiv url: http://arxiv.org/abs/2309.15275v1
- Date: Tue, 26 Sep 2023 21:27:55 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-28 17:39:57.373867
- Title: Efficient Low-rank Backpropagation for Vision Transformer Adaptation
- Title(参考訳): 視覚変圧器適応のための効率的低ランクバックプロパゲーション
- Authors: Yuedong Yang, Hung-Yueh Chiang, Guihong Li, Diana Marculescu, Radu
Marculescu
- Abstract要約: 本稿では,Walsh-Hadamard Transformation (LBP-WHT) 法による新しい低ランクバック伝搬を提案する。
複数のデータセット上で異なるモデル(ViT、ハイブリッド畳み込み-ViTモデル)を用いて広範な実験を行い、本手法の有効性を実証する。
我々のLBP-WHTは、最先端のベースラインよりも10.4%高い精度を達成し、9MFLOPの計算を少なくする。
- 参考スコア(独自算出の注目度): 22.13114472923292
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: The increasing scale of vision transformers (ViT) has made the efficient
fine-tuning of these large models for specific needs a significant challenge in
various applications. This issue originates from the computationally demanding
matrix multiplications required during the backpropagation process through
linear layers in ViT. In this paper, we tackle this problem by proposing a new
Low-rank BackPropagation via Walsh-Hadamard Transformation (LBP-WHT) method.
Intuitively, LBP-WHT projects the gradient into a low-rank space and carries
out backpropagation. This approach substantially reduces the computation needed
for adapting ViT, as matrix multiplication in the low-rank space is far less
resource-intensive. We conduct extensive experiments with different models
(ViT, hybrid convolution-ViT model) on multiple datasets to demonstrate the
effectiveness of our method. For instance, when adapting an EfficientFormer-L1
model on CIFAR100, our LBP-WHT achieves 10.4% higher accuracy than the
state-of-the-art baseline, while requiring 9 MFLOPs less computation. As the
first work to accelerate ViT adaptation with low-rank backpropagation, our
LBP-WHT method is complementary to many prior efforts and can be combined with
them for better performance.
- Abstract(参考訳): 視覚変換器(ViT)の規模が増大するにつれて、これらの大きなモデルの特定のニーズに対する効率的な微調整が様々なアプリケーションにおいて大きな課題となっている。
この問題は、ViTの線形層を通したバックプロパゲーションプロセスで必要となる計算的に要求される行列乗法に由来する。
本稿では,Walsh-Hadamard Transformation (LBP-WHT) 法を用いた新しい低ランクバックプロパゲーションを提案する。
直感的には、lpp-whtは勾配を低ランク空間に投影し、バックプロパゲーションを行う。
このアプローチは、低ランク空間における行列乗算がリソース集約的でないため、ViTの適応に必要な計算を大幅に削減する。
複数のデータセット上で異なるモデル(ViT、ハイブリッド畳み込み-ViTモデル)を用いて広範な実験を行い、本手法の有効性を実証する。
例えば、CIFAR100上でEfficientFormer-L1モデルを適用する場合、当社のLBP-WHTは、最先端のベースラインよりも10.4%高い精度を達成できます。
低ランクバックプロパゲーションによるViT適応を高速化する最初の試みとして, LBP-WHT法は従来の多くの取り組みと相補的であり, 性能向上のために組み合わせることができる。
関連論文リスト
- Parameter and Computation Efficient Transfer Learning for
Vision-Language Pre-trained Models [79.34513906324727]
本稿では,視覚言語事前学習モデルのためのパラメータと効率的な伝達学習(PCETL)を提案する。
そこで本研究では,新しい動的アーキテクチャスキップ(DAS)アプローチを効果的PCETLに適用する。
論文 参考訳(メタデータ) (2023-09-04T09:34:33Z) - Q-HyViT: Post-Training Quantization for Hybrid Vision Transformer with
Bridge Block Reconstruction [24.6483678157947]
視覚変換器(ViT)は、分類、検出、セグメンテーションを含む多くのアプリケーションで畳み込みニューラルネットワークに取って代わられている。
本稿では,効率的なハイブリッドViTの量子化を初めて行うポストトレーニング量子化手法を提案する。
論文 参考訳(メタデータ) (2023-03-22T13:41:22Z) - GOHSP: A Unified Framework of Graph and Optimization-based Heterogeneous
Structured Pruning for Vision Transformer [76.2625311630021]
視覚変換器(ViT)は、様々なコンピュータビジョンタスクにおいて非常に印象的な経験的性能を示している。
この問題を緩和するために、構造化プルーニングはモデルサイズを圧縮し、実用的な効率を実現するための有望な解決策である。
グラフと最適化に基づく構造的プルーニング(Structured Pruning)を統合化したフレームワークであるGOHSPを提案する。
論文 参考訳(メタデータ) (2023-01-13T00:40:24Z) - Q-ViT: Accurate and Fully Quantized Low-bit Vision Transformer [56.87383229709899]
我々は、完全量子化視覚変換器(Q-ViT)のための情報修正モジュール(IRM)と分配誘導蒸留法を開発した。
我々の手法は、先行技術よりもはるかに優れたパフォーマンスを実現している。
論文 参考訳(メタデータ) (2022-10-13T04:00:29Z) - EIT: Efficiently Lead Inductive Biases to ViT [17.66805405320505]
ViT(Vision Transformer)は、畳み込みニューラルネットワークに固有の帰納バイアスに類似した特性に依存する。
本稿では, インダクティブバイアスをViT(EIT)に効率よく導くアーキテクチャを提案し, インダクティブバイアスをViTの両相に効果的に導くことができる。
ViTと比較して4つの一般的な小規模データセットでは、EITは平均12.6%の精度向上であり、パラメータやFLOPは少ない。
論文 参考訳(メタデータ) (2022-03-14T14:01:17Z) - Multi-Dimensional Model Compression of Vision Transformer [21.8311401851523]
近年、視覚変換器 (ViT) が注目されているが、その膨大な計算コストは実用的展開において問題となっている。
従来のViTプルーニング法は、モデルを1次元だけに沿ってプルークする傾向がある。
我々は,多次元のViT圧縮パラダイムを提唱し,アテンションヘッド,ニューロン,シーケンス次元からの冗長性低減を共同で行うことを提案する。
論文 参考訳(メタデータ) (2021-12-31T19:54:18Z) - AdaViT: Adaptive Tokens for Efficient Vision Transformer [91.88404546243113]
本稿では,視覚変換器(ViT)の推論コストを,複雑さの異なる画像に対して適応的に調整する手法であるAdaViTを紹介する。
AdaViTは、推論が進むにつれてネットワーク内で処理されるビジョントランスフォーマーのトークン数を自動で削減することで、これを実現する。
論文 参考訳(メタデータ) (2021-12-14T18:56:07Z) - Pruning Self-attentions into Convolutional Layers in Single Path [89.55361659622305]
ビジョントランスフォーマー(ViT)は、様々なコンピュータビジョンタスクに対して印象的なパフォーマンスを実現している。
トレーニング済みのViTを効率よく自動圧縮するSPViT(Single-Path Vision Transformer pruning)を提案する。
われわれのSPViTはDeiT-Bで52.0%のFLOPをトリミングできる。
論文 参考訳(メタデータ) (2021-11-23T11:35:54Z) - Global Vision Transformer Pruning with Hessian-Aware Saliency [93.33895899995224]
この研究はヴィジュアルトランスフォーマー(ViT)モデルの共通設計哲学に挑戦する。
遅延を意識した規則化による直接遅延低減を実現し,すべての層や構造に匹敵する新しいヘッセン型構造解析基準を導出する。
DeiT-Baseモデルで反復的なプルーニングを実行すると、NViT(Novel ViT)と呼ばれる新しいアーキテクチャファミリが生まれ、パラメータをより効率的に利用する新しいパラメータが現れる。
論文 参考訳(メタデータ) (2021-10-10T18:04:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。