論文の概要: Efficient Low-rank Backpropagation for Vision Transformer Adaptation
- arxiv url: http://arxiv.org/abs/2309.15275v1
- Date: Tue, 26 Sep 2023 21:27:55 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-28 17:39:57.373867
- Title: Efficient Low-rank Backpropagation for Vision Transformer Adaptation
- Title(参考訳): 視覚変圧器適応のための効率的低ランクバックプロパゲーション
- Authors: Yuedong Yang, Hung-Yueh Chiang, Guihong Li, Diana Marculescu, Radu
Marculescu
- Abstract要約: 本稿では,Walsh-Hadamard Transformation (LBP-WHT) 法による新しい低ランクバック伝搬を提案する。
複数のデータセット上で異なるモデル(ViT、ハイブリッド畳み込み-ViTモデル)を用いて広範な実験を行い、本手法の有効性を実証する。
我々のLBP-WHTは、最先端のベースラインよりも10.4%高い精度を達成し、9MFLOPの計算を少なくする。
- 参考スコア(独自算出の注目度): 22.13114472923292
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: The increasing scale of vision transformers (ViT) has made the efficient
fine-tuning of these large models for specific needs a significant challenge in
various applications. This issue originates from the computationally demanding
matrix multiplications required during the backpropagation process through
linear layers in ViT. In this paper, we tackle this problem by proposing a new
Low-rank BackPropagation via Walsh-Hadamard Transformation (LBP-WHT) method.
Intuitively, LBP-WHT projects the gradient into a low-rank space and carries
out backpropagation. This approach substantially reduces the computation needed
for adapting ViT, as matrix multiplication in the low-rank space is far less
resource-intensive. We conduct extensive experiments with different models
(ViT, hybrid convolution-ViT model) on multiple datasets to demonstrate the
effectiveness of our method. For instance, when adapting an EfficientFormer-L1
model on CIFAR100, our LBP-WHT achieves 10.4% higher accuracy than the
state-of-the-art baseline, while requiring 9 MFLOPs less computation. As the
first work to accelerate ViT adaptation with low-rank backpropagation, our
LBP-WHT method is complementary to many prior efforts and can be combined with
them for better performance.
- Abstract(参考訳): 視覚変換器(ViT)の規模が増大するにつれて、これらの大きなモデルの特定のニーズに対する効率的な微調整が様々なアプリケーションにおいて大きな課題となっている。
この問題は、ViTの線形層を通したバックプロパゲーションプロセスで必要となる計算的に要求される行列乗法に由来する。
本稿では,Walsh-Hadamard Transformation (LBP-WHT) 法を用いた新しい低ランクバックプロパゲーションを提案する。
直感的には、lpp-whtは勾配を低ランク空間に投影し、バックプロパゲーションを行う。
このアプローチは、低ランク空間における行列乗算がリソース集約的でないため、ViTの適応に必要な計算を大幅に削減する。
複数のデータセット上で異なるモデル(ViT、ハイブリッド畳み込み-ViTモデル)を用いて広範な実験を行い、本手法の有効性を実証する。
例えば、CIFAR100上でEfficientFormer-L1モデルを適用する場合、当社のLBP-WHTは、最先端のベースラインよりも10.4%高い精度を達成できます。
低ランクバックプロパゲーションによるViT適応を高速化する最初の試みとして, LBP-WHT法は従来の多くの取り組みと相補的であり, 性能向上のために組み合わせることができる。
関連論文リスト
- Visual Fourier Prompt Tuning [63.66866445034855]
本稿では,大規模なトランスフォーマーモデルに適用するための汎用的で効果的な方法として,Visual Fourier Prompt Tuning (VFPT)法を提案する。
提案手法では,高速フーリエ変換を即時埋め込みに取り入れ,空間領域情報と周波数領域情報の両方を調和的に検討する。
提案手法は,2つのベンチマークにおいて,現状のベースラインよりも優れていることを示す。
論文 参考訳(メタデータ) (2024-11-02T18:18:35Z) - Efficient Adaptation of Pre-trained Vision Transformer via Householder Transformation [53.88562288388169]
一般的な戦略である。
事前訓練された視覚変換器(ViT)のPEFT(Efficient Fine-Tuning)は、下流タスクにモデルを適応させる。
適応行列を表現するために,Singular Value Decomposition (SVD) にインスパイアされた新しいPEFT手法を提案する。
SVDは行列を左ユニタリ行列、スケーリング値の対角行列、右ユニタリ行列の積に分解する。
論文 参考訳(メタデータ) (2024-10-30T12:08:30Z) - Dynamic Tuning Towards Parameter and Inference Efficiency for ViT Adaptation [67.13876021157887]
動的チューニング(DyT)は、ViT適応のためのパラメータと推論効率を改善するための新しいアプローチである。
DyTは既存のPEFT法に比べて性能が優れており、VTAB-1KベンチマークではFLOPの71%しか呼び出されていない。
論文 参考訳(メタデータ) (2024-03-18T14:05:52Z) - Q-HyViT: Post-Training Quantization of Hybrid Vision Transformers with Bridge Block Reconstruction for IoT Systems [23.261607952479377]
視覚変換器(ViT)は、分類、検出、セグメンテーションを含む多くのアプリケーションで畳み込みニューラルネットワークに取って代わられている。
本稿では,効率的なハイブリッドViTの量子化を初めて行うポストトレーニング量子化手法を提案する。
従来のPTQ法と比較して, 8ビットで17.73%, 6ビットで29.75%の大幅な改善を実現している。
論文 参考訳(メタデータ) (2023-03-22T13:41:22Z) - Q-ViT: Accurate and Fully Quantized Low-bit Vision Transformer [56.87383229709899]
我々は、完全量子化視覚変換器(Q-ViT)のための情報修正モジュール(IRM)と分配誘導蒸留法を開発した。
我々の手法は、先行技術よりもはるかに優れたパフォーマンスを実現している。
論文 参考訳(メタデータ) (2022-10-13T04:00:29Z) - EIT: Efficiently Lead Inductive Biases to ViT [17.66805405320505]
ViT(Vision Transformer)は、畳み込みニューラルネットワークに固有の帰納バイアスに類似した特性に依存する。
本稿では, インダクティブバイアスをViT(EIT)に効率よく導くアーキテクチャを提案し, インダクティブバイアスをViTの両相に効果的に導くことができる。
ViTと比較して4つの一般的な小規模データセットでは、EITは平均12.6%の精度向上であり、パラメータやFLOPは少ない。
論文 参考訳(メタデータ) (2022-03-14T14:01:17Z) - Multi-Dimensional Model Compression of Vision Transformer [21.8311401851523]
近年、視覚変換器 (ViT) が注目されているが、その膨大な計算コストは実用的展開において問題となっている。
従来のViTプルーニング法は、モデルを1次元だけに沿ってプルークする傾向がある。
我々は,多次元のViT圧縮パラダイムを提唱し,アテンションヘッド,ニューロン,シーケンス次元からの冗長性低減を共同で行うことを提案する。
論文 参考訳(メタデータ) (2021-12-31T19:54:18Z) - Pruning Self-attentions into Convolutional Layers in Single Path [89.55361659622305]
ビジョントランスフォーマー(ViT)は、様々なコンピュータビジョンタスクに対して印象的なパフォーマンスを実現している。
トレーニング済みのViTを効率よく自動圧縮するSPViT(Single-Path Vision Transformer pruning)を提案する。
われわれのSPViTはDeiT-Bで52.0%のFLOPをトリミングできる。
論文 参考訳(メタデータ) (2021-11-23T11:35:54Z) - Global Vision Transformer Pruning with Hessian-Aware Saliency [93.33895899995224]
この研究はヴィジュアルトランスフォーマー(ViT)モデルの共通設計哲学に挑戦する。
遅延を意識した規則化による直接遅延低減を実現し,すべての層や構造に匹敵する新しいヘッセン型構造解析基準を導出する。
DeiT-Baseモデルで反復的なプルーニングを実行すると、NViT(Novel ViT)と呼ばれる新しいアーキテクチャファミリが生まれ、パラメータをより効率的に利用する新しいパラメータが現れる。
論文 参考訳(メタデータ) (2021-10-10T18:04:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。