論文の概要: RePaViT: Scalable Vision Transformer Acceleration via Structural Reparameterization on Feedforward Network Layers
- arxiv url: http://arxiv.org/abs/2505.21847v2
- Date: Mon, 02 Jun 2025 06:39:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-03 13:48:30.02348
- Title: RePaViT: Scalable Vision Transformer Acceleration via Structural Reparameterization on Feedforward Network Layers
- Title(参考訳): RePaViT: フィードフォワードネットワーク層上の構造的リパラメータ化によるスケーラブルビジョントランスフォーマ高速化
- Authors: Xuwei Xu, Yang Li, Yudong Chen, Jiajun Liu, Sen Wang,
- Abstract要約: 我々は、注意層ではなく、フィードフォワードネットワーク(FFN)層が視覚変換器(ViT)の推論遅延の主な要因であることを明らかにした。
本研究では,テスト中の効率的なFFN層に対するポストトレーニング後構造的再パラメータ化を容易にする新しいチャネルアイドル機構を提案する。
- 参考スコア(独自算出の注目度): 14.876863939653548
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: We reveal that feedforward network (FFN) layers, rather than attention layers, are the primary contributors to Vision Transformer (ViT) inference latency, with their impact signifying as model size increases. This finding highlights a critical opportunity for optimizing the efficiency of large-scale ViTs by focusing on FFN layers. In this work, we propose a novel channel idle mechanism that facilitates post-training structural reparameterization for efficient FFN layers during testing. Specifically, a set of feature channels remains idle and bypasses the nonlinear activation function in each FFN layer, thereby forming a linear pathway that enables structural reparameterization during inference. This mechanism results in a family of ReParameterizable Vision Transformers (RePaViTs), which achieve remarkable latency reductions with acceptable sacrifices (sometimes gains) in accuracy across various ViTs. The benefits of our method scale consistently with model sizes, demonstrating greater speed improvements and progressively narrowing accuracy gaps or even higher accuracies on larger models. In particular, RePa-ViT-Large and RePa-ViT-Huge enjoy 66.8% and 68.7% speed-ups with +1.7% and +1.1% higher top-1 accuracies under the same training strategy, respectively. RePaViT is the first to employ structural reparameterization on FFN layers to expedite ViTs to our best knowledge, and we believe that it represents an auspicious direction for efficient ViTs. Source code is available at https://github.com/Ackesnal/RePaViT.
- Abstract(参考訳): 注意層ではなくフィードフォワードネットワーク(FFN)層が視覚変換器(ViT)の推論遅延の主な要因であることを明らかにする。
この発見は、FFN層にフォーカスすることで、大規模なViTの効率を最適化する重要な機会を浮き彫りにする。
本研究では,テスト中の効率的なFFN層に対するポストトレーニング後構造パラメータ化を容易にする新しいチャネルアイドル機構を提案する。
具体的には、一連の特徴チャネルはアイドル状態のままであり、各FFN層の非線形活性化関数をバイパスし、推論中の構造的再パラメータ化を可能にする線形経路を形成する。
このメカニズムにより、RePaViT(ReParameterizable Vision Transformers)のファミリーが、様々なViTの精度で許容される犠牲(時にはゲイン)を伴って、顕著なレイテンシ低減を実現している。
提案手法の利点は、モデルサイズと一貫してスケールし、より高速な改善を示し、精度のギャップを徐々に狭めたり、より大きなモデル上での精度を高めたりする。
特に、RePa-ViT-LargeとRePa-ViT-Hugeは、それぞれ66.8%と68.7%のスピードアップ、+1.7%と+1.1%の上位1のアキュラシーを同じトレーニング戦略で享受している。
RePaViTは、FFN層に構造的再パラメータ化を導入して、ViTを最良の知識に高速に活用する最初の試みであり、効率的なViTのための目覚しい方向を示していると我々は信じている。
ソースコードはhttps://github.com/Ackesnal/RePaViT.comで入手できる。
関連論文リスト
- Sparse-Tuning: Adapting Vision Transformers with Efficient Fine-tuning and Inference [14.030836300221756]
textbfSparse-Tuningは、画像やビデオの情報冗長性を考慮に入れた新しいPEFTメソッドである。
Sparse-Tuningは各層で処理されるトークンの量を最小限に抑え、計算とメモリのオーバーヘッドを2次的に削減する。
我々のSparse-TuningはGFLOPsを62%-70%に削減し,最先端性能を実現した。
論文 参考訳(メタデータ) (2024-05-23T15:34:53Z) - Dynamic Tuning Towards Parameter and Inference Efficiency for ViT Adaptation [67.13876021157887]
動的チューニング(DyT)は、ViT適応のためのパラメータと推論効率を改善するための新しいアプローチである。
DyTは既存のPEFT法に比べて性能が優れており、VTAB-1KベンチマークではFLOPの71%しか呼び出されていない。
論文 参考訳(メタデータ) (2024-03-18T14:05:52Z) - EIT: Efficiently Lead Inductive Biases to ViT [17.66805405320505]
ViT(Vision Transformer)は、畳み込みニューラルネットワークに固有の帰納バイアスに類似した特性に依存する。
本稿では, インダクティブバイアスをViT(EIT)に効率よく導くアーキテクチャを提案し, インダクティブバイアスをViTの両相に効果的に導くことができる。
ViTと比較して4つの一般的な小規模データセットでは、EITは平均12.6%の精度向上であり、パラメータやFLOPは少ない。
論文 参考訳(メタデータ) (2022-03-14T14:01:17Z) - Anti-Oversmoothing in Deep Vision Transformers via the Fourier Domain
Analysis: From Theory to Practice [111.47461527901318]
Vision Transformer (ViT) は先日,コンピュータビジョン問題における有望性を実証した。
ViTは観察された注意崩壊やパッチの均一性のために、深さが増加するにつれて急速に飽和する。
所望の低域制限を緩和する2つの手法を提案する。
論文 参考訳(メタデータ) (2022-03-09T23:55:24Z) - Global Vision Transformer Pruning with Hessian-Aware Saliency [93.33895899995224]
この研究はヴィジュアルトランスフォーマー(ViT)モデルの共通設計哲学に挑戦する。
遅延を意識した規則化による直接遅延低減を実現し,すべての層や構造に匹敵する新しいヘッセン型構造解析基準を導出する。
DeiT-Baseモデルで反復的なプルーニングを実行すると、NViT(Novel ViT)と呼ばれる新しいアーキテクチャファミリが生まれ、パラメータをより効率的に利用する新しいパラメータが現れる。
論文 参考訳(メタデータ) (2021-10-10T18:04:59Z) - DeepViT: Towards Deeper Vision Transformer [92.04063170357426]
近年,視覚変換器 (ViT) が画像分類タスクに応用されている。
より畳み込み層を積み重ねることで改善できる畳み込みニューラルネットワーク(CNN)とは異なり、ViTの性能はより深いスケールで飽和する。
本研究では,アテンションマップの多様性を高めるために,アテンションマップを再生成する手法であるre-attentionを提案する。
論文 参考訳(メタデータ) (2021-03-22T14:32:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。