論文の概要: Memory-Efficient Vision Transformers: An Activation-Aware Mixed-Rank
Compression Strategy
- arxiv url: http://arxiv.org/abs/2402.06004v1
- Date: Thu, 8 Feb 2024 19:01:14 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-12 19:08:01.379249
- Title: Memory-Efficient Vision Transformers: An Activation-Aware Mixed-Rank
Compression Strategy
- Title(参考訳): メモリ効率の高い視覚トランスフォーマー:アクティベーションアウェア混合ランク圧縮戦略
- Authors: Seyedarmin Azizi, Mahdi Nazemi, Massoud Pedram
- Abstract要約: 本稿では,ViTのパラメータ数を削減するために,異なる層の低ランクテンソル近似を用いたアクティベーション対応モデル圧縮手法を提案する。
提案手法は,ImageNetデータセットの精度を1%以下に抑えながら,DeiT-Bのパラメータ数を60%削減する。
これに加えて、提案した圧縮技術は、DeiT/ViTモデルを圧縮して、より小型のDeiT/ViTモデルとほぼ同じモデルサイズで、精度が最大1.8%向上する。
- 参考スコア(独自算出の注目度): 5.699098817569033
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: As Vision Transformers (ViTs) increasingly set new benchmarks in computer
vision, their practical deployment on inference engines is often hindered by
their significant memory bandwidth and (on-chip) memory footprint requirements.
This paper addresses this memory limitation by introducing an activation-aware
model compression methodology that uses selective low-rank weight tensor
approximations of different layers to reduce the parameter count of ViTs. The
key idea is to decompose the weight tensors into a sum of two
parameter-efficient tensors while minimizing the error between the product of
the input activations with the original weight tensor and the product of the
input activations with the approximate tensor sum. This approximation is
further refined by adopting an efficient layer-wise error compensation
technique that uses the gradient of the layer's output loss. The combination of
these techniques achieves excellent results while it avoids being trapped in a
shallow local minimum early in the optimization process and strikes a good
balance between the model compression and output accuracy. Notably, the
presented method significantly reduces the parameter count of DeiT-B by 60%
with less than 1% accuracy drop on the ImageNet dataset, overcoming the usual
accuracy degradation seen in low-rank approximations. In addition to this, the
presented compression technique can compress large DeiT/ViT models to have
about the same model size as smaller DeiT/ViT variants while yielding up to
1.8% accuracy gain. These results highlight the efficacy of our approach,
presenting a viable solution for embedding ViTs in memory-constrained
environments without compromising their performance.
- Abstract(参考訳): ビジョントランスフォーマー (vits) がコンピュータビジョンにおける新しいベンチマークを設定するにつれて、推論エンジンへの実用的な展開は、メモリ帯域幅と(チップ上の)メモリフットプリント要求によってしばしば妨げられる。
本稿では,vitのパラメータ数を減らすために,異なるレイヤの低ランク重みテンソル近似を用いたアクティベーション・アウェアモデル圧縮手法を導入することで,このメモリ制限に対処する。
鍵となる考え方は、重みテンソルを2つのパラメータ係数テンソルの和に分解し、入力活性化の積と元の重みテンソルとの積と入力活性化の積との誤差を近似テンソル和で最小化することである。
この近似は、層の出力損失の勾配を用いる効率的な層間誤差補償手法を採用することでさらに洗練される。
これらの手法の組み合わせは、最適化プロセスの早い段階で浅い局所的な最小値に閉じ込められず、モデルの圧縮と出力精度のバランスを良好に保ちながら、優れた結果が得られる。
提案手法は,ImageNetデータセットの精度を1%以下に抑えながら,DeiT-Bのパラメータ数を60%削減し,低ランク近似で見られる通常の精度劣化を克服する。
これに加えて、提案した圧縮技術は、DeiT/ViTモデルを圧縮して、より小型のDeiT/ViTモデルとほぼ同じモデルサイズで、精度が最大1.8%向上する。
これらの結果は,ViTsをメモリ制約環境に埋め込むための有効なソリューションとして,その性能を損なうことなく提案する手法の有効性を強調した。
関連論文リスト
- LORTSAR: Low-Rank Transformer for Skeleton-based Action Recognition [4.375744277719009]
LORTSARは2つの主要なトランスフォーマーベースモデル、"Hyperformer"と"STEP-CATFormer"に適用される。
本手法は, 認識精度の劣化や性能向上などにより, モデルパラメータの数を大幅に削減することができる。
これは、SVDと圧縮後の微調整を組み合わせることでモデル効率が向上し、人間の行動認識におけるより持続的で軽量で高性能な技術への道が開けることを確認する。
論文 参考訳(メタデータ) (2024-07-19T20:19:41Z) - Effective Interplay between Sparsity and Quantization: From Theory to Practice [33.697590845745815]
空間性と量子化は、モデル精度を保ちながら計算量とメモリフットプリントの大幅な削減を個別に示す2つの顕著な圧縮手法である。
これら2つの手法間の相互作用を調査し、それらの組み合わせが最終的なモデルの精度に影響を及ぼすかどうかを評価する。
我々の研究結果は、リソース制限された計算プラットフォームにおける大規模モデルの効率的なデプロイと、サービスコストの削減にまで及んでいる。
論文 参考訳(メタデータ) (2024-05-31T15:34:13Z) - Unlocking Data-free Low-bit Quantization with Matrix Decomposition for KV Cache Compression [87.5604418100301]
キー値(KV)キャッシングは,大規模言語モデルの推論を高速化する重要な手法である。
既存の手法はしばしば精度を損なうか、キャリブレーションのために余分なデータを必要とする。
テンソル分解法に基づく新しいデータフリー低ビット量子化手法である textbfDecoQuant を導入する。
論文 参考訳(メタデータ) (2024-05-21T08:35:10Z) - Error Feedback Can Accurately Compress Preconditioners [43.60787513716217]
ディープ・ネットワークの規模での損失に関する2次情報を活用することは、ディープ・ラーニングのための電流の性能を改善するための主要なアプローチの1つである。
しかし、GGT (Full-Matrix Adagrad) やM-FAC (Matrix-Free Approximate Curvature) のような、正確な完全行列プリコンディショニングのための既存のアプローチは、小規模モデルにも適用した場合に膨大なストレージコストを被る。
本稿では, コンバージェンスを損なうことなく, プリコンディショナーを最大2桁圧縮できる新しい, 効率的なエラーフィードバック手法により, この問題に対処する。
論文 参考訳(メタデータ) (2023-06-09T17:58:47Z) - DiffRate : Differentiable Compression Rate for Efficient Vision
Transformers [98.33906104846386]
Token圧縮は、プルーニング(ドロップ)やトークンのマージによって、大規模な視覚変換器(ViTなど)を高速化することを目的としている。
DiffRate(ディフレート)は、先行技術にはないいくつかの魅力的な特性を持つ新しいトークン圧縮手法である。
論文 参考訳(メタデータ) (2023-05-29T10:15:19Z) - HEAT: Hardware-Efficient Automatic Tensor Decomposition for Transformer
Compression [69.36555801766762]
本稿では,分解可能な指数空間を効率的に探索できるハードウェア対応テンソル分解フレームワークHEATを提案する。
ハードウェア対応のBERT変異体は, エネルギー遅延を5.7倍に低減し, 精度が1.1%以下であることを示す。
論文 参考訳(メタデータ) (2022-11-30T05:31:45Z) - Q-ViT: Accurate and Fully Quantized Low-bit Vision Transformer [56.87383229709899]
我々は、完全量子化視覚変換器(Q-ViT)のための情報修正モジュール(IRM)と分配誘導蒸留法を開発した。
我々の手法は、先行技術よりもはるかに優れたパフォーマンスを実現している。
論文 参考訳(メタデータ) (2022-10-13T04:00:29Z) - Multi-Dimensional Model Compression of Vision Transformer [21.8311401851523]
近年、視覚変換器 (ViT) が注目されているが、その膨大な計算コストは実用的展開において問題となっている。
従来のViTプルーニング法は、モデルを1次元だけに沿ってプルークする傾向がある。
我々は,多次元のViT圧縮パラダイムを提唱し,アテンションヘッド,ニューロン,シーケンス次元からの冗長性低減を共同で行うことを提案する。
論文 参考訳(メタデータ) (2021-12-31T19:54:18Z) - Compression-aware Projection with Greedy Dimension Reduction for
Convolutional Neural Network Activations [3.6188659868203388]
分類精度と圧縮比のトレードオフを改善するための圧縮対応投影システムを提案する。
提案手法は,MobileNetV2/ResNet18/VGG16の精度低下により2.91x5.97xのメモリアクセスを効果的に削減できることを示す。
論文 参考訳(メタデータ) (2021-10-17T14:02:02Z) - Training with Quantization Noise for Extreme Model Compression [57.51832088938618]
与えられたモデルサイズに対する精度を最大化しながら、コンパクトなモデルを作成するという問題に取り組む。
標準的な解決策は、トレーニング中に重みが定量化され、勾配がストレート・スルー推定器に近似される量子化意識訓練(Quantization Aware Training)でネットワークをトレーニングすることである。
本稿では, この手法を, 極端な圧縮法を用いて, int8 の固定点量子化を超えて機能するように拡張する。
論文 参考訳(メタデータ) (2020-04-15T20:10:53Z) - Highly Efficient Salient Object Detection with 100K Parameters [137.74898755102387]
そこで我々は,段階内および複数ステージのマルチスケール機能を効率的に活用するために,フレキシブルな畳み込みモジュールであるOctoConv(gOctConv)を提案する。
我々は、非常に軽量なモデル、すなわちCSNetを構築し、一般的なオブジェクト検出ベンチマークで、約0.2%(100k)の大規模モデルで同等のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2020-03-12T07:00:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。