論文の概要: Memory-Efficient Vision Transformers: An Activation-Aware Mixed-Rank
Compression Strategy
- arxiv url: http://arxiv.org/abs/2402.06004v1
- Date: Thu, 8 Feb 2024 19:01:14 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-12 19:08:01.379249
- Title: Memory-Efficient Vision Transformers: An Activation-Aware Mixed-Rank
Compression Strategy
- Title(参考訳): メモリ効率の高い視覚トランスフォーマー:アクティベーションアウェア混合ランク圧縮戦略
- Authors: Seyedarmin Azizi, Mahdi Nazemi, Massoud Pedram
- Abstract要約: 本稿では,ViTのパラメータ数を削減するために,異なる層の低ランクテンソル近似を用いたアクティベーション対応モデル圧縮手法を提案する。
提案手法は,ImageNetデータセットの精度を1%以下に抑えながら,DeiT-Bのパラメータ数を60%削減する。
これに加えて、提案した圧縮技術は、DeiT/ViTモデルを圧縮して、より小型のDeiT/ViTモデルとほぼ同じモデルサイズで、精度が最大1.8%向上する。
- 参考スコア(独自算出の注目度): 5.699098817569033
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: As Vision Transformers (ViTs) increasingly set new benchmarks in computer
vision, their practical deployment on inference engines is often hindered by
their significant memory bandwidth and (on-chip) memory footprint requirements.
This paper addresses this memory limitation by introducing an activation-aware
model compression methodology that uses selective low-rank weight tensor
approximations of different layers to reduce the parameter count of ViTs. The
key idea is to decompose the weight tensors into a sum of two
parameter-efficient tensors while minimizing the error between the product of
the input activations with the original weight tensor and the product of the
input activations with the approximate tensor sum. This approximation is
further refined by adopting an efficient layer-wise error compensation
technique that uses the gradient of the layer's output loss. The combination of
these techniques achieves excellent results while it avoids being trapped in a
shallow local minimum early in the optimization process and strikes a good
balance between the model compression and output accuracy. Notably, the
presented method significantly reduces the parameter count of DeiT-B by 60%
with less than 1% accuracy drop on the ImageNet dataset, overcoming the usual
accuracy degradation seen in low-rank approximations. In addition to this, the
presented compression technique can compress large DeiT/ViT models to have
about the same model size as smaller DeiT/ViT variants while yielding up to
1.8% accuracy gain. These results highlight the efficacy of our approach,
presenting a viable solution for embedding ViTs in memory-constrained
environments without compromising their performance.
- Abstract(参考訳): ビジョントランスフォーマー (vits) がコンピュータビジョンにおける新しいベンチマークを設定するにつれて、推論エンジンへの実用的な展開は、メモリ帯域幅と(チップ上の)メモリフットプリント要求によってしばしば妨げられる。
本稿では,vitのパラメータ数を減らすために,異なるレイヤの低ランク重みテンソル近似を用いたアクティベーション・アウェアモデル圧縮手法を導入することで,このメモリ制限に対処する。
鍵となる考え方は、重みテンソルを2つのパラメータ係数テンソルの和に分解し、入力活性化の積と元の重みテンソルとの積と入力活性化の積との誤差を近似テンソル和で最小化することである。
この近似は、層の出力損失の勾配を用いる効率的な層間誤差補償手法を採用することでさらに洗練される。
これらの手法の組み合わせは、最適化プロセスの早い段階で浅い局所的な最小値に閉じ込められず、モデルの圧縮と出力精度のバランスを良好に保ちながら、優れた結果が得られる。
提案手法は,ImageNetデータセットの精度を1%以下に抑えながら,DeiT-Bのパラメータ数を60%削減し,低ランク近似で見られる通常の精度劣化を克服する。
これに加えて、提案した圧縮技術は、DeiT/ViTモデルを圧縮して、より小型のDeiT/ViTモデルとほぼ同じモデルサイズで、精度が最大1.8%向上する。
これらの結果は,ViTsをメモリ制約環境に埋め込むための有効なソリューションとして,その性能を損なうことなく提案する手法の有効性を強調した。
関連論文リスト
- Learning Parameter Sharing with Tensor Decompositions and Sparsity [5.73573685846194]
本稿では,大きな視覚変換器モデルを効率よく圧縮する新しいアルゴリズムFiPSを提案する。
FiPSは、多層知覚モジュール間の共有ニューロンを表現するために、共有基底とスパース因子を用いる。
実験により、FiPSはDei-BとSwin-LTを元のパラメータの25-40%まで圧縮し、元のモデルの1パーセンテージ以内の精度を維持した。
論文 参考訳(メタデータ) (2024-11-14T21:29:58Z) - LoRC: Low-Rank Compression for LLMs KV Cache with a Progressive Compression Strategy [59.1298692559785]
キーバリュー(KV)キャッシュは、トランスフォーマーベースの自己回帰型大言語モデル(LLM)を提供する上で重要なコンポーネントである。
この問題を緩和するためのアプローチとしては、(1) アップサイクルステージに統合された効率的な注意変動、(2) テスト時のKVキャッシュ圧縮、(3) テスト時のKVキャッシュ圧縮がある。
そこで我々は,KV重み行列の低ランク近似を提案し,モデル再学習なしに既存のトランスフォーマーベースLCMとのプラグイン統合を実現する。
本手法は,テスト段階におけるアップサイクリング段階のモデルチューニングやタスク固有のプロファイリングを伴わずに機能するように設計されている。
論文 参考訳(メタデータ) (2024-10-04T03:10:53Z) - Language Models as Zero-shot Lossless Gradient Compressors: Towards
General Neural Parameter Prior Models [66.1595537904019]
大型言語モデル(LLM)はゼロショット設定でグラデーション先行として振る舞うことができる。
本稿では,LSMと算術符号を統合する新しい手法であるLM-GCを紹介する。
論文 参考訳(メタデータ) (2024-09-26T13:38:33Z) - LORTSAR: Low-Rank Transformer for Skeleton-based Action Recognition [4.375744277719009]
LORTSARは2つの主要なトランスフォーマーベースモデル、"Hyperformer"と"STEP-CATFormer"に適用される。
本手法は, 認識精度の劣化や性能向上などにより, モデルパラメータの数を大幅に削減することができる。
これは、SVDと圧縮後の微調整を組み合わせることでモデル効率が向上し、人間の行動認識におけるより持続的で軽量で高性能な技術への道が開けることを確認する。
論文 参考訳(メタデータ) (2024-07-19T20:19:41Z) - Effective Interplay between Sparsity and Quantization: From Theory to Practice [33.697590845745815]
空間性と量子化は、モデル精度を保ちながら計算量とメモリフットプリントの大幅な削減を個別に示す2つの顕著な圧縮手法である。
これら2つの手法間の相互作用を調査し、それらの組み合わせが最終的なモデルの精度に影響を及ぼすかどうかを評価する。
我々の研究結果は、リソース制限された計算プラットフォームにおける大規模モデルの効率的なデプロイと、サービスコストの削減にまで及んでいる。
論文 参考訳(メタデータ) (2024-05-31T15:34:13Z) - Unlocking Data-free Low-bit Quantization with Matrix Decomposition for KV Cache Compression [87.5604418100301]
キー値(KV)キャッシングは,大規模言語モデルの推論を高速化する重要な手法である。
既存の手法はしばしば精度を損なうか、キャリブレーションのために余分なデータを必要とする。
テンソル分解法に基づく新しいデータフリー低ビット量子化手法である textbfDecoQuant を導入する。
論文 参考訳(メタデータ) (2024-05-21T08:35:10Z) - HEAT: Hardware-Efficient Automatic Tensor Decomposition for Transformer
Compression [69.36555801766762]
本稿では,分解可能な指数空間を効率的に探索できるハードウェア対応テンソル分解フレームワークHEATを提案する。
ハードウェア対応のBERT変異体は, エネルギー遅延を5.7倍に低減し, 精度が1.1%以下であることを示す。
論文 参考訳(メタデータ) (2022-11-30T05:31:45Z) - Q-ViT: Accurate and Fully Quantized Low-bit Vision Transformer [56.87383229709899]
我々は、完全量子化視覚変換器(Q-ViT)のための情報修正モジュール(IRM)と分配誘導蒸留法を開発した。
我々の手法は、先行技術よりもはるかに優れたパフォーマンスを実現している。
論文 参考訳(メタデータ) (2022-10-13T04:00:29Z) - Multi-Dimensional Model Compression of Vision Transformer [21.8311401851523]
近年、視覚変換器 (ViT) が注目されているが、その膨大な計算コストは実用的展開において問題となっている。
従来のViTプルーニング法は、モデルを1次元だけに沿ってプルークする傾向がある。
我々は,多次元のViT圧縮パラダイムを提唱し,アテンションヘッド,ニューロン,シーケンス次元からの冗長性低減を共同で行うことを提案する。
論文 参考訳(メタデータ) (2021-12-31T19:54:18Z) - Compression-aware Projection with Greedy Dimension Reduction for
Convolutional Neural Network Activations [3.6188659868203388]
分類精度と圧縮比のトレードオフを改善するための圧縮対応投影システムを提案する。
提案手法は,MobileNetV2/ResNet18/VGG16の精度低下により2.91x5.97xのメモリアクセスを効果的に削減できることを示す。
論文 参考訳(メタデータ) (2021-10-17T14:02:02Z) - Highly Efficient Salient Object Detection with 100K Parameters [137.74898755102387]
そこで我々は,段階内および複数ステージのマルチスケール機能を効率的に活用するために,フレキシブルな畳み込みモジュールであるOctoConv(gOctConv)を提案する。
我々は、非常に軽量なモデル、すなわちCSNetを構築し、一般的なオブジェクト検出ベンチマークで、約0.2%(100k)の大規模モデルで同等のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2020-03-12T07:00:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。