論文の概要: Multi-Dimensional Model Compression of Vision Transformer
- arxiv url: http://arxiv.org/abs/2201.00043v1
- Date: Fri, 31 Dec 2021 19:54:18 GMT
- ステータス: 処理完了
- システム内更新日: 2022-01-04 14:01:37.462837
- Title: Multi-Dimensional Model Compression of Vision Transformer
- Title(参考訳): 視覚変圧器の多次元モデル圧縮
- Authors: Zejiang Hou and Sun-Yuan Kung
- Abstract要約: 近年、視覚変換器 (ViT) が注目されているが、その膨大な計算コストは実用的展開において問題となっている。
従来のViTプルーニング法は、モデルを1次元だけに沿ってプルークする傾向がある。
我々は,多次元のViT圧縮パラダイムを提唱し,アテンションヘッド,ニューロン,シーケンス次元からの冗長性低減を共同で行うことを提案する。
- 参考スコア(独自算出の注目度): 21.8311401851523
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Vision transformers (ViT) have recently attracted considerable attentions,
but the huge computational cost remains an issue for practical deployment.
Previous ViT pruning methods tend to prune the model along one dimension
solely, which may suffer from excessive reduction and lead to sub-optimal model
quality. In contrast, we advocate a multi-dimensional ViT compression paradigm,
and propose to harness the redundancy reduction from attention head, neuron and
sequence dimensions jointly. We firstly propose a statistical dependence based
pruning criterion that is generalizable to different dimensions for identifying
deleterious components. Moreover, we cast the multi-dimensional compression as
an optimization, learning the optimal pruning policy across the three
dimensions that maximizes the compressed model's accuracy under a computational
budget. The problem is solved by our adapted Gaussian process search with
expected improvement. Experimental results show that our method effectively
reduces the computational cost of various ViT models. For example, our method
reduces 40\% FLOPs without top-1 accuracy loss for DeiT and T2T-ViT models,
outperforming previous state-of-the-arts.
- Abstract(参考訳): 視覚変換器(ViT)は近年注目されているが、その膨大な計算コストは実用的展開の課題である。
従来型のViTプルーニング法では, モデルが1次元のみに沿ってプルークする傾向があり, 過度に還元され, 準最適モデルの品質が低下する可能性がある。
対照的に,多次元vit圧縮パラダイムを提唱し,注意頭,ニューロン,シーケンス次元からの冗長性低減を協調的に利用することを提案する。
まず,削除成分を識別するために,異なる次元に一般化可能な統計依存型刈り取り基準を提案する。
さらに,多次元圧縮を最適化として,計算予算下で圧縮モデルの精度を最大化する3次元にわたって最適プルーニングポリシーを学習した。
この問題はgaussian process searchの適応によって解決され,改善が期待できる。
実験の結果,vitモデルの計算コストを効果的に低減できることがわかった。
例えば,DeiTモデルとT2T-ViTモデルでは,トップ1の精度損失を伴わずに40\%のFLOPを削減し,従来の最先端モデルよりも優れていた。
関連論文リスト
- VTrans: Accelerating Transformer Compression with Variational Information Bottleneck based Pruning [3.256420760342604]
本稿では,変分情報ボトルネック (VIB) の原理によって導かれる反復的刈り取りフレームワーク VTrans を提案する。
提案手法は,VIBトレーニングマスクを用いた埋め込み,アテンションヘッド,層など,すべての構造成分を圧縮する。
特に,本手法は従来の最先端手法よりも最大70%圧縮を実現する。
論文 参考訳(メタデータ) (2024-06-07T22:07:46Z) - Memory-Efficient Vision Transformers: An Activation-Aware Mixed-Rank
Compression Strategy [5.699098817569033]
本稿では,ViTのパラメータ数を削減するために,異なる層の低ランクテンソル近似を用いたアクティベーション対応モデル圧縮手法を提案する。
提案手法は,ImageNetデータセットの精度を1%以下に抑えながら,DeiT-Bのパラメータ数を60%削減する。
これに加えて、提案した圧縮技術は、DeiT/ViTモデルを圧縮して、より小型のDeiT/ViTモデルとほぼ同じモデルサイズで、精度が最大1.8%向上する。
論文 参考訳(メタデータ) (2024-02-08T19:01:14Z) - GQKVA: Efficient Pre-training of Transformers by Grouping Queries, Keys,
and Values [3.960622297616708]
GQKVAはモデルサイズを小さくしながら、トランスフォーマーの事前訓練を高速化するように設計されている。
GQKVAの様々なバリエーションによる実験は、性能とモデルサイズの間の明確なトレードオフを浮き彫りにしている。
論文 参考訳(メタデータ) (2023-11-06T17:29:24Z) - COMCAT: Towards Efficient Compression and Customization of
Attention-Based Vision Models [21.07857091998763]
本稿では、視覚変換器を圧縮し、コンパクトな注意に基づく視覚モデルを得るためのツールセットを充実させる効率的な方法を提案する。
ImageNet上でDeiT-smallモデルとDeiT-baseモデルを圧縮する場合,提案手法はパラメータが少なくても0.45%,0.76%高いトップ1精度が得られる。
論文 参考訳(メタデータ) (2023-05-26T19:50:00Z) - Getting ViT in Shape: Scaling Laws for Compute-Optimal Model Design [84.34416126115732]
スケーリング法則は、最近、与えられた計算時間に最適なモデルサイズ(パラメータの数)を導出するために用いられる。
我々は、幅や深さなどの計算最適モデル形状を推測する手法を進化させ、改良し、視覚変換器でこれを実装した。
我々の形状最適化型視覚変換器SoViTは、同等の計算量で事前訓練されているにもかかわらず、サイズが2倍以上のモデルと競合する結果を得る。
論文 参考訳(メタデータ) (2023-05-22T13:39:28Z) - GOHSP: A Unified Framework of Graph and Optimization-based Heterogeneous
Structured Pruning for Vision Transformer [76.2625311630021]
視覚変換器(ViT)は、様々なコンピュータビジョンタスクにおいて非常に印象的な経験的性能を示している。
この問題を緩和するために、構造化プルーニングはモデルサイズを圧縮し、実用的な効率を実現するための有望な解決策である。
グラフと最適化に基づく構造的プルーニング(Structured Pruning)を統合化したフレームワークであるGOHSPを提案する。
論文 参考訳(メタデータ) (2023-01-13T00:40:24Z) - Numerical Optimizations for Weighted Low-rank Estimation on Language
Model [73.12941276331316]
Singular value decomposition (SVD) は、より小さい行列でターゲット行列を近似する最も一般的な圧縮手法の1つである。
標準SVDは行列内のパラメータを同じ重要性で扱うが、これは単純だが非現実的な仮定である。
本手法は,ニューラルベース言語モデルにおいて,現在のSOTA法よりも優れた性能を示す。
論文 参考訳(メタデータ) (2022-11-02T00:58:02Z) - Q-ViT: Accurate and Fully Quantized Low-bit Vision Transformer [56.87383229709899]
我々は、完全量子化視覚変換器(Q-ViT)のための情報修正モジュール(IRM)と分配誘導蒸留法を開発した。
我々の手法は、先行技術よりもはるかに優れたパフォーマンスを実現している。
論文 参考訳(メタデータ) (2022-10-13T04:00:29Z) - Language model compression with weighted low-rank factorization [73.61874728240568]
本稿では,モデル予測に影響を及ぼすパラメータの重要性を評価するために,フィッシャー情報を紹介する。
結果のタスク精度は、元のモデルの性能にかなり近いことがわかった。
提案手法は,タスク固有のモデルを直接圧縮し,他のコンパクトモデル戦略よりも優れた性能を実現する。
論文 参考訳(メタデータ) (2022-06-30T21:57:07Z) - Global Vision Transformer Pruning with Hessian-Aware Saliency [93.33895899995224]
この研究はヴィジュアルトランスフォーマー(ViT)モデルの共通設計哲学に挑戦する。
遅延を意識した規則化による直接遅延低減を実現し,すべての層や構造に匹敵する新しいヘッセン型構造解析基準を導出する。
DeiT-Baseモデルで反復的なプルーニングを実行すると、NViT(Novel ViT)と呼ばれる新しいアーキテクチャファミリが生まれ、パラメータをより効率的に利用する新しいパラメータが現れる。
論文 参考訳(メタデータ) (2021-10-10T18:04:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。