論文の概要: COMCAT: Towards Efficient Compression and Customization of
Attention-Based Vision Models
- arxiv url: http://arxiv.org/abs/2305.17235v2
- Date: Fri, 9 Jun 2023 16:11:21 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-12 16:23:25.233085
- Title: COMCAT: Towards Efficient Compression and Customization of
Attention-Based Vision Models
- Title(参考訳): COMCAT: 意識に基づく視覚モデルの効率的な圧縮とカスタマイズを目指して
- Authors: Jinqi Xiao, Miao Yin, Yu Gong, Xiao Zang, Jian Ren, Bo Yuan
- Abstract要約: 本稿では、視覚変換器を圧縮し、コンパクトな注意に基づく視覚モデルを得るためのツールセットを充実させる効率的な方法を提案する。
ImageNet上でDeiT-smallモデルとDeiT-baseモデルを圧縮する場合,提案手法はパラメータが少なくても0.45%,0.76%高いトップ1精度が得られる。
- 参考スコア(独自算出の注目度): 21.07857091998763
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Attention-based vision models, such as Vision Transformer (ViT) and its
variants, have shown promising performance in various computer vision tasks.
However, these emerging architectures suffer from large model sizes and high
computational costs, calling for efficient model compression solutions. To
date, pruning ViTs has been well studied, while other compression strategies
that have been widely applied in CNN compression, e.g., model factorization, is
little explored in the context of ViT compression. This paper explores an
efficient method for compressing vision transformers to enrich the toolset for
obtaining compact attention-based vision models. Based on the new insight on
the multi-head attention layer, we develop a highly efficient ViT compression
solution, which outperforms the state-of-the-art pruning methods. For
compressing DeiT-small and DeiT-base models on ImageNet, our proposed approach
can achieve 0.45% and 0.76% higher top-1 accuracy even with fewer parameters.
Our finding can also be applied to improve the customization efficiency of
text-to-image diffusion models, with much faster training (up to $2.6\times$
speedup) and lower extra storage cost (up to $1927.5\times$ reduction) than the
existing works.
- Abstract(参考訳): 視覚トランスフォーマー(vit)などの注意に基づく視覚モデルは、様々なコンピュータビジョンタスクにおいて有望な性能を示している。
しかし、これらの新興アーキテクチャは大きなモデルサイズと高い計算コストに苦しめられ、効率的なモデル圧縮ソリューションが求められている。
現在、プルーニングViTはよく研究されているが、CNN圧縮に広く適用されている他の圧縮戦略、例えばモデル因子化は、ViT圧縮の文脈ではほとんど研究されていない。
本稿では,コンパクトな注意に基づく視覚モデルを得るためのツールセットを充実させるために,視覚トランスフォーマーを効率的に圧縮する方法を検討する。
マルチヘッドアテンション層に関する新たな知見に基づいて,最先端のプルーニング法よりも優れた高効率なViT圧縮ソリューションを開発した。
imagenet 上で deit-small および deit-base モデルを圧縮する場合,提案手法はパラメータが小さくても top-1 の精度が 0.45% と 0.76% 向上する。
我々の発見は、テキストと画像の拡散モデルのカスタマイズ効率を向上させるためにも適用でき、既存の作業よりもはるかに高速なトレーニング(最大2.6\times$ speedup)と余分なストレージコスト(最大1927.5\times$ reduction)を実現することができる。
関連論文リスト
- Dense Vision Transformer Compression with Few Samples [20.45895466934069]
少ないショットモデル圧縮は、大きめのモデルを小さなトレーニングセット(ラベルなしでも)でよりコンパクトなモデルに圧縮することを目的としている。
本稿では,DC-ViT と呼ばれる数ショットのVT圧縮のための新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2024-03-27T15:56:42Z) - Progressive Learning with Visual Prompt Tuning for Variable-Rate Image
Compression [60.689646881479064]
本稿では,変圧器を用いた可変レート画像圧縮のためのプログレッシブラーニングパラダイムを提案する。
視覚的プロンプトチューニングにインスパイアされた私たちは,エンコーダ側とデコーダ側でそれぞれ入力画像と隠蔽特徴のプロンプトを抽出するためにLPMを使用する。
提案モデルでは, 速度歪み特性の観点から現行の可変画像法よりも優れ, スクラッチから訓練した最先端の固定画像圧縮法にアプローチする。
論文 参考訳(メタデータ) (2023-11-23T08:29:32Z) - CAIT: Triple-Win Compression towards High Accuracy, Fast Inference, and
Favorable Transferability For ViTs [79.54107547233625]
ビジョントランスフォーマー (ViT) は様々なビジョンタスクの最先端モデルとして登場した。
本稿では,高精度かつ高速な推論速度を実現するViTのジョイント圧縮手法を提案する。
提案手法は,様々な ViT にまたがって最先端の性能を実現することができる。
論文 参考訳(メタデータ) (2023-09-27T16:12:07Z) - GOHSP: A Unified Framework of Graph and Optimization-based Heterogeneous
Structured Pruning for Vision Transformer [76.2625311630021]
視覚変換器(ViT)は、様々なコンピュータビジョンタスクにおいて非常に印象的な経験的性能を示している。
この問題を緩和するために、構造化プルーニングはモデルサイズを圧縮し、実用的な効率を実現するための有望な解決策である。
グラフと最適化に基づく構造的プルーニング(Structured Pruning)を統合化したフレームワークであるGOHSPを提案する。
論文 参考訳(メタデータ) (2023-01-13T00:40:24Z) - Estimating the Resize Parameter in End-to-end Learned Image Compression [50.20567320015102]
本稿では,最近の画像圧縮モデルの速度歪みトレードオフをさらに改善する検索自由化フレームワークについて述べる。
提案手法により,Bjontegaard-Deltaレート(BD-rate)を最大10%向上させることができる。
論文 参考訳(メタデータ) (2022-04-26T01:35:02Z) - ELIC: Efficient Learned Image Compression with Unevenly Grouped
Space-Channel Contextual Adaptive Coding [9.908820641439368]
本研究では,最先端の速度と圧縮能力を実現するための効率的なモデルであるELICを提案する。
優れたパフォーマンスで、提案モデルは極めて高速なプレビューデコーディングとプログレッシブデコーディングもサポートする。
論文 参考訳(メタデータ) (2022-03-21T11:19:50Z) - Unified Visual Transformer Compression [102.26265546836329]
本稿では,3つの有効な手法をシームレスに組み立てる,統一的なViT圧縮フレームワークを提案する。
予算制約のあるエンドツーエンドの最適化フレームワークを定式化し、モデルウェイトを共同学習し、レイヤーワイドプルーニング比/マスクを作成し、構成をスキップする。
実験は、ImageNetデータセット上のDeiTやT2T-ViTのバックボーンなど、いくつかのViT変種で実施されています。
論文 参考訳(メタデータ) (2022-03-15T20:38:22Z) - Multi-Dimensional Model Compression of Vision Transformer [21.8311401851523]
近年、視覚変換器 (ViT) が注目されているが、その膨大な計算コストは実用的展開において問題となっている。
従来のViTプルーニング法は、モデルを1次元だけに沿ってプルークする傾向がある。
我々は,多次元のViT圧縮パラダイムを提唱し,アテンションヘッド,ニューロン,シーケンス次元からの冗長性低減を共同で行うことを提案する。
論文 参考訳(メタデータ) (2021-12-31T19:54:18Z) - Learned Image Compression for Machine Perception [17.40776913809306]
人間の知覚と機械知覚の両方に適した圧縮フォーマットを生成するフレームワークを開発する。
コアビジョンタスクの圧縮と性能を同時に最適化する表現が学習可能であることを示す。
論文 参考訳(メタデータ) (2021-11-03T14:39:09Z) - Variable-Rate Deep Image Compression through Spatially-Adaptive Feature
Transform [58.60004238261117]
空間特徴変換(SFT arXiv:1804.02815)に基づく多目的深部画像圧縮ネットワークを提案する。
本モデルは,任意の画素単位の品質マップによって制御される単一モデルを用いて,幅広い圧縮速度をカバーしている。
提案するフレームワークにより,様々なタスクに対してタスク対応の画像圧縮を行うことができる。
論文 参考訳(メタデータ) (2021-08-21T17:30:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。