論文の概要: USDC: Unified Static and Dynamic Compression for Visual Transformer
- arxiv url: http://arxiv.org/abs/2310.11117v1
- Date: Tue, 17 Oct 2023 10:04:47 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-18 16:42:49.994486
- Title: USDC: Unified Static and Dynamic Compression for Visual Transformer
- Title(参考訳): USDC: Visual Transformer用の統一静的および動的圧縮
- Authors: Huan Yuan, Chao Liao, Jianchao Tan, Peng Yao, Jiyuan Jia, Bin Chen,
Chengru Song, Di Zhang
- Abstract要約: ビジュアルトランスフォーマーは、分類、検出など、ほぼすべての視覚タスクで大きな成功を収めています。
しかし、視覚変換器のモデル複雑さと推論速度は、産業製品への展開を妨げる。
様々なモデル圧縮技術は、モデル性能を維持しながら、視覚変換器を直接より小さく圧縮することに重点を置いているが、圧縮比が大きいと性能が劇的に低下する。
動的ネットワーク技術もいくつか適用されており、入力適応効率のよいサブ構造を得るために動的に圧縮し、圧縮比とモデル性能のトレードオフを改善することができる。
- 参考スコア(独自算出の注目度): 17.10536016262485
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Visual Transformers have achieved great success in almost all vision tasks,
such as classification, detection, and so on. However, the model complexity and
the inference speed of the visual transformers hinder their deployments in
industrial products. Various model compression techniques focus on directly
compressing the visual transformers into a smaller one while maintaining the
model performance, however, the performance drops dramatically when the
compression ratio is large. Furthermore, several dynamic network techniques
have also been applied to dynamically compress the visual transformers to
obtain input-adaptive efficient sub-structures during the inference stage,
which can achieve a better trade-off between the compression ratio and the
model performance. The upper bound of memory of dynamic models is not reduced
in the practical deployment since the whole original visual transformer model
and the additional control gating modules should be loaded onto devices
together for inference. To alleviate two disadvantages of two categories of
methods, we propose to unify the static compression and dynamic compression
techniques jointly to obtain an input-adaptive compressed model, which can
further better balance the total compression ratios and the model performances.
Moreover, in practical deployment, the batch sizes of the training and
inference stage are usually different, which will cause the model inference
performance to be worse than the model training performance, which is not
touched by all previous dynamic network papers. We propose a sub-group gates
augmentation technique to solve this performance drop problem. Extensive
experiments demonstrate the superiority of our method on various baseline
visual transformers such as DeiT, T2T-ViT, and so on.
- Abstract(参考訳): 視覚トランスフォーマーは、分類、検出など、ほぼすべての視覚タスクで大きな成功を収めています。
しかし、視覚変換器のモデル複雑さと推論速度は、産業製品への展開を妨げる。
様々なモデル圧縮技術は、モデル性能を維持しながら、視覚変換器を直接圧縮することに焦点を当てるが、圧縮比が大きいと性能が劇的に低下する。
さらに、複数の動的ネットワーク技術を用いて動的に圧縮し、推論期間中に入力適応効率のよいサブ構造を得ることができ、圧縮比とモデル性能のトレードオフをより良く得ることができる。
動的モデルのメモリの上限は、元のビジュアルトランスフォーマーモデル全体と追加のコントロールゲーティングモジュールを一緒にデバイスにロードして推論する必要があるため、実際のデプロイメントでは減少しない。
本研究では,2種類の手法の2つの欠点を解消するために,静的圧縮と動的圧縮を一体化して入力適応圧縮モデルを得る手法を提案する。
さらに、実際のデプロイメントでは、トレーニングステージと推論ステージのバッチサイズは通常異なり、モデル推論のパフォーマンスは、以前のすべての動的ネットワーク論文では触れられていないモデルトレーニングパフォーマンスよりも悪化する。
この性能低下問題を解決するために,サブグループゲート拡張手法を提案する。
DeiTやT2T-ViTなどの様々なベースライン視覚変換器において,本手法の優位性を示す実験を行った。
関連論文リスト
- Token Compensator: Altering Inference Cost of Vision Transformer without Re-Tuning [63.43972993473501]
視覚変換器(ViT)の訓練と推論を高速化するトークン圧縮
しかし、下流タスクに適用した場合、圧縮度はトレーニングと推論の段階で不一致となる。
本稿では,2段階間の圧縮度を分離するモデル演算フレームワークを提案する。
論文 参考訳(メタデータ) (2024-08-13T10:36:43Z) - A Survey on Transformer Compression [84.18094368700379]
自然言語処理(NLP)とコンピュータビジョン(CV)の領域においてトランスフォーマーは重要な役割を果たす
モデル圧縮法は、Transformerのメモリと計算コストを削減する。
この調査は、Transformerベースのモデルに適用することに焦点を当てた、最近の圧縮方法に関する包括的なレビューを提供する。
論文 参考訳(メタデータ) (2024-02-05T12:16:28Z) - Progressive Learning with Visual Prompt Tuning for Variable-Rate Image
Compression [60.689646881479064]
本稿では,変圧器を用いた可変レート画像圧縮のためのプログレッシブラーニングパラダイムを提案する。
視覚的プロンプトチューニングにインスパイアされた私たちは,エンコーダ側とデコーダ側でそれぞれ入力画像と隠蔽特徴のプロンプトを抽出するためにLPMを使用する。
提案モデルでは, 速度歪み特性の観点から現行の可変画像法よりも優れ, スクラッチから訓練した最先端の固定画像圧縮法にアプローチする。
論文 参考訳(メタデータ) (2023-11-23T08:29:32Z) - Modular Transformers: Compressing Transformers into Modularized Layers
for Flexible Efficient Inference [83.01121484432801]
本稿では,フレキシブルシーケンス・ツー・シーケンス・モデル圧縮のためのモジュール化エンコーダ・デコーダ・フレームワークであるModular Transformersを紹介する。
単一のトレーニングフェーズの後、Modular Transformerは1.1xから6xまでのフレキシブルな圧縮比を、相対的な相対的な性能低下の少ない状態で達成することができる。
論文 参考訳(メタデータ) (2023-06-04T15:26:28Z) - Quantization-Aware and Tensor-Compressed Training of Transformers for
Natural Language Understanding [12.030179065286928]
本稿では,変圧器モデルにおけるモデルサイズ,演算演算,実行遅延を低減するために,量子化対応テンソル圧縮トレーニング手法を提案する。
あらかじめ訓練された変圧器から量子化およびテンソル圧縮された学生モデルを蒸留するために層間蒸留を適用した。
パフォーマンスは2つの自然言語理解タスクで実証され、最大6,3倍の圧縮率、精度の低下、顕著な推論とトレーニングのスピードアップを示す。
論文 参考訳(メタデータ) (2023-06-01T18:32:08Z) - COMCAT: Towards Efficient Compression and Customization of
Attention-Based Vision Models [21.07857091998763]
本稿では、視覚変換器を圧縮し、コンパクトな注意に基づく視覚モデルを得るためのツールセットを充実させる効率的な方法を提案する。
ImageNet上でDeiT-smallモデルとDeiT-baseモデルを圧縮する場合,提案手法はパラメータが少なくても0.45%,0.76%高いトップ1精度が得られる。
論文 参考訳(メタデータ) (2023-05-26T19:50:00Z) - Consolidator: Mergeable Adapter with Grouped Connections for Visual
Adaptation [53.835365470800916]
視覚変換器の知識を効率よく効果的に伝達する方法を示す。
調整可能なパラメータの小さなセットを追加して,事前学習モデルを変更するコンソリケータを提案する。
我々のコンソリエータは、0.35%のパラメータで完全な微調整よりも最大7.56の精度で到達できる。
論文 参考訳(メタデータ) (2023-04-30T23:59:02Z) - Knowledge Distillation in Vision Transformers: A Critical Review [6.508088032296086]
ビジョントランスフォーマー(ViT)は、畳み込みニューラルネットワーク(CNN)よりも優れたパフォーマンス向上を実証した。
モデル圧縮は、最近、潜在的治療としてかなりの研究の注目を集めている。
本稿では、VTモデルの効率的な圧縮のためのKDに基づく様々なアプローチについて論じる。
論文 参考訳(メタデータ) (2023-02-04T06:30:57Z) - Efficient Vision Transformers via Fine-Grained Manifold Distillation [96.50513363752836]
視覚変換器のアーキテクチャは多くのコンピュータビジョンタスクで異常な性能を示した。
ネットワーク性能は向上するが、トランスフォーマーはより多くの計算資源を必要とすることが多い。
本稿では,教師のトランスフォーマーから,画像と分割パッチの関係を通して有用な情報を抽出することを提案する。
論文 参考訳(メタデータ) (2021-07-03T08:28:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。