論文の概要: Dense Vision Transformer Compression with Few Samples
- arxiv url: http://arxiv.org/abs/2403.18708v1
- Date: Wed, 27 Mar 2024 15:56:42 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-28 16:19:17.924036
- Title: Dense Vision Transformer Compression with Few Samples
- Title(参考訳): 少数のサンプルを用いた高密度ビジョン変換器圧縮
- Authors: Hanxiao Zhang, Yifan Zhou, Guo-Hua Wang, Jianxin Wu,
- Abstract要約: 少ないショットモデル圧縮は、大きめのモデルを小さなトレーニングセット(ラベルなしでも)でよりコンパクトなモデルに圧縮することを目的としている。
本稿では,DC-ViT と呼ばれる数ショットのVT圧縮のための新しいフレームワークを提案する。
- 参考スコア(独自算出の注目度): 20.45895466934069
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Few-shot model compression aims to compress a large model into a more compact one with only a tiny training set (even without labels). Block-level pruning has recently emerged as a leading technique in achieving high accuracy and low latency in few-shot CNN compression. But, few-shot compression for Vision Transformers (ViT) remains largely unexplored, which presents a new challenge. In particular, the issue of sparse compression exists in traditional CNN few-shot methods, which can only produce very few compressed models of different model sizes. This paper proposes a novel framework for few-shot ViT compression named DC-ViT. Instead of dropping the entire block, DC-ViT selectively eliminates the attention module while retaining and reusing portions of the MLP module. DC-ViT enables dense compression, which outputs numerous compressed models that densely populate the range of model complexity. DC-ViT outperforms state-of-the-art few-shot compression methods by a significant margin of 10 percentage points, along with lower latency in the compression of ViT and its variants.
- Abstract(参考訳): 少数のショットモデル圧縮は、大きめのモデルを小さなトレーニングセット(ラベルなしでも)でよりコンパクトなモデルに圧縮することを目的としている。
ブロックレベルのプルーニングは、近ごろ、数ショットのCNN圧縮において高い精度と低レイテンシを実現するための主要な手法として登場した。
しかし、ViT(Vision Transformers)のわずかな圧縮は、まだほとんど探索されていないため、新しい課題が浮かび上がっている。
特に、スパース圧縮の問題は従来のCNN数ショット法に存在し、異なるモデルサイズで圧縮されたモデルしか生成できない。
本稿では,DC-ViT と呼ばれる数ショットのVT圧縮のための新しいフレームワークを提案する。
ブロック全体をドロップする代わりに、DC-ViTはMLPモジュールの一部を保持し再利用しながらアテンションモジュールを選択的に除去する。
DC-ViTは密度の高い圧縮を可能にし、多数の圧縮されたモデルを出力し、モデルの複雑さの範囲を密に設定する。
DC-ViTは、最新の数ショット圧縮法を10パーセントのマージンで上回り、ViTとその変種による圧縮のレイテンシが低い。
関連論文リスト
- Lossless and Near-Lossless Compression for Foundation Models [11.307357041746865]
モデル圧縮性の原因を調査し,モデルに適した圧縮変種を導入し,圧縮性グループに分類する。
我々はこれらの手法がHuggingFaceのような大きなモデルハブからダウンロードされたネットワークトラフィックの1ヶ月あたりExaByte以上を節約できると見積もっている。
論文 参考訳(メタデータ) (2024-04-05T16:52:55Z) - CAIT: Triple-Win Compression towards High Accuracy, Fast Inference, and
Favorable Transferability For ViTs [79.54107547233625]
ビジョントランスフォーマー (ViT) は様々なビジョンタスクの最先端モデルとして登場した。
本稿では,高精度かつ高速な推論速度を実現するViTのジョイント圧縮手法を提案する。
提案手法は,様々な ViT にまたがって最先端の性能を実現することができる。
論文 参考訳(メタデータ) (2023-09-27T16:12:07Z) - Lossy and Lossless (L$^2$) Post-training Model Size Compression [12.926354646945397]
本稿では,無損失圧縮と無損失圧縮を統一的に組み合わせた後学習モデルサイズ圧縮法を提案する。
精度を犠牲にすることなく安定な10times$圧縮比を達成でき、短時間で20times$圧縮比を小さくすることができる。
論文 参考訳(メタデータ) (2023-08-08T14:10:16Z) - DiffRate : Differentiable Compression Rate for Efficient Vision
Transformers [98.33906104846386]
Token圧縮は、プルーニング(ドロップ)やトークンのマージによって、大規模な視覚変換器(ViTなど)を高速化することを目的としている。
DiffRate(ディフレート)は、先行技術にはないいくつかの魅力的な特性を持つ新しいトークン圧縮手法である。
論文 参考訳(メタデータ) (2023-05-29T10:15:19Z) - COMCAT: Towards Efficient Compression and Customization of
Attention-Based Vision Models [21.07857091998763]
本稿では、視覚変換器を圧縮し、コンパクトな注意に基づく視覚モデルを得るためのツールセットを充実させる効率的な方法を提案する。
ImageNet上でDeiT-smallモデルとDeiT-baseモデルを圧縮する場合,提案手法はパラメータが少なくても0.45%,0.76%高いトップ1精度が得られる。
論文 参考訳(メタデータ) (2023-05-26T19:50:00Z) - Backdoor Attacks Against Deep Image Compression via Adaptive Frequency
Trigger [106.10954454667757]
本稿では,学習画像圧縮モデルに対する複数のトリガーを用いたバックドアアタックを提案する。
既存の圧縮システムや標準で広く使われている離散コサイン変換(DCT)に動機付けられ,周波数ベースのトリガーインジェクションモデルを提案する。
論文 参考訳(メタデータ) (2023-02-28T15:39:31Z) - Knowledge Distillation in Vision Transformers: A Critical Review [6.508088032296086]
ビジョントランスフォーマー(ViT)は、畳み込みニューラルネットワーク(CNN)よりも優れたパフォーマンス向上を実証した。
モデル圧縮は、最近、潜在的治療としてかなりの研究の注目を集めている。
本稿では、VTモデルの効率的な圧縮のためのKDに基づく様々なアプローチについて論じる。
論文 参考訳(メタデータ) (2023-02-04T06:30:57Z) - MiniViT: Compressing Vision Transformers with Weight Multiplexing [88.54212027516755]
ビジョントランスフォーマー(ViT)モデルは近年、高いモデル能力のためにコンピュータビジョンに多くの注目を集めている。
MiniViTは新しい圧縮フレームワークで、同じ性能を維持しながらビジョントランスフォーマーのパラメータ削減を実現する。
論文 参考訳(メタデータ) (2022-04-14T17:59:05Z) - Unified Visual Transformer Compression [102.26265546836329]
本稿では,3つの有効な手法をシームレスに組み立てる,統一的なViT圧縮フレームワークを提案する。
予算制約のあるエンドツーエンドの最適化フレームワークを定式化し、モデルウェイトを共同学習し、レイヤーワイドプルーニング比/マスクを作成し、構成をスキップする。
実験は、ImageNetデータセット上のDeiTやT2T-ViTのバックボーンなど、いくつかのViT変種で実施されています。
論文 参考訳(メタデータ) (2022-03-15T20:38:22Z) - What do Compressed Large Language Models Forget? Robustness Challenges
in Model Compression [68.82486784654817]
本稿では,知識蒸留とプルーニングを含む2つの一般的なモデル圧縮手法について検討する。
本研究では, 圧縮モデルが, 対向テストセット上のPLMモデルよりもはるかに頑健であることを示す。
サンプル不確実性に基づくモデル圧縮の正規化戦略を開発する。
論文 参考訳(メタデータ) (2021-10-16T00:20:04Z) - Lossless Compression with Latent Variable Models [4.289574109162585]
我々は「非対称数値系を持つビットバック」(bb-ans)と呼ぶ潜在変数モデルを用いる。
この方法は、エンコードおよびデコードステップをインターリーブし、データのバッチ圧縮時に最適なレートを達成する。
我々は,深層生成モデルを用いた圧縮の高速プロトタイピングのために開発したモジュール型ソフトウェアフレームワークである'craystack'について述べる。
論文 参考訳(メタデータ) (2021-04-21T14:03:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。