論文の概要: DiffRate : Differentiable Compression Rate for Efficient Vision
Transformers
- arxiv url: http://arxiv.org/abs/2305.17997v1
- Date: Mon, 29 May 2023 10:15:19 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-30 15:29:20.689659
- Title: DiffRate : Differentiable Compression Rate for Efficient Vision
Transformers
- Title(参考訳): ディフレート : 効率的な視覚変換器の微分圧縮速度
- Authors: Mengzhao Chen, Wenqi Shao, Peng Xu, Mingbao Lin, Kaipeng Zhang, Fei
Chao, Rongrong Ji, Yu Qiao, Ping Luo
- Abstract要約: Token圧縮は、プルーニング(ドロップ)やトークンのマージによって、大規模な視覚変換器(ViTなど)を高速化することを目的としている。
DiffRate(ディフレート)は、先行技術にはないいくつかの魅力的な特性を持つ新しいトークン圧縮手法である。
- 参考スコア(独自算出の注目度): 98.33906104846386
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Token compression aims to speed up large-scale vision transformers (e.g.
ViTs) by pruning (dropping) or merging tokens. It is an important but
challenging task. Although recent advanced approaches achieved great success,
they need to carefully handcraft a compression rate (i.e. number of tokens to
remove), which is tedious and leads to sub-optimal performance. To tackle this
problem, we propose Differentiable Compression Rate (DiffRate), a novel token
compression method that has several appealing properties prior arts do not
have. First, DiffRate enables propagating the loss function's gradient onto the
compression ratio, which is considered as a non-differentiable hyperparameter
in previous work. In this case, different layers can automatically learn
different compression rates layer-wisely without extra overhead. Second, token
pruning and merging can be naturally performed simultaneously in DiffRate,
while they were isolated in previous works. Third, extensive experiments
demonstrate that DiffRate achieves state-of-the-art performance. For example,
by applying the learned layer-wise compression rates to an off-the-shelf ViT-H
(MAE) model, we achieve a 40% FLOPs reduction and a 1.5x throughput
improvement, with a minor accuracy drop of 0.16% on ImageNet without
fine-tuning, even outperforming previous methods with fine-tuning. Codes and
models are available at https://github.com/OpenGVLab/DiffRate.
- Abstract(参考訳): Token圧縮は、プルーニング(ドロップ)やトークンのマージによって大規模な視覚変換器(ViTなど)を高速化することを目的としている。
重要なタスクですが、難しい作業です。
最近の先進的なアプローチは大きな成功を収めたが、圧縮レート(すなわち削除すべきトークンの数)を慎重に手作業で処理する必要がある。
この問題に対処するために,先行技術にはないいくつかの魅力的な特性を持つ新しいトークン圧縮法である微分圧縮率(DiffRate)を提案する。
まず、DiffRateは損失関数の勾配を圧縮比に伝播させ、これは以前の研究では微分不可能なハイパーパラメータと見なされる。
この場合、異なるレイヤは、余分なオーバーヘッドなしに、異なる圧縮率を階層的に自動的に学習することができる。
第二に、トークンのプルーニングとマージはDiffRateで同時に行うことができ、以前の作品では分離されていた。
3つ目の実験は、DiffRateが最先端のパフォーマンスを達成することを示すものである。
例えば、既定のvit-h(mae)モデルに学習層毎の圧縮速度を適用することで、40%のフラップ削減と1.5倍のスループット向上を実現し、微調整なしでimagenet上で0.16%の精度低下を実現した。
コードとモデルはhttps://github.com/opengvlab/diffrateで入手できる。
関連論文リスト
- Token Compensator: Altering Inference Cost of Vision Transformer without Re-Tuning [63.43972993473501]
視覚変換器(ViT)の訓練と推論を高速化するトークン圧縮
しかし、下流タスクに適用した場合、圧縮度はトレーニングと推論の段階で不一致となる。
本稿では,2段階間の圧縮度を分離するモデル演算フレームワークを提案する。
論文 参考訳(メタデータ) (2024-08-13T10:36:43Z) - Variable-Rate Learned Image Compression with Multi-Objective
Optimization and Quantization-Reconstruction Offsets [8.670873561640903]
本論文は,すべての潜伏テンソル要素の均一な量子化を行うために,単一量子化ステップサイズを変化させる従来のアプローチに従う。
可変レート圧縮性能を改善するために3つの改良が提案されている。
得られた可変レート圧縮結果から,複数のモデルのトレーニングと比較すると,圧縮性能の低下は無視できるか最小かのどちらかを示す。
論文 参考訳(メタデータ) (2024-02-29T07:45:02Z) - CAIT: Triple-Win Compression towards High Accuracy, Fast Inference, and
Favorable Transferability For ViTs [79.54107547233625]
ビジョントランスフォーマー (ViT) は様々なビジョンタスクの最先端モデルとして登場した。
本稿では,高精度かつ高速な推論速度を実現するViTのジョイント圧縮手法を提案する。
提案手法は,様々な ViT にまたがって最先端の性能を実現することができる。
論文 参考訳(メタデータ) (2023-09-27T16:12:07Z) - Lossy and Lossless (L$^2$) Post-training Model Size Compression [12.926354646945397]
本稿では,無損失圧縮と無損失圧縮を統一的に組み合わせた後学習モデルサイズ圧縮法を提案する。
精度を犠牲にすることなく安定な10times$圧縮比を達成でき、短時間で20times$圧縮比を小さくすることができる。
論文 参考訳(メタデータ) (2023-08-08T14:10:16Z) - High-Fidelity Variable-Rate Image Compression via Invertible Activation
Transformation [24.379052026260034]
Invertible Activation Transformation (IAT) モジュールを提案する。
IATとQLevelは、画像圧縮モデルに、画像の忠実さを良く保ちながら、細かな可変レート制御能力を与える。
提案手法は,特に複数再符号化後に,最先端の可変レート画像圧縮法よりも大きなマージンで性能を向上する。
論文 参考訳(メタデータ) (2022-09-12T07:14:07Z) - Unified Multivariate Gaussian Mixture for Efficient Neural Image
Compression [151.3826781154146]
先行変数と超優先度を持つ潜伏変数は、変動画像圧縮において重要な問題である。
ベクトル化された視点で潜伏変数を観察する際、相関関係や相関関係は存在する。
当社のモデルでは、速度歪曲性能が向上し、圧縮速度が3.18倍に向上した。
論文 参考訳(メタデータ) (2022-03-21T11:44:17Z) - Unified Visual Transformer Compression [102.26265546836329]
本稿では,3つの有効な手法をシームレスに組み立てる,統一的なViT圧縮フレームワークを提案する。
予算制約のあるエンドツーエンドの最適化フレームワークを定式化し、モデルウェイトを共同学習し、レイヤーワイドプルーニング比/マスクを作成し、構成をスキップする。
実験は、ImageNetデータセット上のDeiTやT2T-ViTのバックボーンなど、いくつかのViT変種で実施されています。
論文 参考訳(メタデータ) (2022-03-15T20:38:22Z) - Towards Compact CNNs via Collaborative Compression [166.86915086497433]
チャネルプルーニングとテンソル分解を結合してCNNモデルを圧縮する協調圧縮方式を提案する。
52.9%のFLOPを削減し、ResNet-50で48.4%のパラメータを削除しました。
論文 参考訳(メタデータ) (2021-05-24T12:07:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。