論文の概要: I&S-ViT: An Inclusive & Stable Method for Pushing the Limit of Post-Training ViTs Quantization
- arxiv url: http://arxiv.org/abs/2311.10126v2
- Date: Thu, 14 Nov 2024 07:43:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-15 15:22:12.743197
- Title: I&S-ViT: An Inclusive & Stable Method for Pushing the Limit of Post-Training ViTs Quantization
- Title(参考訳): I&S-ViT:ポストトレーニングViTs量子化の限界を押し上げる包括的で安定な方法
- Authors: Yunshan Zhong, Jiawei Hu, Mengzhao Chen, Rongrong Ji,
- Abstract要約: 我々は,ViTのPTQを包括的かつ安定した方法で制御する新しい手法であるI&S-ViTを紹介する。
I&S-ViTは3ビットのViT-Bの性能を50.68%向上させた。
- 参考スコア(独自算出の注目度): 49.17407185195788
- License:
- Abstract: Albeit the scalable performance of vision transformers (ViTs), the dense computational costs (training & inference) undermine their position in industrial applications. Post-training quantization (PTQ), tuning ViTs with a tiny dataset and running in a low-bit format, well addresses the cost issue but unluckily bears more performance drops in lower-bit cases. In this paper, we introduce I&S-ViT, a novel method that regulates the PTQ of ViTs in an inclusive and stable fashion. I&S-ViT first identifies two issues in the PTQ of ViTs: (1) Quantization inefficiency in the prevalent log2 quantizer for post-Softmax activations; (2) Rugged and magnified loss landscape in coarse-grained quantization granularity for post-LayerNorm activations. Then, I&S-ViT addresses these issues by introducing: (1) A novel shift-uniform-log2 quantizer (SULQ) that incorporates a shift mechanism followed by uniform quantization to achieve both an inclusive domain representation and accurate distribution approximation; (2) A three-stage smooth optimization strategy (SOS) that amalgamates the strengths of channel-wise and layer-wise quantization to enable stable learning. Comprehensive evaluations across diverse vision tasks validate I&S-ViT' superiority over existing PTQ of ViTs methods, particularly in low-bit scenarios. For instance, I&S-ViT elevates the performance of 3-bit ViT-B by an impressive 50.68%.
- Abstract(参考訳): 視覚変換器(ViT)のスケーラブルな性能に加えて、密度の高い計算コスト(トレーニングと推論)は産業応用におけるその位置を損なう。
トレーニング後の量子化(PTQ)、小さなデータセットでViTをチューニングし、低ビットフォーマットで実行することで、コスト問題に対処するが、低ビットケースではパフォーマンスの低下は残念だ。
本稿では,ViTのPTQを包括的かつ安定した方法で制御する新しい手法であるI&S-ViTを紹介する。
I&S-ViT は、最初に ViTs の PTQ における2つの問題を識別する: 1) ソフトマックス後のアクティベーションのための一般的な log2 量子化器の量子化不効率、(2) 粗粒の量子化粒度の粗粒化における粗粒化と拡大されたロスランドスケープ。
I&S-ViTは、(1)シフト機構を組み込んだ新しいシフトユニフォームlog2量子化器(SULQ)、(2)チャネルワイドおよび層ワイド量子化の強みを相殺して安定した学習を可能にする3段階スムーズな最適化戦略(SOS)を導入して、これらの課題に対処する。
様々な視覚タスクにわたる総合的な評価は、特に低ビットシナリオにおいて、既存のViTsメソッドのPTQよりもI&S-ViTの優位性を検証する。
例えば、I&S-ViTは3ビットのViT-Bの性能を50.68%向上させる。
関連論文リスト
- DopQ-ViT: Towards Distribution-Friendly and Outlier-Aware Post-Training Quantization for Vision Transformers [2.0862654518798034]
本稿では,視覚変換器のための分散親和性・外乱性を考慮したポストトレーニング量子化手法を提案する。
DopQ-ViTは、現在の量子化器の非効率性を分析し、TanQと呼ばれる分布に優しいタン量子化器を導入する。
DopQ-ViTは広範囲に検証され、量子化モデルの性能が大幅に向上した。
論文 参考訳(メタデータ) (2024-08-06T16:40:04Z) - AdaLog: Post-Training Quantization for Vision Transformers with Adaptive Logarithm Quantizer [54.713778961605115]
Vision Transformer (ViT) はコンピュータビジョンコミュニティにおいて最も普及しているバックボーンネットワークの1つである。
本稿では,AdaLog(Adaptive Logarithm AdaLog)量子化器を提案する。
論文 参考訳(メタデータ) (2024-07-17T18:38:48Z) - ADFQ-ViT: Activation-Distribution-Friendly Post-Training Quantization for Vision Transformers [7.155242379236052]
ビジョントランスフォーマー(ViT)の量子化は、これらの課題を緩和するための有望なソリューションとして現れている。
既存の手法は依然として低ビットでの精度の低下に悩まされている。
ADFQ-ViTは、画像分類、オブジェクト検出、および4ビットでのインスタンスセグメンテーションタスクにおいて、様々なベースラインを大幅に改善する。
論文 参考訳(メタデータ) (2024-07-03T02:41:59Z) - Edge-MoE: Memory-Efficient Multi-Task Vision Transformer Architecture
with Task-level Sparsity via Mixture-of-Experts [60.1586169973792]
M$3$ViTは、Mix-of-experts (MoE)を導入した最新のマルチタスクViTモデルである。
MoEは精度の向上と80%以上の削減計算を実現しているが、FPGAに効率的なデプロイを行う上での課題は残されている。
Edge-MoEと呼ばれる私たちの研究は、アーキテクチャの革新の集合を伴って、マルチタスクのViTのための最初のエンドツーエンドFPGAアクセラレータを導入するという課題を解決します。
論文 参考訳(メタデータ) (2023-05-30T02:24:03Z) - Towards Accurate Post-Training Quantization for Vision Transformer [48.779346466374406]
既存のトレーニング後の量子化手法は依然として深刻な性能低下を引き起こしている。
APQ-ViTは、既存のトレーニング後の量子化手法を証明マージンによって超越している。
論文 参考訳(メタデータ) (2023-03-25T03:05:26Z) - RepQ-ViT: Scale Reparameterization for Post-Training Quantization of
Vision Transformers [2.114921680609289]
視覚変換器のための新しいPTQフレームワークRepQ-ViTを提案する。
RepQ-ViTは量子化と推論プロセスを分離する。
既存の強力なベースラインを上回り、ViTの4ビットPTQの精度を有効レベルまで向上させることができる。
論文 参考訳(メタデータ) (2022-12-16T02:52:37Z) - Q-ViT: Accurate and Fully Quantized Low-bit Vision Transformer [56.87383229709899]
我々は、完全量子化視覚変換器(Q-ViT)のための情報修正モジュール(IRM)と分配誘導蒸留法を開発した。
我々の手法は、先行技術よりもはるかに優れたパフォーマンスを実現している。
論文 参考訳(メタデータ) (2022-10-13T04:00:29Z) - Coarse-to-Fine Vision Transformer [83.45020063642235]
性能を維持しながら計算負担を軽減するための粗視変換器(CF-ViT)を提案する。
提案するCF-ViTは,近代的なViTモデルにおける2つの重要な観測によって動機付けられている。
CF-ViTはLV-ViTのFLOPを53%削減し,スループットも2.01倍に向上した。
論文 参考訳(メタデータ) (2022-03-08T02:57:49Z) - Q-ViT: Fully Differentiable Quantization for Vision Transformer [27.361973340056963]
本稿では、Q-ViTと呼ばれる視覚変換器(ViT)の完全微分可能量子化法を提案する。
ヘッドワイドビット幅を利用して、Q-ViTのサイズを圧縮し、性能を保ちます。
特に,DeiT-Tinyでは,最先端の一様量子化法を1.5%向上させる。
論文 参考訳(メタデータ) (2022-01-19T16:43:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。