論文の概要: Differentiable Dynamic Quantization with Mixed Precision and Adaptive
Resolution
- arxiv url: http://arxiv.org/abs/2106.02295v1
- Date: Fri, 4 Jun 2021 07:10:41 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-08 03:32:28.119311
- Title: Differentiable Dynamic Quantization with Mixed Precision and Adaptive
Resolution
- Title(参考訳): 混合精度と適応分解能を有する微分可能動的量子化
- Authors: Zhang Zhaoyang, Shao Wenqi, Gu Jinwei, Wang Xiaogang, Luo Ping
- Abstract要約: 微分可能な動的量子化(DDQ)は、MobileNetsのような挑戦的な軽量アーキテクチャを定量化することができる。
DDQはハードウェアフレンドリーであり、低精度行列ベクトル乗算を用いて容易に実装できる。
実験の結果、DDQは多くのネットワークやベンチマークで先行技術よりも優れていた。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Model quantization is challenging due to many tedious hyper-parameters such
as precision (bitwidth), dynamic range (minimum and maximum discrete values)
and stepsize (interval between discrete values). Unlike prior arts that
carefully tune these values, we present a fully differentiable approach to
learn all of them, named Differentiable Dynamic Quantization (DDQ), which has
several benefits. (1) DDQ is able to quantize challenging lightweight
architectures like MobileNets, where different layers prefer different
quantization parameters. (2) DDQ is hardware-friendly and can be easily
implemented using low-precision matrix-vector multiplication, making it capable
in many hardware such as ARM. (3) Extensive experiments show that DDQ
outperforms prior arts on many networks and benchmarks, especially when models
are already efficient and compact. e.g., DDQ is the first approach that
achieves lossless 4-bit quantization for MobileNetV2 on ImageNet.
- Abstract(参考訳): モデル量子化は、精度(ビット幅)、ダイナミックレンジ(最小値と最大離散値)、ステップサイズ(離散値間の間隔)など、多くの退屈なハイパーパラメータのために困難である。
これらの値を慎重に調整する先行技術とは異なり、我々はこれらすべてを学習するための完全に微分可能なアプローチ、DDQ(Dariable Dynamic Quantization)を提案し、いくつかの利点がある。
1) DDQは、異なるレイヤが異なる量子化パラメータを好むMobileNetsのような挑戦的な軽量アーキテクチャを定量化することができる。
2)DDQはハードウェアフレンドリーであり,低精度の行列ベクトル乗算を用いて容易に実装でき,ARMなどの多くのハードウェアで実現可能である。
3) 大規模実験によりDDQは多くのネットワークやベンチマークにおいて,特にモデルがすでに効率的かつコンパクトである場合,先行技術よりも優れた性能を示した。
例えば、DDQは、ImageNet上でMobileNetV2のロスレス4ビット量子化を実現する最初のアプローチである。
関連論文リスト
- Quantum Deep Equilibrium Models [1.5853439776721878]
本稿では,量子機械学習モデルのパラメータを学習するトレーニングパラダイムであるQuantum Deep Equilibrium Models (QDEQ)を紹介する。
QDEQは、既存の同等のベースラインモデルと競合するだけでなく、5倍以上のレイヤを持つネットワークよりも高いパフォーマンスを実現している。
このことは、QDEQパラダイムが与えられたタスクに対してより浅い量子回路を開発するのに利用できることを示している。
論文 参考訳(メタデータ) (2024-10-31T13:54:37Z) - SqueezeLLM: Dense-and-Sparse Quantization [80.32162537942138]
LLMにおける生成推論の主なボトルネックは、単一のバッチ推論のための計算ではなく、メモリ帯域幅である。
学習後量子化フレームワークであるSqueezeLLMを導入し、最大3ビットの超低精度でのロスレス圧縮を実現する。
本フレームワークは,2次情報に基づく最適ビット精度割当を探索する感度ベース非一様量子化法と,2次情報に基づくDense-and-Sparse分解法と,2次情報量割当値と感度重み値を効率的にスパース形式で格納するDense-and-Sparse分解法である。
論文 参考訳(メタデータ) (2023-06-13T08:57:54Z) - SDQ: Stochastic Differentiable Quantization with Mixed Precision [46.232003346732064]
本稿では,MPQ戦略を自動的に学習できる新しい微分可能量子化(SDQ)手法を提案する。
最適なMPQ戦略が得られた後、エントロピーを意識したビン正規化と知識蒸留でネットワークを訓練する。
SDQは、最先端の混合データセット、または低いビット幅で単一精度の量子化よりも優れている。
論文 参考訳(メタデータ) (2022-06-09T12:38:18Z) - DS-Net++: Dynamic Weight Slicing for Efficient Inference in CNNs and
Transformers [105.74546828182834]
本稿では,様々な難易度を持つ入力に対して,ネットワークパラメータの一部を適応的にスライスする動的ウェイトスライシングという,ハードウェア効率のよい動的推論方式を示す。
我々は、CNNのフィルタ数とCNNと変換器の多重次元を入力依存的に調整することで、動的スライム可能なネットワーク(DS-Net)と動的スライス可能なネットワーク(DS-Net++)を提案する。
論文 参考訳(メタデータ) (2021-09-21T09:57:21Z) - Dynamic Convolution for 3D Point Cloud Instance Segmentation [146.7971476424351]
動的畳み込みに基づく3次元点雲からのインスタンスセグメンテーション手法を提案する。
我々は、同じ意味圏と閉投票を持つ等質点を幾何学的遠近点に対して収集する。
提案手法は提案不要であり、代わりに各インスタンスの空間的および意味的特性に適応する畳み込みプロセスを利用する。
論文 参考訳(メタデータ) (2021-07-18T09:05:16Z) - When Liebig's Barrel Meets Facial Landmark Detection: A Practical Model [87.25037167380522]
正確で、堅牢で、効率的で、一般化可能で、エンドツーエンドのトレーニングが可能なモデルを提案する。
精度を向上させるために,2つの軽量モジュールを提案する。
DQInitは、インプットからデコーダのクエリを動的に初期化し、複数のデコーダ層を持つものと同じ精度でモデルを実現する。
QAMemは、共有するクエリではなく、それぞれのクエリに別々のメモリ値を割り当てることで、低解像度のフィーチャーマップ上のクエリの識別能力を高めるように設計されている。
論文 参考訳(メタデータ) (2021-05-27T13:51:42Z) - Post-Training Sparsity-Aware Quantization [2.2530496464901106]
量子化(quantization)は、ディープニューラルネットワーク(DNN)において、実行性能とハードウェア効率を向上させるために使用されるテクニックである。
本研究では,非構造および動的アクティベーション・スパシティを異なる表現粒度に利用したスパーシティー対応量子化(SPARQ)法を提案する。
SPARQは、小さな精度の劣化、広く使われているハードウェアアーキテクチャの2倍の高速化、実用的なハードウェア実装を実現している。
論文 参考訳(メタデータ) (2021-05-23T20:12:35Z) - Differentiable Model Compression via Pseudo Quantization Noise [99.89011673907814]
本稿では,モデルパラメータに独立な擬似量子化雑音を加えて量子化演算子の効果を近似する。
本手法が,画像分類,言語モデリング,音声ソース分離などのベンチマークやアーキテクチャにおいて,最先端の量子化技術を上回ることを実験的に検証した。
論文 参考訳(メタデータ) (2021-04-20T14:14:03Z) - Searching for Low-Bit Weights in Quantized Neural Networks [129.8319019563356]
低ビットの重みとアクティベーションを持つ量子ニューラルネットワークは、AIアクセラレータを開発する上で魅力的なものだ。
本稿では、任意の量子化ニューラルネットワークにおける離散重みを探索可能な変数とみなし、差分法を用いて正確に探索する。
論文 参考訳(メタデータ) (2020-09-18T09:13:26Z) - Differentiable Joint Pruning and Quantization for Hardware Efficiency [16.11027058505213]
DJPQは、変動情報ボトルネックに基づく構造化プルーニングと混合ビット精度量子化を1つの微分可能損失関数に組み込む。
DJPQは、複数のネットワークにおけるビット演算数(BOP)を大幅に削減し、元の浮動小数点モデルのトップ1の精度を維持していることを示す。
論文 参考訳(メタデータ) (2020-07-20T20:45:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。