論文の概要: Ternary Quantization: A Survey
- arxiv url: http://arxiv.org/abs/2303.01505v1
- Date: Thu, 2 Mar 2023 03:38:51 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-06 17:22:34.955280
- Title: Ternary Quantization: A Survey
- Title(参考訳): 三元量子化:調査
- Authors: Dan Liu, Xue Liu
- Abstract要約: 深層ニューラルネットワークモデルのデプロイには、推論時間、モデルサイズ、精度が不可欠である。
3次量子化の進化を概観し、既存の3次量子化法との関係について検討する。
- 参考スコア(独自算出の注目度): 12.90416661059601
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Inference time, model size, and accuracy are critical for deploying deep
neural network models. Numerous research efforts have been made to compress
neural network models with faster inference and higher accuracy. Pruning and
quantization are mainstream methods to this end. During model quantization,
converting individual float values of layer weights to low-precision ones can
substantially reduce the computational overhead and improve the inference
speed. Many quantization methods have been studied, for example, vector
quantization, low-bit quantization, and binary/ternary quantization. This
survey focuses on ternary quantization. We review the evolution of ternary
quantization and investigate the relationships among existing ternary
quantization methods from the perspective of projection function and
optimization methods.
- Abstract(参考訳): 深層ニューラルネットワークモデルのデプロイには、推論時間、モデルサイズ、精度が不可欠である。
ニューラルネットワークモデルをより高速な推論と高い精度で圧縮する研究が数多く行われている。
刈り取りと量子化はこの目的の主流である。
モデル量子化において、層重みの個々のフロート値を低精度に変換することで、計算オーバーヘッドを大幅に削減し、推論速度を向上させることができる。
ベクトル量子化、低ビット量子化、二進量子化など、多くの量子化法が研究されている。
本調査は3次量子化に焦点を当てる。
3次量子化の進化を概観し、射影関数と最適化法の観点から既存の3次量子化法との関係を考察する。
関連論文リスト
- ISQuant: apply squant to the real deployment [0.0]
量子化と復号化の組み合わせがモデルトレーニングに使われている理由を分析する。
8ビットモデルをデプロイするためのソリューションとしてISQuantを提案する。
論文 参考訳(メタデータ) (2024-07-05T15:10:05Z) - Mixed-Precision Inference Quantization: Radically Towards Faster
inference speed, Lower Storage requirement, and Lower Loss [4.877532217193618]
既存の量子化技術は、経験と「微調整」スキルに大きく依存している。
本研究は,完全精度モデルよりも低損失の混合精密量子化モデルを得るための方法論を提供する。
特に、巨大なアイデンティティマッピングを持つニューラルネットワークが量子化法に耐性があることを実証する。
論文 参考訳(メタデータ) (2022-07-20T10:55:34Z) - Attention Round for Post-Training Quantization [0.9558392439655015]
本稿では,アテンションラウンドと呼ばれる新しい定量化手法を提案する。
異なる量子化値にマッピングされる確率は、量子化値とwの間の距離と負に相関し、ガウス函数と崩壊する。
ResNet18 と MobileNetV2 では,本論文で提案するポストトレーニング量子化は 1,024 のトレーニングデータと 10 分しか必要としない。
論文 参考訳(メタデータ) (2022-07-07T05:04:21Z) - Cluster-Promoting Quantization with Bit-Drop for Minimizing Network
Quantization Loss [61.26793005355441]
クラスタ・プロモーティング・量子化(CPQ)は、ニューラルネットワークに最適な量子化グリッドを見つける。
DropBitsは、ニューロンの代わりにランダムにビットをドロップする標準のドロップアウト正規化を改訂する新しいビットドロップ技術である。
本手法を様々なベンチマークデータセットとネットワークアーキテクチャ上で実験的に検証する。
論文 参考訳(メタデータ) (2021-09-05T15:15:07Z) - Post-Training Quantization for Vision Transformer [85.57953732941101]
本稿では,視覚変換器のメモリ記憶量と計算コストを削減するための学習後量子化アルゴリズムを提案する。
約8ビット量子化を用いて、ImageNetデータセット上でDeiT-Bモデルを用いて81.29%のトップ-1の精度を得ることができる。
論文 参考訳(メタデータ) (2021-06-27T06:27:22Z) - In-Hindsight Quantization Range Estimation for Quantized Training [5.65658124285176]
従来の反復で推定した量子化範囲を用いて,現在を数値化する動的量子化手法であるin-hindsight range推定法を提案する。
今回のアプローチでは,ニューラルネットワークアクセラレータによる最小限のハードウェアサポートのみを必要としながら,勾配とアクティベーションの高速静的量子化を可能にする。
量子化範囲の推定のためのドロップイン代替として意図されており、他の量子化トレーニングの進歩と併用することができる。
論文 参考訳(メタデータ) (2021-05-10T10:25:28Z) - Q-Rater: Non-Convex Optimization for Post-Training Uniform Quantization [9.062897838978955]
様々な訓練後の量子一様化法は通常凸最適化に基づいている。
提案手法は,特に低量子化の場合,高いモデル精度を示す。
論文 参考訳(メタデータ) (2021-05-05T05:14:22Z) - Adaptive Quantization of Model Updates for Communication-Efficient
Federated Learning [75.45968495410047]
クライアントノードと中央集約サーバ間のモデル更新の通信は、連合学習において大きなボトルネックとなる。
グラディエント量子化(Gradient Quantization)は、各モデル更新間の通信に必要なビット数を削減する効果的な方法である。
通信効率と低エラーフロアを実現することを目的としたAdaFLと呼ばれる適応量子化戦略を提案する。
論文 参考訳(メタデータ) (2021-02-08T19:14:21Z) - Where Should We Begin? A Low-Level Exploration of Weight Initialization
Impact on Quantized Behaviour of Deep Neural Networks [93.4221402881609]
異なる重みの初期化が重みの最終的な分布と異なるCNNアーキテクチャの活性化に与える影響について、詳細なアブレーション研究を行う。
我々の知る限りでは、ウェイトの初期化とその量子化行動に対する影響について、そのような低レベルで詳細な定量分析を行うのは、私たちは初めてである。
論文 参考訳(メタデータ) (2020-11-30T06:54:28Z) - Searching for Low-Bit Weights in Quantized Neural Networks [129.8319019563356]
低ビットの重みとアクティベーションを持つ量子ニューラルネットワークは、AIアクセラレータを開発する上で魅力的なものだ。
本稿では、任意の量子化ニューラルネットワークにおける離散重みを探索可能な変数とみなし、差分法を用いて正確に探索する。
論文 参考訳(メタデータ) (2020-09-18T09:13:26Z) - Optimal Gradient Quantization Condition for Communication-Efficient
Distributed Training [99.42912552638168]
勾配の通信は、コンピュータビジョンアプリケーションで複数のデバイスでディープニューラルネットワークをトレーニングするのに費用がかかる。
本研究は,textbfANY勾配分布に対する二値および多値勾配量子化の最適条件を導出する。
最適条件に基づいて, 偏差BinGradと非偏差ORQの2値勾配量子化と多値勾配量子化の2つの新しい量子化手法を開発した。
論文 参考訳(メタデータ) (2020-02-25T18:28:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。