Fugu-MT 論文翻訳(概要): Ternary Quantization: A Survey

論文の概要: Ternary Quantization: A Survey

arxiv url: http://arxiv.org/abs/2303.01505v1
Date: Thu, 2 Mar 2023 03:38:51 GMT
ステータス: 翻訳完了
システム内更新日: 2023-03-06 17:22:34.955280
Title: Ternary Quantization: A Survey
Title（参考訳）: 三元量子化:調査
Authors: Dan Liu, Xue Liu
Abstract要約: 深層ニューラルネットワークモデルのデプロイには、推論時間、モデルサイズ、精度が不可欠である。 3次量子化の進化を概観し、既存の3次量子化法との関係について検討する。
参考スコア（独自算出の注目度）: 12.90416661059601
License: http://creativecommons.org/licenses/by-nc-nd/4.0/
Abstract: Inference time, model size, and accuracy are critical for deploying deep neural network models. Numerous research efforts have been made to compress neural network models with faster inference and higher accuracy. Pruning and quantization are mainstream methods to this end. During model quantization, converting individual float values of layer weights to low-precision ones can substantially reduce the computational overhead and improve the inference speed. Many quantization methods have been studied, for example, vector quantization, low-bit quantization, and binary/ternary quantization. This survey focuses on ternary quantization. We review the evolution of ternary quantization and investigate the relationships among existing ternary quantization methods from the perspective of projection function and optimization methods.
Abstract（参考訳）: 深層ニューラルネットワークモデルのデプロイには、推論時間、モデルサイズ、精度が不可欠である。ニューラルネットワークモデルをより高速な推論と高い精度で圧縮する研究が数多く行われている。刈り取りと量子化はこの目的の主流である。モデル量子化において、層重みの個々のフロート値を低精度に変換することで、計算オーバーヘッドを大幅に削減し、推論速度を向上させることができる。ベクトル量子化、低ビット量子化、二進量子化など、多くの量子化法が研究されている。本調査は3次量子化に焦点を当てる。 3次量子化の進化を概観し、射影関数と最適化法の観点から既存の3次量子化法との関係を考察する。

関連論文リスト

Starting Positions Matter: A Study on Better Weight Initialization for Neural Network Quantization [71.44469196328507]
正規化、量子化対応トレーニング、量子化不正性ペナルティといった量子化固有のモデル開発技術は、現代のDNNの精度と堅牢性を大幅に向上させるのに役立っている。本研究は, 各種CNNビルディングブロックの重み付け初期化が, 効率のよいCNNに共通する各種CNNビルディングブロックに与える影響について検討する。次に、量子化されたDNNのパラメータを予測するために、グラフハイパーネットワークス(GHN)を用いた量子化ロバストなCNN初期化の新しい手法を検討する。
論文参考訳（メタデータ） (2025-06-12T08:11:34Z)
Low-bit Model Quantization for Deep Neural Networks: A Survey [123.89598730307208]
本稿では、ディープニューラルネットワーク(DNN)における低ビット量子化に向けた最近の5年間の進歩について調査する。我々は最先端の量子化手法を議論し、それらのコア技術に基づいて8つの主要なカテゴリと24のサブカテゴリに分類する。我々は、モデル量子化の分野における潜在的研究の機会に光を当てた。
論文参考訳（メタデータ） (2025-05-08T13:26:19Z)
ISQuant: apply squant to the real deployment [0.0]
量子化と復号化の組み合わせがモデルトレーニングに使われている理由を分析する。 8ビットモデルをデプロイするためのソリューションとしてISQuantを提案する。
論文参考訳（メタデータ） (2024-07-05T15:10:05Z)
Mixed-Precision Inference Quantization: Radically Towards Faster inference speed, Lower Storage requirement, and Lower Loss [4.877532217193618]
既存の量子化技術は、経験と「微調整」スキルに大きく依存している。本研究は,完全精度モデルよりも低損失の混合精密量子化モデルを得るための方法論を提供する。特に、巨大なアイデンティティマッピングを持つニューラルネットワークが量子化法に耐性があることを実証する。
論文参考訳（メタデータ） (2022-07-20T10:55:34Z)
Attention Round for Post-Training Quantization [0.9558392439655015]
本稿では,アテンションラウンドと呼ばれる新しい定量化手法を提案する。異なる量子化値にマッピングされる確率は、量子化値とwの間の距離と負に相関し、ガウス函数と崩壊する。 ResNet18 と MobileNetV2 では,本論文で提案するポストトレーニング量子化は 1,024 のトレーニングデータと 10 分しか必要としない。
論文参考訳（メタデータ） (2022-07-07T05:04:21Z)
Cluster-Promoting Quantization with Bit-Drop for Minimizing Network Quantization Loss [61.26793005355441]
クラスタ・プロモーティング・量子化(CPQ)は、ニューラルネットワークに最適な量子化グリッドを見つける。 DropBitsは、ニューロンの代わりにランダムにビットをドロップする標準のドロップアウト正規化を改訂する新しいビットドロップ技術である。本手法を様々なベンチマークデータセットとネットワークアーキテクチャ上で実験的に検証する。
論文参考訳（メタデータ） (2021-09-05T15:15:07Z)
Post-Training Quantization for Vision Transformer [85.57953732941101]
本稿では,視覚変換器のメモリ記憶量と計算コストを削減するための学習後量子化アルゴリズムを提案する。約8ビット量子化を用いて、ImageNetデータセット上でDeiT-Bモデルを用いて81.29%のトップ-1の精度を得ることができる。
論文参考訳（メタデータ） (2021-06-27T06:27:22Z)
In-Hindsight Quantization Range Estimation for Quantized Training [5.65658124285176]
従来の反復で推定した量子化範囲を用いて,現在を数値化する動的量子化手法であるin-hindsight range推定法を提案する。今回のアプローチでは,ニューラルネットワークアクセラレータによる最小限のハードウェアサポートのみを必要としながら,勾配とアクティベーションの高速静的量子化を可能にする。量子化範囲の推定のためのドロップイン代替として意図されており、他の量子化トレーニングの進歩と併用することができる。
論文参考訳（メタデータ） (2021-05-10T10:25:28Z)
Q-Rater: Non-Convex Optimization for Post-Training Uniform Quantization [9.062897838978955]
様々な訓練後の量子一様化法は通常凸最適化に基づいている。提案手法は,特に低量子化の場合,高いモデル精度を示す。
論文参考訳（メタデータ） (2021-05-05T05:14:22Z)
Adaptive Quantization of Model Updates for Communication-Efficient Federated Learning [75.45968495410047]
クライアントノードと中央集約サーバ間のモデル更新の通信は、連合学習において大きなボトルネックとなる。グラディエント量子化(Gradient Quantization)は、各モデル更新間の通信に必要なビット数を削減する効果的な方法である。通信効率と低エラーフロアを実現することを目的としたAdaFLと呼ばれる適応量子化戦略を提案する。
論文参考訳（メタデータ） (2021-02-08T19:14:21Z)
Where Should We Begin? A Low-Level Exploration of Weight Initialization Impact on Quantized Behaviour of Deep Neural Networks [93.4221402881609]
異なる重みの初期化が重みの最終的な分布と異なるCNNアーキテクチャの活性化に与える影響について、詳細なアブレーション研究を行う。我々の知る限りでは、ウェイトの初期化とその量子化行動に対する影響について、そのような低レベルで詳細な定量分析を行うのは、私たちは初めてである。
論文参考訳（メタデータ） (2020-11-30T06:54:28Z)
Searching for Low-Bit Weights in Quantized Neural Networks [129.8319019563356]
低ビットの重みとアクティベーションを持つ量子ニューラルネットワークは、AIアクセラレータを開発する上で魅力的なものだ。本稿では、任意の量子化ニューラルネットワークにおける離散重みを探索可能な変数とみなし、差分法を用いて正確に探索する。
論文参考訳（メタデータ） (2020-09-18T09:13:26Z)
Optimal Gradient Quantization Condition for Communication-Efficient Distributed Training [99.42912552638168]
勾配の通信は、コンピュータビジョンアプリケーションで複数のデバイスでディープニューラルネットワークをトレーニングするのに費用がかかる。本研究は,textbfANY勾配分布に対する二値および多値勾配量子化の最適条件を導出する。最適条件に基づいて, 偏差BinGradと非偏差ORQの2値勾配量子化と多値勾配量子化の2つの新しい量子化手法を開発した。
論文参考訳（メタデータ） (2020-02-25T18:28:39Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。