Fugu-MT 論文翻訳(概要): FBM: Fast-Bit Allocation for Mixed-Precision Quantization

論文の概要: FBM: Fast-Bit Allocation for Mixed-Precision Quantization

arxiv url: http://arxiv.org/abs/2205.15437v1
Date: Mon, 30 May 2022 21:23:22 GMT
ステータス: 翻訳完了
システム内更新日: 2022-06-01 14:54:17.541346
Title: FBM: Fast-Bit Allocation for Mixed-Precision Quantization
Title（参考訳）: FBM:Mixed-Precision Quantizationのための高速ビット割り当て
Authors: Moshe Kimhi, Tal Rozen, Tal Kopetz, Olya Sirkin, Avi Mendelson, Chaim Baskin
Abstract要約: 量子ニューラルネットワークは、レイテンシ、消費電力、モデルサイズを精度を大幅に低下させることなく減少させることでよく知られている。混合精度量子化は、異なるビット幅での算術演算をサポートするカスタマイズされたハードウェアのより良い利用を提供する。既存の混合精度のスキームは、高い探査スペースを持つことに依存しており、結果として大きな炭素フットプリントとなる。本研究では,FBM(Fast-Bit Allocation for Mixed-Precision Quantization)を提案する。
参考スコア（独自算出の注目度）: 1.4941013982958207
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: Quantized neural networks are well known for reducing latency, power consumption, and model size without significant degradation in accuracy, making them highly applicable for systems with limited resources and low power requirements. Mixed precision quantization offers better utilization of customized hardware that supports arithmetic operations at different bitwidths. Existing mixed-precision schemes rely on having a high exploration space, resulting in a large carbon footprint. In addition, these bit allocation strategies mostly induce constraints on the model size rather than utilizing the performance of neural network deployment on specific hardware. Our work proposes Fast-Bit Allocation for Mixed-Precision Quantization (FBM), which finds an optimal bitwidth allocation by measuring desired behaviors through a simulation of a specific device, or even on a physical one. While dynamic transitions of bit allocation in mixed precision quantization with ultra-low bitwidth are known to suffer from performance degradation, we present a fast recovery solution from such transitions. A comprehensive evaluation of the proposed method on CIFAR-10 and ImageNet demonstrates our method's superiority over current state-of-the-art schemes in terms of the trade-off between neural network accuracy and hardware efficiency. Our source code, experimental settings and quantized models are available at https://github.com/RamorayDrake/FBM/
Abstract（参考訳）: 量子化されたニューラルネットワークは、精度を著しく低下させることなくレイテンシ、消費電力、モデルサイズを減らすことでよく知られており、リソースの少ないシステムや低消費電力システムに適用できる。混合精度量子化は、異なるビット幅での算術演算をサポートするカスタマイズハードウェアのより良い利用を提供する。既存の混合精密スキームは、高い探検空間を持つことに依存しているため、カーボンフットプリントが大きくなる。さらに、これらのビット割り当て戦略は、特定のハードウェア上でのニューラルネットワークデプロイメントのパフォーマンスを活用するのではなく、モデルサイズに対する制約を主に引き起こす。そこで本研究では,混合精度量子化(fbm)のための高速ビット割り当てを提案する。超低ビット幅の混合精度量子化におけるビット割り当ての動的遷移は性能劣化に苦しむことが知られているが、このような遷移から高速に回復する解を示す。 CIFAR-10 と ImageNet における提案手法の総合評価は,ニューラルネットワークの精度とハードウェア効率のトレードオフの観点から,現在の最先端方式よりも優れていることを示す。ソースコード、実験的設定、量子化モデルはhttps://github.com/RamorayDrake/FBM/で利用可能です。

関連論文リスト

MPQ-DMv2: Flexible Residual Mixed Precision Quantization for Low-Bit Diffusion Models with Temporal Distillation [74.34220141721231]
我々は,textbfMixed textbfPrecision textbfQuantizationフレームワークを改良したMPQ-DMv2を提案する。
論文参考訳（メタデータ） (2025-07-06T08:16:50Z)
QPART: Adaptive Model Quantization and Dynamic Workload Balancing for Accuracy-aware Edge Inference [10.55165549089585]
要求固有のモデルによる推論パターンをデバイスの計算能力に合わせて計画することは、多様なシナリオに対してよりコスト効率が高く、堅牢である、と我々は主張する。本稿では,共同モデル量子化と推論分割を統合した,精度の高いワークロードバランス推論システムを提案する。シミュレーションの結果、全体の時間と消費電力が大幅に減少し、ペイロードは80%以上減少し、精度は1%以下に抑えられた。
論文参考訳（メタデータ） (2025-06-30T15:03:35Z)
Pushing the Limits of Low-Bit Optimizers: A Focus on EMA Dynamics [65.37942405146232]
超低精度量子化により達成された,超軽量な状態要素を持つ新しいタイプのオーバーロードを提案する。提案したSOLOは,精度の低下を最小限に抑え,メモリの大幅な節約(7Bモデルのトレーニング時に約45GB)を実現する。
論文参考訳（メタデータ） (2025-05-01T06:47:45Z)
Gradient-based Automatic Mixed Precision Quantization for Neural Networks On-Chip [0.9187138676564589]
本稿では,革新的な量子化学習手法である高粒度量子化(HGQ)を提案する。 HGQは、勾配降下によって最適化できるようにすることで、重量当たりおよび活動当たりの精度を微調整する。このアプローチは、演算演算が可能なハードウェア上で、超低レイテンシと低電力ニューラルネットワークを実現する。
論文参考訳（メタデータ） (2024-05-01T17:18:46Z)
On-Chip Hardware-Aware Quantization for Mixed Precision Neural Networks [52.97107229149988]
エッジデバイス上でハードウェア対応の混合精度量子化を行うOn-Chipハードウェア・アウェア量子化フレームワークを提案する。このパイプラインは、量子化プロセスが量子化演算子の実際のハードウェア効率を知覚することを可能にする。精度測定のために,マルチチップシナリオにおける演算子の精度への影響を効果的に推定するMask-Guided Quantization Estimation技術を提案する。
論文参考訳（メタデータ） (2023-09-05T04:39:34Z)
Mixed Precision Post Training Quantization of Neural Networks with Sensitivity Guided Search [7.392278887917975]
混合精度量子化により、異なるテンソルを様々な数値精度のレベルに量子化することができる。我々は,コンピュータビジョンと自然言語処理の手法を評価し,最大27.59%,34.31%のレイテンシ低減を実証した。
論文参考訳（メタデータ） (2023-02-02T19:30:00Z)
Performance Optimization for Variable Bitwidth Federated Learning in Wireless Networks [103.22651843174471]
本稿では,モデル量子化による統合学習(FL)における無線通信と計算効率の向上について考察する。提案したビット幅FL方式では,エッジデバイスは局所FLモデルパラメータの量子化バージョンを調整し,コーディネートサーバに送信し,それらを量子化されたグローバルモデルに集約し,デバイスを同期させる。 FLトレーニングプロセスはマルコフ決定プロセスとして記述でき、反復よりも行動選択を最適化するためのモデルベース強化学習(RL)手法を提案する。
論文参考訳（メタデータ） (2022-09-21T08:52:51Z)
Mixed Precision Low-bit Quantization of Neural Network Language Models for Speech Recognition [67.95996816744251]
長期間のメモリリカレントニューラルネットワーク(LSTM-RNN)とトランスフォーマーで表される最先端言語モデル(LM)は、実用アプリケーションではますます複雑で高価なものになりつつある。現在の量子化法は、均一な精度に基づいており、量子化誤差に対するLMの異なる部分での様々な性能感度を考慮できない。本稿では,新しい混合精度ニューラルネットワークLM量子化法を提案する。
論文参考訳（メタデータ） (2021-11-29T12:24:02Z)
Mixed Precision of Quantization of Transformer Language Models for Speech Recognition [67.95996816744251]
トランスフォーマーが表現する最先端のニューラルネットワークモデルは、実用アプリケーションにとってますます複雑で高価なものになりつつある。現在の低ビット量子化法は、均一な精度に基づいており、量子化エラーに対するシステムの異なる部分での様々な性能感度を考慮できない。最適局所精度設定は2つの手法を用いて自動的に学習される。 Penn Treebank (PTB)とSwitchboard corpusによるLF-MMI TDNNシステムの試験を行った。
論文参考訳（メタデータ） (2021-11-29T09:57:00Z)
Efficient Micro-Structured Weight Unification and Pruning for Neural Network Compression [56.83861738731913]
ディープニューラルネットワーク(DNN)モデルは、特にリソース制限されたデバイスにおいて、実用的なアプリケーションに不可欠である。既往の非構造的あるいは構造化された重量刈り法は、推論を真に加速することはほとんど不可能である。ハードウェア互換のマイクロ構造レベルでの一般化された重み統一フレームワークを提案し,高い圧縮と加速度を実現する。
論文参考訳（メタデータ） (2021-06-15T17:22:59Z)
AQD: Towards Accurate Fully-Quantized Object Detection [94.06347866374927]
本稿では,浮動小数点演算を除去するために,AQDと呼ばれる高精度な量子化オブジェクト検出ソリューションを提案する。我々のAQDは、非常に低ビットのスキームの下での完全精度と比較して、同等またはそれ以上の性能を実現しています。
論文参考訳（メタデータ） (2020-07-14T09:07:29Z)
FracBits: Mixed Precision Quantization via Fractional Bit-Widths [29.72454879490227]
混合精度量子化は、複数のビット幅での算術演算をサポートするカスタマイズハードウェアで好適である。本稿では,目標計算制約下での混合精度モデルに基づく学習に基づく新しいアルゴリズムを提案する。
論文参考訳（メタデータ） (2020-07-04T06:09:09Z)
Automatic heterogeneous quantization of deep neural networks for low-latency inference on the edge for particle detectors [5.609098985493794]
我々は,チップ上での最小エネルギー,高精度,ナノ秒の推論,完全自動展開のための,深層ニューラルネットワークモデルの最適ヘテロジニゼーションバージョンを設計する手法を提案する。これはCERN大型ハドロン衝突型加速器における陽子-陽子衝突におけるイベント選択の手順に不可欠であり、リソースは厳密に制限され、$mathcal O(1)mu$sのレイテンシが要求される。
論文参考訳（メタデータ） (2020-06-15T15:07:49Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。