論文の概要: Automatic mixed precision for optimizing gained time with constrained loss mean-squared-error based on model partition to sequential sub-graphs
- arxiv url: http://arxiv.org/abs/2505.13060v1
- Date: Mon, 19 May 2025 12:51:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-20 14:57:11.596236
- Title: Automatic mixed precision for optimizing gained time with constrained loss mean-squared-error based on model partition to sequential sub-graphs
- Title(参考訳): 連続部分グラフへのモデル分割に基づく制約付き損失平均二乗誤差による利得時間の自動混合精度
- Authors: Shmulik Markovich-Golan, Daniel Ohayon, Itay Niv, Yair Hanani,
- Abstract要約: 混合精度(MP)は、ネットワーク層間での数値的精度の変化によってトレードオフを緩和する。
本研究では,PTQ(Post-Training Quantization)内の最適なMP構成を自動的に選択することに焦点を当てた。
- 参考スコア(独自算出の注目度): 0.8999666725996975
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Quantization is essential for Neural Network (NN) compression, reducing model size and computational demands by using lower bit-width data types, though aggressive reduction often hampers accuracy. Mixed Precision (MP) mitigates this tradeoff by varying the numerical precision across network layers. This study focuses on automatically selecting an optimal MP configuration within Post-Training Quantization (PTQ) for inference. The first key contribution is a novel sensitivity metric derived from a first-order Taylor series expansion of the loss function as a function of quantization errors in weights and activations. This metric, based on the Mean Square Error (MSE) of the loss, is efficiently calculated per layer using high-precision forward and backward passes over a small calibration dataset. The metric is additive across layers, with low calibration memory overhead as weight optimization is unnecessary. The second contribution is an accurate hardware-aware method for predicting MP time gain by modeling it as additive for sequential sub-graphs. An algorithm partitions the model graph into sequential subgraphs, measuring time gain for each configuration using a few samples. After calibrating per-layer sensitivity and time gain, an Integer Programming (IP) problem is formulated to maximize time gain while keeping loss MSE below a set threshold. Memory gain and theoretical time gain based on Multiply and Accumulate (MAC) operations are also considered. Rigorous experiments on the Intel Gaudi 2 accelerator validate the approach on several Large Language Models (LLMs).
- Abstract(参考訳): ニューラルネットワーク(NN)圧縮では量子化が不可欠であり、ビット幅の低いデータ型を使用することでモデルサイズと計算要求を削減できるが、アグレッシブな削減はしばしば精度を損なう。
混合精度(MP)は、ネットワーク層間で数値的精度を変化させることで、このトレードオフを緩和する。
本研究では,PTQ(Post-Training Quantization)内の最適なMP構成を自動的に選択することに焦点を当てた。
第1のキーコントリビューションは、ウェイトとアクティベーションにおける量子化誤差の関数としての損失関数の1階テイラー級数展開に由来する新しい感度計量である。
損失の平均角誤差(MSE)に基づいて、この測定値は、小さなキャリブレーションデータセットを超越した高精度の前方および後方通過を用いて、各層毎の効率よく計算される。
重量最適化は不要であるため、メモリのキャリブレーションのオーバーヘッドは低い。
第2のコントリビューションは、逐次サブグラフの付加物としてモデル化することで、MPタイムゲインを予測するための正確なハードウェア認識手法である。
アルゴリズムはモデルグラフをシーケンシャルなサブグラフに分割し、いくつかのサンプルを使用して各構成の時間ゲインを測定する。
層ごとの感度と時間ゲインを校正した後、Integer Programming(IP)問題を定式化し、損失MSEを設定閾値以下に保ちながら時間ゲインを最大化する。
また、Multiply and Accumulate(MAC)演算に基づくメモリゲインと理論的時間ゲインも検討する。
Intel Gaudi 2アクセラレータの厳密な実験は、いくつかの大規模言語モデル(LLM)のアプローチを検証する。
関連論文リスト
- Value-Driven Mixed-Precision Quantization for Patch-Based Inference on
Microcontrollers [35.666772630923234]
QuantMCUは、値駆動型混合精度量子化を利用して冗長計算を減らす、パッチベースの新しい推論手法である。
我々は,QuantMCUが平均2.2倍の計算量を削減できることを示す。
論文 参考訳(メタデータ) (2024-01-24T04:21:41Z) - Mixed-Precision Quantization for Deep Vision Models with Integer Quadratic Programming [7.0146264551420066]
量子化はニューラルネットワークを圧縮する技術として広く使われている。
MPQは、様々なビット幅をレイヤに割り当て、精度と効率のトレードオフを最適化することで、この問題に対処する。
我々は、量子化誤差の層間依存性をキャプチャする実用的な感度に基づくMPQアルゴリズムであるCLADOを紹介する。
論文 参考訳(メタデータ) (2023-07-11T15:56:00Z) - Augmenting Hessians with Inter-Layer Dependencies for Mixed-Precision
Post-Training Quantization [7.392278887917975]
本稿では,ネットワーク上のテンソルに異なる数値精度を割り当てる混合精度ポストトレーニング量子化手法を提案する。
実験では,16ビットベースラインの25.48%$,21.69%$,33.28%$に対して,レイテンシの低減を実証した。
論文 参考訳(メタデータ) (2023-06-08T02:18:58Z) - Winner-Take-All Column Row Sampling for Memory Efficient Adaptation of Language Model [89.8764435351222]
分散を低減した行列生成のために, WTA-CRS と呼ばれる新しい非バイアス推定系を提案する。
我々の研究は、チューニング変換器の文脈において、提案した推定器が既存のものよりも低い分散を示すという理論的および実験的証拠を提供する。
論文 参考訳(メタデータ) (2023-05-24T15:52:08Z) - AMED: Automatic Mixed-Precision Quantization for Edge Devices [3.5223695602582614]
量子ニューラルネットワークは、レイテンシ、消費電力、モデルサイズをパフォーマンスに大きな影響を与えずに減少させることでよく知られている。
混合精度量子化は、異なるビット幅での算術演算をサポートするカスタマイズされたハードウェアのより良い利用を提供する。
論文 参考訳(メタデータ) (2022-05-30T21:23:22Z) - Mixed Precision Low-bit Quantization of Neural Network Language Models
for Speech Recognition [67.95996816744251]
長期間のメモリリカレントニューラルネットワーク(LSTM-RNN)とトランスフォーマーで表される最先端言語モデル(LM)は、実用アプリケーションではますます複雑で高価なものになりつつある。
現在の量子化法は、均一な精度に基づいており、量子化誤差に対するLMの異なる部分での様々な性能感度を考慮できない。
本稿では,新しい混合精度ニューラルネットワークLM量子化法を提案する。
論文 参考訳(メタデータ) (2021-11-29T12:24:02Z) - Mixed Precision of Quantization of Transformer Language Models for
Speech Recognition [67.95996816744251]
トランスフォーマーが表現する最先端のニューラルネットワークモデルは、実用アプリケーションにとってますます複雑で高価なものになりつつある。
現在の低ビット量子化法は、均一な精度に基づいており、量子化エラーに対するシステムの異なる部分での様々な性能感度を考慮できない。
最適局所精度設定は2つの手法を用いて自動的に学習される。
Penn Treebank (PTB)とSwitchboard corpusによるLF-MMI TDNNシステムの試験を行った。
論文 参考訳(メタデータ) (2021-11-29T09:57:00Z) - AQD: Towards Accurate Fully-Quantized Object Detection [94.06347866374927]
本稿では,浮動小数点演算を除去するために,AQDと呼ばれる高精度な量子化オブジェクト検出ソリューションを提案する。
我々のAQDは、非常に低ビットのスキームの下での完全精度と比較して、同等またはそれ以上の性能を実現しています。
論文 参考訳(メタデータ) (2020-07-14T09:07:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。