論文の概要: Neural Precision Polarization: Simplifying Neural Network Inference with Dual-Level Precision
- arxiv url: http://arxiv.org/abs/2411.05845v1
- Date: Wed, 06 Nov 2024 16:02:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-12 14:08:38.228723
- Title: Neural Precision Polarization: Simplifying Neural Network Inference with Dual-Level Precision
- Title(参考訳): ニューラル精度偏極:デュアルレベル精度によるニューラルネットワーク推論の簡易化
- Authors: Dinithi Jayasuriya, Nastaran Darabi, Maeesha Binte Hashem, Amit Ranjan Trivedi,
- Abstract要約: 浮動小数点モデルはクラウドでトレーニングされ、エッジデバイスにダウンロードされる。
ネットワークの重みとアクティベーションは、NF4やINT8のようなエッジデバイスの望ましいレベルを満たすために直接量子化される。
本稿では,Watt MAC の効率と信頼性について,約464 TOPS のニューラル精度の偏極が可能であることを示す。
- 参考スコア(独自算出の注目度): 0.4124847249415279
- License:
- Abstract: We introduce a precision polarization scheme for DNN inference that utilizes only very low and very high precision levels, assigning low precision to the majority of network weights and activations while reserving high precision paths for targeted error compensation. This separation allows for distinct optimization of each precision level, thereby reducing memory and computation demands without compromising model accuracy. In the discussed approach, a floating-point model can be trained in the cloud and then downloaded to an edge device, where network weights and activations are directly quantized to meet the edge devices' desired level, such as NF4 or INT8. To address accuracy loss from quantization, surrogate paths are introduced, leveraging low-rank approximations on a layer-by-layer basis. These paths are trained with a sensitivity-based metric on minimal training data to recover accuracy loss under quantization as well as due to process variability, such as when the main prediction path is implemented using analog acceleration. Our simulation results show that neural precision polarization enables approximately 464 TOPS per Watt MAC efficiency and reliability by integrating rank-8 error recovery paths with highly efficient, though potentially unreliable, bit plane-wise compute-in-memory processing.
- Abstract(参考訳): 本稿では,DNN推論における高精度偏極方式を提案する。これは,ネットワーク重みとアクティベーションの大部分に低精度を割り当てると同時に,目標誤差補償のための高精度パスを保留する。
この分離により、各精度レベルの明確な最適化が可能となり、モデル精度を損なうことなく、メモリと計算要求を削減できる。
議論されたアプローチでは、浮動小数点モデルをクラウドでトレーニングし、エッジデバイスにダウンロードし、ネットワークの重みとアクティベーションを直接定量化し、NF4やINT8のようなエッジデバイスの望ましいレベルを満たす。
量子化による精度損失に対処するために,低ランク近似を層単位で活用して代理経路を導入する。
これらの経路は、最小限のトレーニングデータに基づいて感度ベースで訓練され、アナログ加速度を用いて主予測経路が実装された場合のようなプロセスの変動性と同様に、量子化の下での精度損失を回復する。
シミュレーション結果から,Watt MAC当たりのニューラルネットワークの精度は464 TOPS であり,高い効率でランク8エラー回復経路を統合できることが示唆された。
関連論文リスト
- Low-Precision Floating-Point for Efficient On-Board Deep Neural Network
Processing [0.9374652839580183]
本研究では,低精度(ミニ)浮動小数点演算と量子化学習法を組み合わせる方法について検討する。
その結果,6ビット浮動小数点量子化は重みとアクティベーションの両方において単一精度と競合できることがわかった。
初期のハードウェア研究は、そのような低精度浮動小数点設計の潜在的影響も確認した。
論文 参考訳(メタデータ) (2023-11-18T21:36:52Z) - Guaranteed Approximation Bounds for Mixed-Precision Neural Operators [83.64404557466528]
我々は、ニューラル演算子学習が本質的に近似誤差を誘導する直感の上に構築する。
提案手法では,GPUメモリ使用量を最大50%削減し,スループットを58%向上する。
論文 参考訳(メタデータ) (2023-07-27T17:42:06Z) - Quantized Neural Networks for Low-Precision Accumulation with Guaranteed
Overflow Avoidance [68.8204255655161]
本稿では,推定時のアキュムレータの精度を下げる際に,数値オーバーフローを回避する量子化学習アルゴリズムを提案する。
本手法は,浮動小数点点ベースラインに対するモデル精度を維持しつつ,アキュムレータの精度を低減できることを示す。
論文 参考訳(メタデータ) (2023-01-31T02:46:57Z) - Efficient and Effective Methods for Mixed Precision Neural Network
Quantization for Faster, Energy-efficient Inference [3.3213055774512648]
ネットワークの精度を下げるための量子化は、ネットワークを単純化する強力な技術である。
混合精度量子化法は,各レイヤの精度を選択的に調整し,タスク性能の最小低下を実現する。
タスク性能に及ぼすレイヤー精度選択の影響を推定するために,2つの方法を紹介した。
EAGLとALPSを用いて4ビット層と2ビット層を混合して完全精度を復元する。
論文 参考訳(メタデータ) (2023-01-30T23:26:33Z) - LG-LSQ: Learned Gradient Linear Symmetric Quantization [3.6816597150770387]
精度の低いディープニューラルネットワークは、メモリスペースとアクセルパワーのコストの観点から利点がある。
量子化アルゴリズムに関連する主な課題は、低ビット幅での精度を維持することである。
低ビット幅での重みと活性化関数の定量化手法として、学習された勾配線形量子化(LG-LSQ)を提案する。
論文 参考訳(メタデータ) (2022-02-18T03:38:12Z) - Mixed Precision Low-bit Quantization of Neural Network Language Models
for Speech Recognition [67.95996816744251]
長期間のメモリリカレントニューラルネットワーク(LSTM-RNN)とトランスフォーマーで表される最先端言語モデル(LM)は、実用アプリケーションではますます複雑で高価なものになりつつある。
現在の量子化法は、均一な精度に基づいており、量子化誤差に対するLMの異なる部分での様々な性能感度を考慮できない。
本稿では,新しい混合精度ニューラルネットワークLM量子化法を提案する。
論文 参考訳(メタデータ) (2021-11-29T12:24:02Z) - Mixed Precision of Quantization of Transformer Language Models for
Speech Recognition [67.95996816744251]
トランスフォーマーが表現する最先端のニューラルネットワークモデルは、実用アプリケーションにとってますます複雑で高価なものになりつつある。
現在の低ビット量子化法は、均一な精度に基づいており、量子化エラーに対するシステムの異なる部分での様々な性能感度を考慮できない。
最適局所精度設定は2つの手法を用いて自動的に学習される。
Penn Treebank (PTB)とSwitchboard corpusによるLF-MMI TDNNシステムの試験を行った。
論文 参考訳(メタデータ) (2021-11-29T09:57:00Z) - On the Tradeoff between Energy, Precision, and Accuracy in Federated
Quantized Neural Networks [68.52621234990728]
無線ネットワーク上でのフェデレーション学習(FL)は、精度、エネルギー効率、精度のバランスをとる必要がある。
本稿では,ローカルトレーニングとアップリンク伝送の両方において,有限レベルの精度でデータを表現できる量子化FLフレームワークを提案する。
我々のフレームワークは標準的なFLモデルと比較してエネルギー消費量を最大53%削減できる。
論文 参考訳(メタデータ) (2021-11-15T17:00:03Z) - VS-Quant: Per-vector Scaled Quantization for Accurate Low-Precision
Neural Network Inference [7.886868529510128]
量子化は、訓練されたモデルの浮動小数点重みとアクティベーションをスケールファクターを用いて低ビット幅整数値にマッピングする。
過剰な量子化、過度に精度を低下させると、精度が低下する。
ベクトル単位のスケールファクタは、2レベル量子化スキームを使用する場合、低ビット幅の整数で実装できる。
論文 参考訳(メタデータ) (2021-02-08T19:56:04Z) - DAQ: Distribution-Aware Quantization for Deep Image Super-Resolution
Networks [49.191062785007006]
画像超解像のための深い畳み込みニューラルネットワークの定量化は、計算コストを大幅に削減する。
既存の作業は、4ビット以下の超低精度の厳しい性能低下に苦しむか、または性能を回復するために重い微調整プロセスを必要とします。
高精度なトレーニングフリー量子化を実現する新しい分散認識量子化方式(DAQ)を提案する。
論文 参考訳(メタデータ) (2020-12-21T10:19:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。