論文の概要: Bitwidth-Specific Logarithmic Arithmetic for Future Hardware-Accelerated Training
- arxiv url: http://arxiv.org/abs/2510.17058v1
- Date: Mon, 20 Oct 2025 00:25:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-25 00:56:39.269996
- Title: Bitwidth-Specific Logarithmic Arithmetic for Future Hardware-Accelerated Training
- Title(参考訳): ハードウェア加速訓練のためのビット幅比対数算術
- Authors: Hassan Hamad, Yuou Qiu, Peter A. Beerel, Keith M. Chugg,
- Abstract要約: 低精度対数固定点訓練は複雑な浮動小数点算術の代替となる。
この研究は、将来のハードウェアアクセラレーターの設計に向け、低精度対数固定点トレーニングの新たな拡張を導入する。
- 参考スコア(独自算出の注目度): 12.259268239255448
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: While advancements in quantization have significantly reduced the computational costs of inference in deep learning, training still predominantly relies on complex floating-point arithmetic. Low-precision fixed-point training presents a compelling alternative. This work introduces a novel enhancement in low-precision logarithmic fixed-point training, geared towards future hardware accelerator designs. We propose incorporating bitwidth in the design of approximations to arithmetic operations. To this end, we introduce a new hardware-friendly, piece-wise linear approximation for logarithmic addition. Using simulated annealing, we optimize this approximation at different precision levels. A C++ bit-true simulation demonstrates training of VGG-11 and VGG-16 models on CIFAR-100 and TinyImageNet, respectively, using 12-bit integer arithmetic with minimal accuracy degradation compared to 32-bit floating-point training. Our hardware study reveals up to 32.5% reduction in area and 53.5% reduction in energy consumption for the proposed LNS multiply-accumulate units compared to that of linear fixed-point equivalents.
- Abstract(参考訳): 量子化の進歩は深層学習における推論の計算コストを大幅に削減したが、訓練は依然として複雑な浮動小数点演算に依存している。
低精度の固定点トレーニングは魅力的な代替手段である。
この研究は、将来のハードウェアアクセラレーターの設計に向け、低精度対数固定点トレーニングの新たな拡張を導入する。
算術演算に対する近似の設計にビット幅を取り入れることを提案する。
そこで本研究では,対数加算のための新しいハードウェアフレンドリーな線形近似法を提案する。
シミュレーションアニールを用いることで, この近似を異なる精度で最適化する。
C++ビット真のシミュレーションでは、32ビット浮動小数点演算と比較して、12ビット整数演算を用いて、それぞれCIFAR-100とTinyImageNetでVGG-11とVGG-16モデルのトレーニングを行う。
提案したLSS乗算積算ユニットの面積を最大32.5%削減し,53.5%削減した。
関連論文リスト
- MGS: Markov Greedy Sums for Accurate Low-Bitwidth Floating-Point Accumulation [3.638431342539701]
MGS(Markov Greedy Sums)は、ニューラルネットワーク計算において、低ビット幅浮動小数点生成物の精度を改善するための新しいアプローチである。
我々は,複数のニューラルネットワークの推測時間において8ビット浮動小数点誤差を最小限に抑えるアルゴリズムを設計,解析,実装する。
論文 参考訳(メタデータ) (2025-04-12T04:19:03Z) - Taming 3DGS: High-Quality Radiance Fields with Limited Resources [50.92437599516609]
3D Gaussian Splatting (3DGS)は、高速で解釈可能で高忠実なレンダリングで新規ビュー合成を変換した。
予算で3DGSモデルをトレーニングし、レンダリングするという課題に取り組みます。
我々は、勾配計算と属性更新のための高速で数値的に等価な解を導出する。
論文 参考訳(メタデータ) (2024-06-21T20:44:23Z) - Guaranteed Approximation Bounds for Mixed-Precision Neural Operators [83.64404557466528]
我々は、ニューラル演算子学習が本質的に近似誤差を誘導する直感の上に構築する。
提案手法では,GPUメモリ使用量を最大50%削減し,スループットを58%向上する。
論文 参考訳(メタデータ) (2023-07-27T17:42:06Z) - Quantized Neural Networks for Low-Precision Accumulation with Guaranteed
Overflow Avoidance [68.8204255655161]
本稿では,推定時のアキュムレータの精度を下げる際に,数値オーバーフローを回避する量子化学習アルゴリズムを提案する。
本手法は,浮動小数点点ベースラインに対するモデル精度を維持しつつ,アキュムレータの精度を低減できることを示す。
論文 参考訳(メタデータ) (2023-01-31T02:46:57Z) - Low-Precision Training in Logarithmic Number System using Multiplicative
Weight Update [49.948082497688404]
大規模ディープニューラルネットワーク(DNN)のトレーニングは、現在かなりの量のエネルギーを必要としており、深刻な環境影響をもたらす。
エネルギーコストを削減するための有望なアプローチの1つは、DNNを低精度で表現することである。
対数数システム(LNS)と乗算重み更新訓練法(LNS-Madam)を併用した低精度トレーニングフレームワークを共同で設計する。
論文 参考訳(メタデータ) (2021-06-26T00:32:17Z) - Memristive Stochastic Computing for Deep Learning Parameter Optimization [1.6344851071810071]
コンピューティング(sc)は、ビットストリームとデジタルロジックを用いた様々な演算処理の低コストかつ低消費電力化を可能にするコンピューティングパラダイムである。
40nmの補完金属酸化物半導体(CMOS)プロセスを使用することで、拡張可能なアーキテクチャは1.55mm$2$を占め、文字認識タスクのために訓練されている間、畳み込みニューラルネットワーク(CNN)のパラメータを最適化する際に約167$mu$Wを消費します。
論文 参考訳(メタデータ) (2021-03-11T07:10:32Z) - Hybrid In-memory Computing Architecture for the Training of Deep Neural
Networks [5.050213408539571]
ハードウェアアクセラレータ上でのディープニューラルネットワーク(DNN)のトレーニングのためのハイブリッドインメモリコンピューティングアーキテクチャを提案する。
HICをベースとしたトレーニングでは,ベースラインに匹敵する精度を達成するために,推論モデルのサイズが約50%小さくなることを示す。
シミュレーションの結果,HICをベースとしたトレーニングにより,PCMの耐久限界のごく一部に,デバイスによる書き込みサイクルの回数を自然に確保できることがわかった。
論文 参考訳(メタデータ) (2021-02-10T05:26:27Z) - Multi-Precision Policy Enforced Training (MuPPET): A precision-switching
strategy for quantised fixed-point training of CNNs [13.83645579871775]
大規模な畳み込みニューラルネットワーク(CNN)は、数時間から数週間にわたる非常に長いトレーニング時間に悩まされる。
この研究は、複数の精度を利用するマルチレベルアプローチを採用することで、定量化トレーニングの境界を押し上げる。
MuPPETは、トレーニング時のスピードアップを最大1.84$times$、ネットワーク全体の平均スピードアップを1.58$times$とすることで、通常の完全精度トレーニングと同じ精度を達成する。
論文 参考訳(メタデータ) (2020-06-16T10:14:36Z) - Shifted and Squeezed 8-bit Floating Point format for Low-Precision
Training of Deep Neural Networks [13.929168096016957]
本研究では,8ビット浮動小数点(FP8)数を用いたディープニューラルネットワークのトレーニング手法を提案する。
ビット精度の低減により、有効メモリが大きくなり、計算速度が向上する。
提案手法は,従来の8ビット精度訓練法と異なり,代表モデルに対して最初から動作可能であることを示す。
論文 参考訳(メタデータ) (2020-01-16T06:38:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。