Fugu-MT 論文翻訳(概要): Accuracy Boosters: Epoch-Driven Mixed-Mantissa Block Floating-Point for DNN Training

論文の概要: Accuracy Boosters: Epoch-Driven Mixed-Mantissa Block Floating-Point for DNN Training

arxiv url: http://arxiv.org/abs/2211.10737v3
Date: Fri, 30 Jun 2023 12:42:50 GMT
ステータス: 翻訳完了
システム内更新日: 2023-07-03 15:42:24.290104
Title: Accuracy Boosters: Epoch-Driven Mixed-Mantissa Block Floating-Point for DNN Training
Title（参考訳）: 精度ブースター:dnnトレーニングのためのエポック駆動混合マニサブロック浮動小数点
Authors: Simla Burcu Harma, Ayan Chakraborty, Babak Falsafi, Martin Jaggi, Yunho Oh
Abstract要約: 本手法では,6ビットのマンティッサを最後のエポック層と第1層にのみ使用し,4ビットのマンティッサを99.7%の価格で,エポック駆動混合マンティッサHBFP法を提案する。解析モデルを用いて、HBFPトレーニングアクセラレータの算術密度をFP32と比較して最大21.3倍、他のSOTAフォーマットであるBfloat16と比較して最大4.4倍に向上し、FP32の精度を保留または上回ることを示す。
参考スコア（独自算出の注目度）: 41.902978559634846
License: http://creativecommons.org/licenses/by/4.0/
Abstract: The unprecedented growth in DNN model complexity, size, and amount of training data has led to a commensurate increase in demand for computing and a search for minimal encoding. Recent research advocates Hybrid Block Floating Point (HBFP) to minimize silicon provisioning in accelerators by converting the majority of arithmetic operations in training to 8-bit fixed point. In this paper, we perform a full-scale exploration of the HBFP design space using mathematical tools to study the interplay among various parameters and identify opportunities for even smaller encodings across layers and epochs. Based on our findings, we propose Accuracy Boosters, an epoch-driven mixed-mantissa HBFP technique that uses 6-bit mantissas only in the last epoch and first/last layers, and 4-bit mantissas for $99.7\%$ of all other arithmetic operations in training. Using analytic models, we show Accuracy Boosters enable increasing arithmetic density for an HBFP training accelerator by up to $21.3\times$ compared to FP32 and up to $4.4\times$ compared to another SOTA format Bfloat16, while preserving or outperforming FP32 accuracy.
Abstract（参考訳）: DNNモデルの複雑さ、サイズ、トレーニングデータの量に対する前例のない成長は、コンピューティングの需要の増大と最小エンコーディングの探索につながった。近年、HBFP(Hybrid Block Floating Point)は、計算演算の大部分を8ビットの固定点に変換することで、加速器のシリコン供給を最小限に抑えることを提唱している。本稿では,HBFP設計空間を数学的ツールを用いて大規模に探索し,様々なパラメータ間の相互作用を研究し,層やエポックをまたいでさらに小さなエンコーディングを行う機会を特定する。提案手法は,6ビットのマンティッサを最後のエポック層と第1層と第1層にのみ使用し,さらに4ビットのマンティッサを99.7 %の価格でトレーニングを行う。解析モデルを用いて、HBFPトレーニングアクセラレータの算術密度をFP32と比較して最大21.3\times$、他のSOTAフォーマットであるBfloat16と比較して最大4.4\times$で増加し、FP32の精度を保留または上回ることを示す。

関連論文リスト

MiniCPM4: Ultra-Efficient LLMs on End Devices [124.73631357883228]
MiniCPM4は、エンドサイドデバイス向けに明示的に設計された高効率な大規模言語モデル(LLM)である。この効率性は、モデルアーキテクチャ、トレーニングデータ、トレーニングアルゴリズム、推論システムという4つの重要な側面において、体系的な革新を通じて達成します。 MiniCPM4は、それぞれ0.5Bと8Bのパラメータを持つ2つのバージョンで利用可能である。
論文参考訳（メタデータ） (2025-06-09T16:16:50Z)
Quartet: Native FP4 Training Can Be Optimal for Large Language Models [27.800012997794987]
大規模言語モデル(LLM)モデルを低精度で直接訓練することは、計算コストに対処する方法を提供する。 NVIDIAの最近のBlackwellアーキテクチャは、FP4変種を使用した非常に低精度な操作を容易にする。提案手法は, 高精度なFP4トレーニングを実現するための新しい手法である。
論文参考訳（メタデータ） (2025-05-20T17:55:50Z)
Pushing the Limits of Low-Bit Optimizers: A Focus on EMA Dynamics [65.37942405146232]
超低精度量子化により達成された,超軽量な状態要素を持つ新しいタイプのオーバーロードを提案する。提案したSOLOは,精度の低下を最小限に抑え,メモリの大幅な節約(7Bモデルのトレーニング時に約45GB)を実現する。
論文参考訳（メタデータ） (2025-05-01T06:47:45Z)
Nearly Lossless Adaptive Bit Switching [8.485009775430411]
ImageNet-1K分類の実験結果から,本手法は多精度・混合精度の両面において,最先端のワンショットジョイントQATに十分な利点があることが示された。
論文参考訳（メタデータ） (2025-02-03T09:46:26Z)
BiDense: Binarization for Dense Prediction [62.70804353158387]
BiDenseは、効率よく正確な密度予測タスクのために設計された一般化されたバイナリニューラルネットワーク(BNN)である。 BiDenseは2つの重要なテクニックを取り入れている: 分散適応バイナリー (DAB) とチャネル適応完全精度バイパス (CFB) である。
論文参考訳（メタデータ） (2024-11-15T16:46:04Z)
Hadamard Domain Training with Integers for Class Incremental Quantized Learning [1.4416751609100908]
継続的な学習は、リソース制約のあるエッジプラットフォームにとってコストを抑えることができる。本稿では,整数行列の乗算のみを用いて,低精度の学習を可能にする手法を提案する。行列乗算の入力を8ビットのアキュムレータで4ビットまで量子化しながら、0.5%未満の精度と3%の精度の劣化を実現する。
論文参考訳（メタデータ） (2023-10-05T16:52:59Z)
Training Transformers with 4-bit Integers [21.861232105539933]
4ビットへのアクティベーション、ウェイト、勾配の量子化は、ニューラルネットワークのトレーニングを加速することを約束している。既存の4ビットのトレーニング方法は、現代のハードウェアではサポートされていないカスタムの数値形式を必要とする。本研究では,INT4演算で実装されたすべての行列乗算を用いた変圧器の訓練手法を提案する。
論文参考訳（メタデータ） (2023-06-21T02:45:01Z)
Quantized Neural Networks for Low-Precision Accumulation with Guaranteed Overflow Avoidance [68.8204255655161]
本稿では,推定時のアキュムレータの精度を下げる際に,数値オーバーフローを回避する量子化学習アルゴリズムを提案する。本手法は,浮動小数点点ベースラインに対するモデル精度を維持しつつ,アキュムレータの精度を低減できることを示す。
論文参考訳（メタデータ） (2023-01-31T02:46:57Z)
The case for 4-bit precision: k-bit Inference Scaling Laws [75.4335600212427]
量子化法は、モデル内の各パラメータを表すために必要なビット数を減少させる。最終的なモデルサイズは、元のモデルのパラメータの数と圧縮率の両方に依存する。我々は16ビットの入力とkビットのパラメータを持つ35,000以上のゼロショット実験を行い、どの量子化手法が3ビットから8ビットの精度でスケーリングを改善するかを検証した。
論文参考訳（メタデータ） (2022-12-19T18:48:33Z)
Quantized Training of Gradient Boosting Decision Trees [84.97123593657584]
我々は,GBDTのトレーニングアルゴリズムにおいて,高精度勾配を非常に単純かつ効果的な方法で定量化することを提案する。低精度勾配では、GBDTトレーニングにおけるほとんどの算術演算は、8, 16, 32ビットの整数演算に置き換えられる。大規模なデータセット上でのSOTA GBDTシステムと比較して、単純な量子化戦略の2$times$スピードアップを観測する。
論文参考訳（メタデータ） (2022-07-20T06:27:06Z)
Sub 8-Bit Quantization of Streaming Keyword Spotting Models for Embedded Chipsets [7.5195830365852085]
本稿では,250Kパラメータのフィードフォワード,ストリーミング,ステートフリーなキーワードスポッティングモデルの全コンポーネントに対する,新しいサブ8ビット量子化対応トレーニングアルゴリズムを提案する。大規模実験を行い、26,000時間の非特定生産、遠距離場および近距離場音声データをトレーニングする。
論文参考訳（メタデータ） (2022-07-13T17:46:08Z)
VS-Quant: Per-vector Scaled Quantization for Accurate Low-Precision Neural Network Inference [7.886868529510128]
量子化は、訓練されたモデルの浮動小数点重みとアクティベーションをスケールファクターを用いて低ビット幅整数値にマッピングする。過剰な量子化、過度に精度を低下させると、精度が低下する。ベクトル単位のスケールファクタは、2レベル量子化スキームを使用する場合、低ビット幅の整数で実装できる。
論文参考訳（メタデータ） (2021-02-08T19:56:04Z)
HAWQV3: Dyadic Neural Network Quantization [73.11579145354801]
現在の低精度量子化アルゴリズムは、浮動小数点から量子化された整数値への変換の隠れコストを持つことが多い。 HAWQV3は、新しい混合精度整数のみの量子化フレームワークである。
論文参考訳（メタデータ） (2020-11-20T23:51:43Z)
BitPruning: Learning Bitlengths for Aggressive and Accurate Quantization [57.14179747713731]
精度を維持しつつ,任意の粒度で推論ビット長を最小化するためのトレーニング手法を提案する。 ImageNetでは、平均4.13ビット、3.76ビット、4.36ビットを生成する。
論文参考訳（メタデータ） (2020-02-08T04:58:33Z)
Shifted and Squeezed 8-bit Floating Point format for Low-Precision Training of Deep Neural Networks [13.929168096016957]
本研究では,8ビット浮動小数点(FP8)数を用いたディープニューラルネットワークのトレーニング手法を提案する。ビット精度の低減により、有効メモリが大きくなり、計算速度が向上する。提案手法は,従来の8ビット精度訓練法と異なり,代表モデルに対して最初から動作可能であることを示す。
論文参考訳（メタデータ） (2020-01-16T06:38:27Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。