論文の概要: Schr\"odinger's FP: Dynamic Adaptation of Floating-Point Containers for
Deep Learning Training
- arxiv url: http://arxiv.org/abs/2204.13666v1
- Date: Thu, 28 Apr 2022 17:30:08 GMT
- ステータス: 処理完了
- システム内更新日: 2022-04-29 15:31:59.225483
- Title: Schr\"odinger's FP: Dynamic Adaptation of Floating-Point Containers for
Deep Learning Training
- Title(参考訳): Schr\"odingerのFP:ディープラーニング学習のための浮動小数点コンテナの動的適応
- Authors: Milo\v{s} Nikoli\'c, Enrique Torres Sanchez, Jiahui Wang, Ali Hadi
Zadeh, Mostafa Mahmoud, Ameer Abdelhadi, Andreas Moshovos
- Abstract要約: 本稿では,BFloat16 や FP32 を用いたトレーニングにおいて,メモリトラフィックとフットプリントを削減するためのソフトウェアとハードウェアの共同設計手法を提案する。
異なる値分布は指数と行列に対する異なるアプローチにつながります。
精度に影響を与えることなく、最小限のビットを極力多く除去する2つの損失のある方法を提案する。
- 参考スコア(独自算出の注目度): 2.855046469965757
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: We introduce a software-hardware co-design approach to reduce memory traffic
and footprint during training with BFloat16 or FP32 boosting energy efficiency
and execution time performance. We introduce methods to dynamically adjust the
size and format of the floating-point containers used to store activations and
weights during training. The different value distributions lead us to different
approaches for exponents and mantissas. Gecko exploits the favourable exponent
distribution with a loss-less delta encoding approach to reduce the total
exponent footprint by up to $58\%$ in comparison to a 32 bit floating point
baseline. To content with the noisy mantissa distributions, we present two
lossy methods to eliminate as many as possible least significant bits while not
affecting accuracy. Quantum Mantissa, is a machine learning-first mantissa
compression method that taps on training's gradient descent algorithm to also
learn minimal mantissa bitlengths on a per-layer granularity, and obtain up to
$92\%$ reduction in total mantissa footprint. Alternatively, BitChop observes
changes in the loss function during training to adjust mantissa bit-length
network-wide yielding a reduction of $81\%$ in footprint. Schr\"{o}dinger's FP
implements hardware encoders/decoders that guided by Gecko/Quantum Mantissa or
Gecko/BitChop transparently encode/decode values when transferring to/from
off-chip memory boosting energy efficiency and reducing execution time.
- Abstract(参考訳): 本稿では、bfloat16またはfp32によるトレーニング中のメモリトラフィックとフットプリントを削減し、エネルギー効率と実行時間パフォーマンスを向上させるソフトウェアハードウエア共同設計手法を提案する。
トレーニング中の活性化と重みを格納するために使用される浮動小数点コンテナのサイズと形式を動的に調整する手法を提案する。
異なる値分布は、指数とマンティッサに対する異なるアプローチへとつながります。
geckoは、32ビット浮動小数点のベースラインと比較して、合計指数のフットプリントを最大5,8\%$削減するために、損失のないデルタエンコーディングアプローチで好適な指数分布を利用する。
雑音の大きいマンティッサ分布を満足させるため, 精度に影響を与えず, 最下位ビットを極力排除する2つの損失法を提案する。
quantum mantissa(量子マンティッサ)は、トレーニングの勾配降下アルゴリズムをタップして、層単位の粒度で最小マンティッサビット長を学習し、合計マンティッサフットプリントを最大$92\%削減する機械学習ファーストマンティッサ圧縮法である。
あるいは、トレーニング中の損失関数の変化を観察して、mantissaビット長ネットワーク全体の調整を行うことで、フットプリントが811\%減少する。
schr\"{o}dingerのfpはgecko/quantum mantissaまたはgecko/bitchopによって誘導されるハードウェアエンコーダ/デコーダを実装し、オフチップメモリへの転送時に透過的にエンコード/デコードする。
関連論文リスト
- From PEFT to DEFT: Parameter Efficient Finetuning for Reducing
Activation Density in Transformers [58.66678571605656]
そこで本研究では,事前学習したモデルにおいて,高い活性化空間性を促進する新しい密度損失を提案する。
提案手法の有効性を,QLoRA,LoRA,Adapter,Prompt/Prefix TuningなどのPEFT技術を用いて実証する。
提案手法であるDEFTは,RoBERTa$_mathrmLarge上での活性化密度を一定に低減し,最大$boldsymbol50.72%まで低減できることを示す。
論文 参考訳(メタデータ) (2024-02-02T21:25:46Z) - Instant Complexity Reduction in CNNs using Locality-Sensitive Hashing [50.79602839359522]
本稿では,パラメータフリーでデータフリーなモジュールであるHASTE(Hashing for Tractable Efficiency)を提案する。
局所性感応ハッシュ (LSH) を用いることで, 精度を犠牲にすることなく, 遅延特徴写像を劇的に圧縮することができる。
特に、HASTEモジュール用のCIFAR-10上のResNet34で畳み込みモジュールを切り替えるだけで、FLOPの46.72%を即座に落とすことができる。
論文 参考訳(メタデータ) (2023-09-29T13:09:40Z) - Quantized Neural Networks for Low-Precision Accumulation with Guaranteed
Overflow Avoidance [68.8204255655161]
本稿では,推定時のアキュムレータの精度を下げる際に,数値オーバーフローを回避する量子化学習アルゴリズムを提案する。
本手法は,浮動小数点点ベースラインに対するモデル精度を維持しつつ,アキュムレータの精度を低減できることを示す。
論文 参考訳(メタデータ) (2023-01-31T02:46:57Z) - Accuracy Boosters: Epoch-Driven Mixed-Mantissa Block Floating-Point for
DNN Training [41.902978559634846]
本手法では,6ビットのマンティッサを最後のエポック層と第1層にのみ使用し,4ビットのマンティッサを99.7%の価格で,エポック駆動混合マンティッサHBFP法を提案する。
解析モデルを用いて、HBFPトレーニングアクセラレータの算術密度をFP32と比較して最大21.3倍、他のSOTAフォーマットであるBfloat16と比較して最大4.4倍に向上し、FP32の精度を保留または上回ることを示す。
論文 参考訳(メタデータ) (2022-11-19T16:17:11Z) - Mixed-Precision Neural Network Quantization via Learned Layer-wise
Importance [50.00102219630088]
混合精度量子化(MPQ)は各層に対して最適なビット幅を決定するのを難しくする。
本稿では,すべての指標を同時に取得できる共同学習手法を提案する。
例えば、ResNet18上のインデックスによるMPQ検索は、わずか0.06秒しかかからない。
論文 参考訳(メタデータ) (2022-03-16T03:23:50Z) - Mesa: A Memory-saving Training Framework for Transformers [58.78933015299703]
本稿では,トランスフォーマーのためのメモリ節約トレーニングフレームワークであるMesaを紹介する。
Mesaは、フォワードパス中に正確なアクティベーションを使用し、低精度のアクティベーションを格納することで、トレーニング中のメモリ消費を減らす。
ImageNet、CIFAR-100、ADE20Kの実験は、Mesaがトレーニング中にメモリフットプリントの半分を削減できることを示した。
論文 参考訳(メタデータ) (2021-11-22T11:23:01Z) - Sparse Communication for Training Deep Networks [56.441077560085475]
同期勾配降下(SGD)は、ディープラーニングモデルの分散トレーニングに最もよく用いられる手法である。
このアルゴリズムでは、各ワーカーは他のワーカーと局所勾配を共有し、すべてのワーカーの平均勾配を使ってパラメータを更新する。
いくつかの圧縮スキームについて検討し、3つの重要なパラメータが性能に与える影響を同定する。
論文 参考訳(メタデータ) (2020-09-19T17:28:11Z) - Multi-Precision Policy Enforced Training (MuPPET): A precision-switching
strategy for quantised fixed-point training of CNNs [13.83645579871775]
大規模な畳み込みニューラルネットワーク(CNN)は、数時間から数週間にわたる非常に長いトレーニング時間に悩まされる。
この研究は、複数の精度を利用するマルチレベルアプローチを採用することで、定量化トレーニングの境界を押し上げる。
MuPPETは、トレーニング時のスピードアップを最大1.84$times$、ネットワーク全体の平均スピードアップを1.58$times$とすることで、通常の完全精度トレーニングと同じ精度を達成する。
論文 参考訳(メタデータ) (2020-06-16T10:14:36Z) - Exploring the Potential of Low-bit Training of Convolutional Neural
Networks [16.72709290595995]
畳み込みニューラルネットワークのための低ビットトレーニングフレームワークを提案する。
我々のフレームワークは、新しいマルチレベルスケーリング(MLS)テンソルフォーマットに基づいて構築されている。
実験により、我々のフレームワークは精度とビット幅のトレードオフが優れていることが示された。
論文 参考訳(メタデータ) (2020-06-04T12:09:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。