Fugu-MT 論文翻訳(概要): Schr\"odinger's FP: Dynamic Adaptation of Floating-Point Containers for Deep Learning Training

論文の概要: Schr\"odinger's FP: Dynamic Adaptation of Floating-Point Containers for Deep Learning Training

arxiv url: http://arxiv.org/abs/2204.13666v1
Date: Thu, 28 Apr 2022 17:30:08 GMT
ステータス: 翻訳完了
システム内更新日: 2022-04-29 15:31:59.225483
Title: Schr\"odinger's FP: Dynamic Adaptation of Floating-Point Containers for Deep Learning Training
Title（参考訳）: Schr\"odingerのFP:ディープラーニング学習のための浮動小数点コンテナの動的適応
Authors: Milo\v{s} Nikoli\'c, Enrique Torres Sanchez, Jiahui Wang, Ali Hadi Zadeh, Mostafa Mahmoud, Ameer Abdelhadi, Andreas Moshovos
Abstract要約: 本稿では,BFloat16 や FP32 を用いたトレーニングにおいて,メモリトラフィックとフットプリントを削減するためのソフトウェアとハードウェアの共同設計手法を提案する。異なる値分布は指数と行列に対する異なるアプローチにつながります。精度に影響を与えることなく、最小限のビットを極力多く除去する2つの損失のある方法を提案する。
参考スコア（独自算出の注目度）: 2.855046469965757
License: http://creativecommons.org/licenses/by-nc-nd/4.0/
Abstract: We introduce a software-hardware co-design approach to reduce memory traffic and footprint during training with BFloat16 or FP32 boosting energy efficiency and execution time performance. We introduce methods to dynamically adjust the size and format of the floating-point containers used to store activations and weights during training. The different value distributions lead us to different approaches for exponents and mantissas. Gecko exploits the favourable exponent distribution with a loss-less delta encoding approach to reduce the total exponent footprint by up to $58\%$ in comparison to a 32 bit floating point baseline. To content with the noisy mantissa distributions, we present two lossy methods to eliminate as many as possible least significant bits while not affecting accuracy. Quantum Mantissa, is a machine learning-first mantissa compression method that taps on training's gradient descent algorithm to also learn minimal mantissa bitlengths on a per-layer granularity, and obtain up to $92\%$ reduction in total mantissa footprint. Alternatively, BitChop observes changes in the loss function during training to adjust mantissa bit-length network-wide yielding a reduction of $81\%$ in footprint. Schr\"{o}dinger's FP implements hardware encoders/decoders that guided by Gecko/Quantum Mantissa or Gecko/BitChop transparently encode/decode values when transferring to/from off-chip memory boosting energy efficiency and reducing execution time.
Abstract（参考訳）: 本稿では、bfloat16またはfp32によるトレーニング中のメモリトラフィックとフットプリントを削減し、エネルギー効率と実行時間パフォーマンスを向上させるソフトウェアハードウエア共同設計手法を提案する。トレーニング中の活性化と重みを格納するために使用される浮動小数点コンテナのサイズと形式を動的に調整する手法を提案する。異なる値分布は、指数とマンティッサに対する異なるアプローチへとつながります。 geckoは、32ビット浮動小数点のベースラインと比較して、合計指数のフットプリントを最大5,8\%$削減するために、損失のないデルタエンコーディングアプローチで好適な指数分布を利用する。雑音の大きいマンティッサ分布を満足させるため, 精度に影響を与えず, 最下位ビットを極力排除する2つの損失法を提案する。 quantum mantissa(量子マンティッサ)は、トレーニングの勾配降下アルゴリズムをタップして、層単位の粒度で最小マンティッサビット長を学習し、合計マンティッサフットプリントを最大$92\%削減する機械学習ファーストマンティッサ圧縮法である。あるいは、トレーニング中の損失関数の変化を観察して、mantissaビット長ネットワーク全体の調整を行うことで、フットプリントが811\%減少する。 schr\"{o}dingerのfpはgecko/quantum mantissaまたはgecko/bitchopによって誘導されるハードウェアエンコーダ/デコーダを実装し、オフチップメモリへの転送時に透過的にエンコード/デコードする。

関連論文リスト

A Stable Whitening Optimizer for Efficient Neural Network Training [101.89246340672246]
アルゴリズムのシャンプー系をベースとして,3つの重要な問題を同定・緩和し,SPlus法を提案する。まず,行列逆が長期にわたってキャッシュされる場合,素早いシャンプーは分岐しがちであることがわかった。第二に、ネットワーク幅をまたいで学習率の伝達を可能にするために、形状認識スケーリングを適用する。第3に,高い学習率によってパラメータノイズが大きくなり,より高速な学習をブロックする簡単な反復学習方式を提案する。
論文参考訳（メタデータ） (2025-06-08T18:43:31Z)
Newton Losses: Using Curvature Information for Learning with Differentiable Algorithms [80.37846867546517]
カスタム目的の8つの異なるニューラルネットワークのトレーニング方法を示す。我々はその2次情報を経験的フィッシャー行列を通して活用する。ロスロスロスシブルアルゴリズムを用いて、少ない微分可能アルゴリズムに対する大幅な改善を実現する。
論文参考訳（メタデータ） (2024-10-24T18:02:11Z)
S-STE: Continuous Pruning Function for Efficient 2:4 Sparse Pre-training [20.113352600259226]
S-STEは,2:4スパースに連続的に重みを投影し,テンソルごとの固定スケーリング係数でスパース重みを再スケールする,シンプルな2:4トレーニング手法である。その結果,本手法は以前の2:4の事前学習レシピを超え,完全なパラメータモデルでも同等であることがわかった。
論文参考訳（メタデータ） (2024-09-13T08:29:36Z)
Inverted Activations: Reducing Memory Footprint in Neural Network Training [5.070981175240306]
ニューラルネットワークトレーニングにおける重要な課題は、アクティベーションテンソルに関連するメモリフットプリントである。本稿では, 点方向非線形層におけるアクティベーションテンソルの取扱いの修正を提案する。本手法は,トレーニング精度や計算性能に影響を与えることなく,メモリ使用量を大幅に削減できることを示す。
論文参考訳（メタデータ） (2024-07-22T11:11:17Z)
WiNet: Wavelet-based Incremental Learning for Efficient Medical Image Registration [68.25711405944239]
深部画像登録は異常な精度と高速な推測を示した。近年の進歩は、粗大から粗大の方法で密度変形場を推定するために、複数のカスケードまたはピラミッドアーキテクチャを採用している。本稿では,様々なスケールにわたる変位/速度場に対して,スケールワイブレット係数を漸進的に推定するモデル駆動WiNetを提案する。
論文参考訳（メタデータ） (2024-07-18T11:51:01Z)
Online Learning and Information Exponents: On The Importance of Batch size, and Time/Complexity Tradeoffs [24.305423716384272]
我々は,1パス勾配勾配(SGD)を有する2層ニューラルネットワークの繰り返し時間に対するバッチサイズの影響について検討した。大規模なバッチで勾配更新を行うことで、サンプル全体の複雑さを変えることなく、トレーニング時間を最小化できることが示される。低次元常微分方程式(ODE)のシステムにより、トレーニングの進捗を追跡できることを示す。
論文参考訳（メタデータ） (2024-06-04T09:44:49Z)
STAT: Shrinking Transformers After Training [72.0726371426711]
微調整なしで変圧器モデルを作成するための簡単なアルゴリズムSTATを提案する。 STATは、次の層の重みを補正して精度を保ちながら、注意頭とニューロンの両方をネットワークから排除する。われわれのアルゴリズムは、BERTを圧縮するのに数分を要し、単一のGPUを用いて7Bパラメータを持つモデルを圧縮するのに3時間もかからない。
論文参考訳（メタデータ） (2024-05-29T22:59:11Z)
Accelerating Transformer Pre-training with 2:4 Sparsity [19.64391647966267]
NVIDIA Ampere GPUは、細粒度の2:4スパース行列乗算を、その密度の高い等価値の2倍の速さで実行することができる。そこで本研究では,スパース精製ストレートスルー推定器を改良し,温暖化段階における分解係数を推定し,モデルの品質を向上させる3つの手法を提案する。提案アルゴリズムは,複数の変圧器事前学習タスクにおいて,密集学習アルゴリズムと類似の収束性を実現する一方,変圧器ブロックの異なる形状で実際の加速度を観測することができる。
論文参考訳（メタデータ） (2024-04-02T11:12:42Z)
Hierarchical Learning for Quantum ML: Novel Training Technique for Large-Scale Variational Quantum Circuits [0.6906005491572401]
階層学習は、大規模変動量子回路の効率的なトレーニングのための新しい変分アーキテクチャである。最重要な(量子)ビットが最終分布により大きな影響を与え、まず学習できることが示される。これは、多数の量子ビット上での変分学習の実用的な実演である。
論文参考訳（メタデータ） (2023-11-21T19:00:03Z)
DeepReduce: A Sparse-tensor Communication Framework for Distributed Deep Learning [79.89085533866071]
本稿では,スパーステンソルの圧縮通信のための汎用的フレームワークであるDeepReduceを紹介する。 DeepReduceはテンソルを2つの集合、値とインデックスに分解し、これらの集合の独立圧縮と結合圧縮を可能にする。大規模実モデルを用いた実験により,DeepReduceはデータ転送を少なくし,既存の手法よりも計算オーバーヘッドを小さくすることを示した。
論文参考訳（メタデータ） (2021-02-05T11:31:24Z)
Layer-Wise Data-Free CNN Compression [49.73757297936685]
本稿では,事前学習ネットワークのみを用いてレイヤワイズトレーニングデータを生成する方法を示す。本稿では,量子化とプルーニングを用いた層間圧縮の結果について述べる。
論文参考訳（メタデータ） (2020-11-18T03:00:05Z)
Exploring the Potential of Low-bit Training of Convolutional Neural Networks [16.72709290595995]
畳み込みニューラルネットワークのための低ビットトレーニングフレームワークを提案する。我々のフレームワークは、新しいマルチレベルスケーリング(MLS)テンソルフォーマットに基づいて構築されている。実験により、我々のフレームワークは精度とビット幅のトレードオフが優れていることが示された。
論文参考訳（メタデータ） (2020-06-04T12:09:35Z)
BitPruning: Learning Bitlengths for Aggressive and Accurate Quantization [57.14179747713731]
精度を維持しつつ,任意の粒度で推論ビット長を最小化するためのトレーニング手法を提案する。 ImageNetでは、平均4.13ビット、3.76ビット、4.36ビットを生成する。
論文参考訳（メタデータ） (2020-02-08T04:58:33Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。