Fugu-MT 論文翻訳(概要): Schrödinger's FP: Dynamic Adaptation of Floating-Point Containers for Deep Learning Training

論文の概要: Schrödinger's FP: Dynamic Adaptation of Floating-Point Containers for Deep Learning Training

arxiv url: http://arxiv.org/abs/2204.13666v2
Date: Fri, 17 May 2024 02:59:24 GMT
ステータス: 翻訳完了
システム内更新日: 2024-05-20 20:59:25.193960
Title: Schrödinger's FP: Dynamic Adaptation of Floating-Point Containers for Deep Learning Training
Title（参考訳）: SchrödingerのFP:ディープラーニング学習のための浮動小数点コンテナの動的適応
Authors: Miloš Nikolić, Enrique Torres Sanchez, Jiahui Wang, Ali Hadi Zadeh, Mostafa Mahmoud, Ameer Abdelhadi, Kareem Ibrahim, Andreas Moshovos,
Abstract要約: ニューラルネットワークトレーニング中のテンソルのメモリへの転送は、時間とエネルギーを支配している。本手法は, トレーニング中のアクティベーションとウェイトに使用する浮動小数点容器のサイズと形状を動的に調整する。精度に影響を与えることなく、可能な限り多くのマティーサビットと指数ビットを除去する2つの損失対法を提案する。
参考スコア（独自算出の注目度）: 4.180423709863043
License: http://creativecommons.org/licenses/by-nc-nd/4.0/
Abstract: The transfer of tensors from/to memory during neural network training dominates time and energy. To improve energy efficiency and performance, research has been exploring ways to use narrower data representations. So far, these attempts relied on user-directed trial-and-error to achieve convergence. We present methods that relieve users from this responsibility. Our methods dynamically adjust the size and format of the floating-point containers used for activations and weights during training, achieving adaptivity across three dimensions: i) which datatype to use, ii) on which tensor, and iii) how it changes over time. The different meanings and distributions of exponent and mantissas lead us to tailored approaches for each. We present two lossy pairs of methods to eliminate as many mantissa and exponent bits as possible without affecting accuracy. Quantum Mantissa and Quantum Exponent are machine learning compression methods that tap into the gradient descent algorithm to learn the minimal mantissa and exponent bitlengths on a per-layer granularity. They automatically learn that many tensors can use just 1 or 2 mantissa bits and 3 or 4 exponent bits. Overall, the two machine learning methods reduce the footprint by $4.74\times$. Alternatively, BitWave observes changes in the loss function during training to adjust mantissa and exponent bitlengths network-wide, yielding a $3.19\times$ reduction in footprint. Finally, we present an optional method, Gecko, to exploit the naturally emerging, lop-sided exponent distribution to losslessly compress resulting exponents from Quantum Exponent or BitWave and, on average, improve compression rates to $5.64\times$ and $4.56\times$.
Abstract（参考訳）: ニューラルネットワークトレーニング中のテンソルのメモリへの転送は、時間とエネルギーを支配している。エネルギー効率と性能を改善するために、より狭いデータ表現を使用する方法を模索している。これまでのところ、これらの試みは収束を達成するためにユーザー指向の試行錯誤に依存していた。ユーザをこの責任から遠ざける方法を提案する。本手法は,3次元にまたがる適応性を達成し,運動時および重み付けに使用する浮動小数点容器のサイズと形状を動的に調整する。 i) 使用するデータの種類二どのテンソルで、かつ、三経年変化の仕方指数とマンティッサの異なる意味と分布は、それぞれに調整されたアプローチをもたらします。精度に影響を与えることなく、可能な限り多くのマティーサビットと指数ビットを除去する2つの損失対法を提案する。量子マンティッサと量子指数(Quantum Mantissa and Quantum Exponent)は、勾配降下アルゴリズムをタップして、層ごとの粒度で最小のマンティッサと指数ビット長を学習する機械学習圧縮手法である。彼らは多くのテンソルが1つか2つのマニサビットと3つか4つの指数ビットしか使えないことを自動的に学習する。全体として、この2つの機械学習手法はフットプリントを4.74\times$に減らしている。あるいは、BitWaveはトレーニング中の損失関数の変化を観察し、マティーサと指数ビット長をネットワーク全体に調整し、フットプリントを3.19\times$で削減する。最後に,量子指数やビットウェーブから生じる指数を無害に圧縮し,平均して5.64\times$と4.56\times$に圧縮率を向上するために,自然に出現するロッドサイドの指数分布を利用するゲコ法を提案する。

関連論文リスト

A Stable Whitening Optimizer for Efficient Neural Network Training [101.89246340672246]
アルゴリズムのシャンプー系をベースとして,3つの重要な問題を同定・緩和し,SPlus法を提案する。まず,行列逆が長期にわたってキャッシュされる場合,素早いシャンプーは分岐しがちであることがわかった。第二に、ネットワーク幅をまたいで学習率の伝達を可能にするために、形状認識スケーリングを適用する。第3に,高い学習率によってパラメータノイズが大きくなり,より高速な学習をブロックする簡単な反復学習方式を提案する。
論文参考訳（メタデータ） (2025-06-08T18:43:31Z)
Newton Losses: Using Curvature Information for Learning with Differentiable Algorithms [80.37846867546517]
カスタム目的の8つの異なるニューラルネットワークのトレーニング方法を示す。我々はその2次情報を経験的フィッシャー行列を通して活用する。ロスロスロスシブルアルゴリズムを用いて、少ない微分可能アルゴリズムに対する大幅な改善を実現する。
論文参考訳（メタデータ） (2024-10-24T18:02:11Z)
S-STE: Continuous Pruning Function for Efficient 2:4 Sparse Pre-training [20.113352600259226]
S-STEは,2:4スパースに連続的に重みを投影し,テンソルごとの固定スケーリング係数でスパース重みを再スケールする,シンプルな2:4トレーニング手法である。その結果,本手法は以前の2:4の事前学習レシピを超え,完全なパラメータモデルでも同等であることがわかった。
論文参考訳（メタデータ） (2024-09-13T08:29:36Z)
Inverted Activations: Reducing Memory Footprint in Neural Network Training [5.070981175240306]
ニューラルネットワークトレーニングにおける重要な課題は、アクティベーションテンソルに関連するメモリフットプリントである。本稿では, 点方向非線形層におけるアクティベーションテンソルの取扱いの修正を提案する。本手法は,トレーニング精度や計算性能に影響を与えることなく,メモリ使用量を大幅に削減できることを示す。
論文参考訳（メタデータ） (2024-07-22T11:11:17Z)
WiNet: Wavelet-based Incremental Learning for Efficient Medical Image Registration [68.25711405944239]
深部画像登録は異常な精度と高速な推測を示した。近年の進歩は、粗大から粗大の方法で密度変形場を推定するために、複数のカスケードまたはピラミッドアーキテクチャを採用している。本稿では,様々なスケールにわたる変位/速度場に対して,スケールワイブレット係数を漸進的に推定するモデル駆動WiNetを提案する。
論文参考訳（メタデータ） (2024-07-18T11:51:01Z)
Online Learning and Information Exponents: On The Importance of Batch size, and Time/Complexity Tradeoffs [24.305423716384272]
我々は,1パス勾配勾配(SGD)を有する2層ニューラルネットワークの繰り返し時間に対するバッチサイズの影響について検討した。大規模なバッチで勾配更新を行うことで、サンプル全体の複雑さを変えることなく、トレーニング時間を最小化できることが示される。低次元常微分方程式(ODE)のシステムにより、トレーニングの進捗を追跡できることを示す。
論文参考訳（メタデータ） (2024-06-04T09:44:49Z)
STAT: Shrinking Transformers After Training [72.0726371426711]
微調整なしで変圧器モデルを作成するための簡単なアルゴリズムSTATを提案する。 STATは、次の層の重みを補正して精度を保ちながら、注意頭とニューロンの両方をネットワークから排除する。われわれのアルゴリズムは、BERTを圧縮するのに数分を要し、単一のGPUを用いて7Bパラメータを持つモデルを圧縮するのに3時間もかからない。
論文参考訳（メタデータ） (2024-05-29T22:59:11Z)
Accelerating Transformer Pre-training with 2:4 Sparsity [19.64391647966267]
NVIDIA Ampere GPUは、細粒度の2:4スパース行列乗算を、その密度の高い等価値の2倍の速さで実行することができる。そこで本研究では,スパース精製ストレートスルー推定器を改良し,温暖化段階における分解係数を推定し,モデルの品質を向上させる3つの手法を提案する。提案アルゴリズムは,複数の変圧器事前学習タスクにおいて,密集学習アルゴリズムと類似の収束性を実現する一方,変圧器ブロックの異なる形状で実際の加速度を観測することができる。
論文参考訳（メタデータ） (2024-04-02T11:12:42Z)
Hierarchical Learning for Quantum ML: Novel Training Technique for Large-Scale Variational Quantum Circuits [0.6906005491572401]
階層学習は、大規模変動量子回路の効率的なトレーニングのための新しい変分アーキテクチャである。最重要な(量子)ビットが最終分布により大きな影響を与え、まず学習できることが示される。これは、多数の量子ビット上での変分学習の実用的な実演である。
論文参考訳（メタデータ） (2023-11-21T19:00:03Z)
DeepReduce: A Sparse-tensor Communication Framework for Distributed Deep Learning [79.89085533866071]
本稿では,スパーステンソルの圧縮通信のための汎用的フレームワークであるDeepReduceを紹介する。 DeepReduceはテンソルを2つの集合、値とインデックスに分解し、これらの集合の独立圧縮と結合圧縮を可能にする。大規模実モデルを用いた実験により,DeepReduceはデータ転送を少なくし,既存の手法よりも計算オーバーヘッドを小さくすることを示した。
論文参考訳（メタデータ） (2021-02-05T11:31:24Z)
Layer-Wise Data-Free CNN Compression [49.73757297936685]
本稿では,事前学習ネットワークのみを用いてレイヤワイズトレーニングデータを生成する方法を示す。本稿では,量子化とプルーニングを用いた層間圧縮の結果について述べる。
論文参考訳（メタデータ） (2020-11-18T03:00:05Z)
Exploring the Potential of Low-bit Training of Convolutional Neural Networks [16.72709290595995]
畳み込みニューラルネットワークのための低ビットトレーニングフレームワークを提案する。我々のフレームワークは、新しいマルチレベルスケーリング(MLS)テンソルフォーマットに基づいて構築されている。実験により、我々のフレームワークは精度とビット幅のトレードオフが優れていることが示された。
論文参考訳（メタデータ） (2020-06-04T12:09:35Z)
BitPruning: Learning Bitlengths for Aggressive and Accurate Quantization [57.14179747713731]
精度を維持しつつ,任意の粒度で推論ビット長を最小化するためのトレーニング手法を提案する。 ImageNetでは、平均4.13ビット、3.76ビット、4.36ビットを生成する。
論文参考訳（メタデータ） (2020-02-08T04:58:33Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。