論文の概要: Scalify: scale propagation for efficient low-precision LLM training
- arxiv url: http://arxiv.org/abs/2407.17353v1
- Date: Wed, 24 Jul 2024 15:26:01 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-25 13:25:07.085769
- Title: Scalify: scale propagation for efficient low-precision LLM training
- Title(参考訳): Scalify: Scale propagation for efficient low-precision LLM training
- Authors: Paul Balança, Sam Hosegood, Carlo Luschi, Andrew Fitzgibbon,
- Abstract要約: float8のような低精度のフォーマットが機械学習アクセラレーションハードウェアに導入され、大規模言語モデルのトレーニングと推論の計算効率が向上した。
本稿では,計算グラフのためのエンドツーエンドのスケール伝搬パラダイムであるScalifyを提案する。
- 参考スコア(独自算出の注目度): 1.4999444543328293
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Low-precision formats such as float8 have been introduced in machine learning accelerated hardware to improve computational efficiency for large language models training and inference. Nevertheless, adoption by the ML community has been slowed down by the complex, and sometimes brittle, techniques required to match higher precision training accuracy. In this work, we present Scalify, a end-to-end scale propagation paradigm for computational graphs, generalizing and formalizing existing tensor scaling methods. Experiment results show that Scalify supports out-of-the-box float8 matrix multiplication and gradients representation, as well as float16 optimizer state storage. Our JAX implementation of Scalify is open-sourced at https://github.com/graphcore-research/jax-scalify
- Abstract(参考訳): float8のような低精度のフォーマットが機械学習アクセラレーションハードウェアに導入され、大規模言語モデルのトレーニングと推論の計算効率が向上した。
それでも、MLコミュニティによる採用は、より高精度なトレーニング精度に適合するために必要な、複雑な、時には脆弱なテクニックによって遅くなっています。
本研究では,従来のテンソルスケーリング手法を一般化し,定式化した計算グラフのエンドツーエンドスケール伝搬パラダイムであるScalifyを提案する。
実験の結果、ScalifyはFat8行列の乗算と勾配表現、およびFat16オプティマイザ状態ストレージをサポートしていることがわかった。
ScalifyのJAX実装はhttps://github.com/graphcore-research/jax-scalifyでオープンソース化されています。
関連論文リスト
- Breaking the Memory Barrier: Near Infinite Batch Size Scaling for Contrastive Loss [59.835032408496545]
本稿では, コントラスト損失計算を任意の小ブロックに分割するタイルベースの戦略を提案する。
分散システムの階層構造を活用するためのマルチレベルタイリング戦略も導入する。
SOTAメモリ効率のソリューションと比較すると、同等の速度を維持しながら、メモリの2桁の削減を実現している。
論文 参考訳(メタデータ) (2024-10-22T17:59:30Z) - Winner-Take-All Column Row Sampling for Memory Efficient Adaptation of Language Model [89.8764435351222]
分散を低減した行列生成のために, WTA-CRS と呼ばれる新しい非バイアス推定系を提案する。
我々の研究は、チューニング変換器の文脈において、提案した推定器が既存のものよりも低い分散を示すという理論的および実験的証拠を提供する。
論文 参考訳(メタデータ) (2023-05-24T15:52:08Z) - DeepGEMM: Accelerated Ultra Low-Precision Inference on CPU Architectures
using Lookup Tables [49.965024476651706]
DeepGEMMはSIMDハードウェア上で超高精度畳み込みニューラルネットワークを実行するためのルックアップテーブルベースのアプローチである。
実装は、x86プラットフォーム上で、対応する8ビット整数カーネルを最大1.74倍の性能で上回る。
論文 参考訳(メタデータ) (2023-04-18T15:13:10Z) - HesScale: Scalable Computation of Hessian Diagonals [2.398608007786179]
HesScaleは、ヘッセン行列の対角線を近似するスケーラブルなアプローチである。
HesScaleはバックプロパゲーションと同じ計算複雑性を持つことを示す。
論文 参考訳(メタデータ) (2022-10-20T23:50:56Z) - 8-bit Optimizers via Block-wise Quantization [57.25800395197516]
ステートフルズは、例えば過去の値の指数的滑らかな和(運動量付きSGD)や2乗和(アダム)など、時間の経過とともに統計を維持している。
この状態は、通常の勾配降下よりも最適化を加速するために使用することができるが、そうでなければモデルパラメータに割り当てられる可能性のあるメモリを使用する。
本稿では,32ビットの勾配状態を用いた場合の性能レベルを維持しながら,8ビット統計を用いた第1次勾配法を開発する。
論文 参考訳(メタデータ) (2021-10-06T15:43:20Z) - Training with reduced precision of a support vector machine model for
text classification [0.0]
本研究は, 縮小精度を用いて訓練したSVMモデルの効率性と, 原型との比較に重点を置いている。
量子化を使用する主な利点は、専用ハードウェアプラットフォームにおける計算時間とメモリフットプリントの削減である。
論文 参考訳(メタデータ) (2020-07-17T11:59:30Z) - AdaScale SGD: A User-Friendly Algorithm for Distributed Training [29.430153773234363]
本研究では,大規模バッチ学習に学習率を確実に適応させるアルゴリズムであるAdaScale SGDを提案する。
勾配の分散に継続的に適応することにより、AdaScaleは幅広いバッチサイズでスピードアップを達成する。
これには、機械翻訳、画像分類、オブジェクト検出、音声認識タスクのためのモデル劣化のない大規模なバッチトレーニングが含まれる。
論文 参考訳(メタデータ) (2020-07-09T23:26:13Z) - Real-Time Regression with Dividing Local Gaussian Processes [62.01822866877782]
局所ガウス過程は、ガウス過程の回帰に基づく新しい、計算効率の良いモデリング手法である。
入力空間の反復的データ駆動分割により、実際にはトレーニングポイントの総数において、サブ線形計算複雑性が達成される。
実世界のデータセットに対する数値的な評価は、予測と更新の速度だけでなく、精度の点で他の最先端手法よりも有利であることを示している。
論文 参考訳(メタデータ) (2020-06-16T18:43:31Z) - AdamP: Slowing Down the Slowdown for Momentum Optimizers on
Scale-invariant Weights [53.8489656709356]
正規化技術は現代の深層学習の恩恵である。
しかし、運動量を導入することで、スケール不変の重みに対する効果的なステップサイズが急速に小さくなることがしばしば見過ごされる。
本稿では,この2つの材料の組み合わせが,有効ステップサイズと準最適モデル性能の早期劣化につながることを検証した。
論文 参考訳(メタデータ) (2020-06-15T08:35:15Z) - Improving the convergence of SGD through adaptive batch sizes [0.1813006808606333]
ミニバッチ勾配勾配(SGD)とその変種は、少数のトレーニング例で目的関数の勾配を近似する。
この研究は、バッチサイズをモデルのトレーニング損失に適応させる方法を示す。
論文 参考訳(メタデータ) (2019-10-18T01:45:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。