Fugu-MT 論文翻訳(概要): S-STE: Continuous Pruning Function for Efficient 2:4 Sparse Pre-training

論文の概要: S-STE: Continuous Pruning Function for Efficient 2:4 Sparse Pre-training

arxiv url: http://arxiv.org/abs/2409.09099v2
Date: Sun, 27 Oct 2024 14:15:32 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-07 20:57:42.465823
Title: S-STE: Continuous Pruning Function for Efficient 2:4 Sparse Pre-training
Title（参考訳）: S-STE: 効率的な2:4スパース事前学習のための連続処理機能
Authors: Yuezhou Hu, Jun Zhu, Jianfei Chen,
Abstract要約: S-STEは,2:4スパースに連続的に重みを投影し,テンソルごとの固定スケーリング係数でスパース重みを再スケールする,シンプルな2:4トレーニング手法である。その結果,提案手法は以前の2:4の事前学習レシピよりも優れており,完全なパラメータモデルでも同等であることがわかった。
参考スコア（独自算出の注目度）: 20.113352600259226
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Training deep neural networks (DNNs) is costly. Fortunately, Nvidia Ampere and Hopper GPUs can accelerate matrix multiplications twice as fast as a dense equivalent by implementing 2:4 sparsity. However, previous STE-based 2:4 pre-training methods (e.g. STE with hard-thresholding, SR-STE) suffer from optimization difficulties because of discontinuous pruning function. In this study, we comprehensively analyse the bottleneck of traditional N:M sparse training and recognize three drawbacks with discontinuity: incorrect descending direction, inability to predict the amount of descent and sparse mask oscillation. In the light of this statement, we propose S-STE, a simple yet powerful 2:4 training method that contains two parts: to continuously project weights to be 2:4 sparse, and to rescale sparse weights with a per-tensor fixed scaling factor. Besides, we adopt minimum-variance unbiased estimation for activation gradient and FP8 quantization for whole process. Results show that our method surpass previous 2:4 pre-training recipes and is comparable even with full parameter models.
Abstract（参考訳）: ディープニューラルネットワーク(DNN)のトレーニングには費用がかかる。幸運なことに、Nvidia AmpereとHopper GPUは2:4の間隔を実装することで、行列乗算を密度の高い同等値の2倍の速さで加速することができる。しかし、従来のSTEベースの2:4事前学習手法(例えば、STEとSR-STE)は、不連続なプルーニング機能のために最適化の難しさに悩まされている。本研究では,従来のN:Mスパーストレーニングのボトルネックを包括的に分析し,不連続な3つの欠点を認識させる。本稿では,S-STEを提案する。S-STEは,2:4スパースに連続的に重みを投影し,スパークウェイトをテンソルごとの固定スケーリング係数で再スケールする,単純な2:4トレーニング手法である。さらに、活性化勾配とFP8量子化のプロセス全体に対して、最小分散非バイアス推定を採用する。その結果,提案手法は以前の2:4の事前学習レシピよりも優れており,完全なパラメータモデルでも同等であることがわかった。

関連論文リスト

Fine-tuning Quantized Neural Networks with Zeroth-order Optimization [18.645267970472936]
量子化ゼロ階最適化(Quantized Zeroth-order Optimization, QZO)は、連続量子化スケールを推定するために摂動させ、訓練を安定させるために方向微分クリッピング法を用いる新しい手法である。 QZOは4ビットLLMの合計メモリコストを18ドル以上削減し、24GBのGPUでLlama-2-13BとStable Diffusion 3.5を微調整できる。
論文参考訳（メタデータ） (2025-05-19T17:55:15Z)
KurTail : Kurtosis-based LLM Quantization [51.24081396305435]
KurTailは、大規模言語モデルのアクティベートにおいて、アウトレーヤを緩和する、新しいトレーニング後の量子化スキームである。 MMLUの精度は13.3%向上し、Wikiの難易度はQuaRotに比べて15.5%低下している。また、SpinQuantを2.6%のMMLUゲインで上回り、パープレキシティを2.9%削減し、トレーニングコストを削減した。
論文参考訳（メタデータ） (2025-03-03T12:43:06Z)
QuZO: Quantized Zeroth-Order Fine-Tuning for Large Language Models [27.730213115659986]
言語モデル(LLM)はしばしば、推論におけるメモリコストとレイテンシを低減するために、精度を下げるために量子化される。従来の微調整手法ではバックプロパゲーションが必要であり、低精度設定ではエラーが発生しやすい。本稿では,低精度フォワードパスを用いた微調整LDMのための量子ゼロオーダー(Quantized Zeroth-Order)フレームワークを提案する。
論文参考訳（メタデータ） (2025-02-17T22:20:31Z)
QuEST: Stable Training of LLMs with 1-Bit Weights and Activations [27.644652093888745]
QuESTはスパースまたは量子化された言語モデルをトレーニングするための新しい方法である。我々は4ビットで最適性を示し、1ビットの重みとアクティベーションの低い安定収束を示す。 Llama型アーキテクチャの実験により、QuESTはハードウェアサポートされた全範囲にわたる安定したスケーリング法則を導出することが示された。
論文参考訳（メタデータ） (2025-02-07T15:23:34Z)
SVDQuant: Absorbing Outliers by Low-Rank Components for 4-Bit Diffusion Models [58.5019443418822]
拡散モデルは高品質なイメージを生成することができるが、スケールするにつれて、メモリ要求が増加し、より高いレイテンシがデプロイメント上の課題を引き起こす。この制限を克服する新しい4ビット量子化パラダイムであるSVDQuantを提案する。 We reduce the memory usage for the 12B FLUX.1 models by 3.5$times$, achieved 3.0$times$ speedup over the 4-bit weight-only Quantization (W4A16) baseline。
論文参考訳（メタデータ） (2024-11-07T18:59:58Z)
Rotated Runtime Smooth: Training-Free Activation Smoother for accurate INT4 inference [54.2589824716527]
大規模言語モデルは、その大規模なため、相当な計算とメモリ移動コストを発生させる。既存のアプローチでは、外れ値と通常の値を2つの行列に分けたり、アクティベーションからウェイトに移行したりしています。 Smooth と Rotation 操作からなる量子化のためのプラグ・アンド・プレイ・アクティベーション・スムーザである Rotated Smooth (RRS) を提案する。提案手法は,LLaMAおよびQwenファミリーにおける最先端の手法より優れており,IF4推論におけるWikiText-2の難易度は57.33から6.66に向上している。
論文参考訳（メタデータ） (2024-09-30T14:59:22Z)
Accelerating Transformer Pre-training with 2:4 Sparsity [19.64391647966267]
NVIDIA Ampere GPUは、細粒度の2:4スパース行列乗算を、その密度の高い等価値の2倍の速さで実行することができる。そこで本研究では,スパース精製ストレートスルー推定器を改良し,温暖化段階における分解係数を推定し,モデルの品質を向上させる3つの手法を提案する。提案アルゴリズムは,複数の変圧器事前学習タスクにおいて,密集学習アルゴリズムと類似の収束性を実現する一方,変圧器ブロックの異なる形状で実際の加速度を観測することができる。
論文参考訳（メタデータ） (2024-04-02T11:12:42Z)
QUIK: Towards End-to-End 4-Bit Inference on Generative Large Language Models [57.04178959678024]
重み付けとアクティベーションの両方を4ビットにキャストすることで、大きな生成モデルに対する推論計算の大部分が実行可能であることを示す。これをQUIKと呼ばれるハイブリッド量子化戦略により実現し、重みとアクティベーションの大部分を4ビットに圧縮する。我々は、QUIKフォーマットを高効率なレイヤワイドランタイムに適合させるGPUカーネルを提供し、これにより、エンドツーエンドのスループットが3.4倍に向上する。
論文参考訳（メタデータ） (2023-10-13T17:15:05Z)
Winner-Take-All Column Row Sampling for Memory Efficient Adaptation of Language Model [89.8764435351222]
分散を低減した行列生成のために, WTA-CRS と呼ばれる新しい非バイアス推定系を提案する。我々の研究は、チューニング変換器の文脈において、提案した推定器が既存のものよりも低い分散を示すという理論的および実験的証拠を提供する。
論文参考訳（メタデータ） (2023-05-24T15:52:08Z)
Quantized Neural Networks for Low-Precision Accumulation with Guaranteed Overflow Avoidance [68.8204255655161]
本稿では,推定時のアキュムレータの精度を下げる際に,数値オーバーフローを回避する量子化学習アルゴリズムを提案する。本手法は,浮動小数点点ベースラインに対するモデル精度を維持しつつ,アキュムレータの精度を低減できることを示す。
論文参考訳（メタデータ） (2023-01-31T02:46:57Z)
Minimum Variance Unbiased N:M Sparsity for the Neural Gradients [29.555643722721882]
ディープラーニングでは、粒度の細かいN:Mは、GEMM(General Matrix multiply)のデータフットプリントと帯域幅をx2まで削減する。本稿では,この手法を神経勾配にも適用する方法について検討する。
論文参考訳（メタデータ） (2022-03-21T13:59:43Z)
LG-LSQ: Learned Gradient Linear Symmetric Quantization [3.6816597150770387]
精度の低いディープニューラルネットワークは、メモリスペースとアクセルパワーのコストの観点から利点がある。量子化アルゴリズムに関連する主な課題は、低ビット幅での精度を維持することである。低ビット幅での重みと活性化関数の定量化手法として、学習された勾配線形量子化(LG-LSQ)を提案する。
論文参考訳（メタデータ） (2022-02-18T03:38:12Z)
Accurate Neural Training with 4-bit Matrix Multiplications at Standard Formats [30.28190081697757]
重みとアクティベーションの量子化は、ディープニューラルネットワーク(DNN)トレーニングの計算フットプリントを削減する主要な方法の1つである。我々は、前と後の両方の位相を4ビットに定量化するために、$textitlogarithmic unbiased Quantization$ (LUQ)法を提案する。
論文参考訳（メタデータ） (2021-12-19T14:16:55Z)
Efficient Neural Network Training via Forward and Backward Propagation Sparsification [26.301103403328312]
本研究では, 完全スパース前方・後方パスを用いた効率的なスパーストレーニング手法を提案する。私たちのアルゴリズムは、トレーニングプロセスを最大で桁違いに高速化する上で、はるかに効果的です。
論文参考訳（メタデータ） (2021-11-10T13:49:47Z)
8-bit Optimizers via Block-wise Quantization [57.25800395197516]
ステートフルズは、例えば過去の値の指数的滑らかな和(運動量付きSGD)や2乗和(アダム)など、時間の経過とともに統計を維持している。この状態は、通常の勾配降下よりも最適化を加速するために使用することができるが、そうでなければモデルパラメータに割り当てられる可能性のあるメモリを使用する。本稿では,32ビットの勾配状態を用いた場合の性能レベルを維持しながら,8ビット統計を用いた第1次勾配法を開発する。
論文参考訳（メタデータ） (2021-10-06T15:43:20Z)
Learning N:M Fine-grained Structured Sparse Neural Networks From Scratch [75.69506249886622]
ディープニューラルネットワーク(DNN)におけるスパーシティは、資源制約された環境でモデルを圧縮し、加速するために広く研究されている。本稿では,N:M細粒構造スパースネットワークのスクラッチからトレーニングを初めて行う。
論文参考訳（メタデータ） (2021-02-08T05:55:47Z)
Towards Unified INT8 Training for Convolutional Neural Network [83.15673050981624]
共用畳み込みニューラルネットワークのための統合8ビット(INT8)トレーニングフレームワークを構築した。まず、勾配の4つの特徴を経験的に発見し、勾配量子化の洞察力のある手がかりを与える。勾配の方向ずれを低減させる方向感度勾配クリッピングを含む2つの普遍的手法を提案する。
論文参考訳（メタデータ） (2019-12-29T08:37:53Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。