論文の概要: To 2:4 Sparsity and Beyond: Neuron-level Activation Function to Accelerate LLM Pre-Training
- arxiv url: http://arxiv.org/abs/2602.06183v1
- Date: Thu, 05 Feb 2026 20:43:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-09 22:18:26.104865
- Title: To 2:4 Sparsity and Beyond: Neuron-level Activation Function to Accelerate LLM Pre-Training
- Title(参考訳): To 2:4 Sparsity and Beyond: Neuron-level Activation Function toAccelerate LLM Pre-Training
- Authors: Meghana Madhyastha, Daniel Haziza, Jesse Cai, Newsha Ardalani, Zhiqi Bu, Carole-Jean Wu,
- Abstract要約: 我々は,Feed Forward Network(FFN)のすべての行列乗算を高速化するために,ハードウェアアクセラレーションされた空間を利用することができることを示す。
我々のレシピは、トレーニング前の大部分を加速するスパーストレーニングのステップに依存しており、最後には通常の密なトレーニングのステップが伴う。
このアプローチでトレーニングされたモデルは、品質ベンチマークで同じパフォーマンスを示し、エンドツーエンドのトレーニングを1.4から1.7倍にスピードアップすることができます。
- 参考スコア(独自算出の注目度): 17.090117647151708
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Trainings of Large Language Models are generally bottlenecked by matrix multiplications. In the Transformer architecture, a large portion of these operations happens in the Feed Forward Network (FFN), and this portion increases for larger models, up to 50% of the total pretraining floating point operations. We show that we can leverage hardware-accelerated sparsity to accelerate all matrix multiplications in the FFN, with 2:4 sparsity for weights and v:n:m (Venom) sparsity for activations. Our recipe relies on sparse training steps to accelerate a large part of the pretraining, associated with regular dense training steps towards the end. Overall, models trained with this approach exhibit the same performance on our quality benchmarks, and can speed up training end-to-end by 1.4 to 1.7x. This approach is applicable to all NVIDIA GPUs starting with the A100 generation, and is orthogonal to common optimization techniques, such as, quantization, and can also be applied to mixture-of-experts model architectures.
- Abstract(参考訳): 大規模言語モデルの訓練は一般に行列乗法によってボトルネックとなる。
Transformerアーキテクチャでは、これらの操作の大部分はFeed Forward Network(FFN)で行われ、この部分はより大きなモデルに対して増加し、事前訓練された浮動小数点演算の最大50%となる。
ハードウェアアクセラレーションにより,FFNの行列乗算を高速化し,重みを2:4,アクティベーションをv:n:m(Venom)で行う。
我々のレシピは、トレーニング前の大部分を加速するスパーストレーニングのステップに依存しており、最後には通常の密なトレーニングのステップが伴う。
全体として、このアプローチでトレーニングされたモデルは、品質ベンチマークで同じパフォーマンスを示し、エンドツーエンドのトレーニングを1.4から1.7倍にスピードアップすることができます。
このアプローチは、A100世代から始まるすべてのNVIDIA GPUに適用可能で、量子化などの一般的な最適化手法と直交するものであり、Mix-of-expertsモデルアーキテクチャにも適用することができる。
関連論文リスト
- DiRL: An Efficient Post-Training Framework for Diffusion Language Models [54.405206032785706]
Diffusion Language Models (dLLMs) はAuto-Regressive(AR)モデルに代わる有望な代替品として登場した。
既存の手法は、訓練と推論の間の計算の非効率性と客観的なミスマッチに悩まされている。
我々は,FlexAttention-accelerated blockwise trainingとLMDeploy-timized inferenceを密接に統合した,効率的なポストトレーニングフレームワークであるDiRLを紹介した。
論文 参考訳(メタデータ) (2025-12-23T08:33:19Z) - AutoHete: An Automatic and Efficient Heterogeneous Training System for LLMs [68.99086112477565]
トランスフォーマーベースの大規模言語モデル(LLM)は、シーケンスモデリングやテキスト生成において例外的な機能を示した。
既存の異種トレーニング手法は、トレーニング可能なモデルの規模を大幅に拡大するが、かなりの通信オーバーヘッドとCPUワークロードを導入している。
本稿では,シングルGPU環境とマルチGPU環境の両方に互換性のある,自動的で効率的なヘテロジニアストレーニングシステムであるAutoHeteを提案する。
論文 参考訳(メタデータ) (2025-02-27T14:46:22Z) - Systems and Algorithms for Convolutional Multi-Hybrid Language Models at Scale [68.6602625868888]
本稿では,2つの簡単な観測に基づいて,畳み込み型マルチハイブリッドアーキテクチャを提案する。
ハイブリッドモデルのオペレータは、インコンテキストリコール、マルチトークンリコール、圧縮などのトークン操作タスクにカスタマイズできる。
我々は、最適化されたトランスフォーマーの1.2倍から2.9倍、以前の世代のハイブリッドの1.1倍から1.4倍の速さでエンドツーエンドを訓練する。
論文 参考訳(メタデータ) (2025-02-25T19:47:20Z) - Building on Efficient Foundations: Effectively Training LLMs with Structured Feedforward Layers [16.253898272659242]
大規模言語モデル(LLM)における最先端の結果は、しばしばスケールに依存し、計算コストがかかる。
本研究は,計算集約型フィードフォワードネットワーク(FFN)を対象とするトランスフォーマーベースLLMに着目した。
広範かつ構造化されたネットワークは、最適なトレードオフにおいて、パラメータが少なく、高密度モデルよりも損失が少ないFLOPをより効率的に活用できることを示す。
論文 参考訳(メタデータ) (2024-06-24T08:43:21Z) - Enabling High-Sparsity Foundational Llama Models with Efficient Pretraining and Deployment [56.44025052765861]
大規模言語モデル(LLM)は自然言語処理(NLP)に革命をもたらしたが、そのサイズは計算のボトルネックを生み出している。
そこで本研究では,高性能LLMの高精度かつ疎結合な基本バージョンを作成するための新しいアプローチを提案する。
スパース量子化LLaMAの最大8.6倍のCPU上での総高速化を示す。
論文 参考訳(メタデータ) (2024-05-06T16:03:32Z) - QUIK: Towards End-to-End 4-Bit Inference on Generative Large Language
Models [57.04178959678024]
重み付けとアクティベーションの両方を4ビットにキャストすることで、大きな生成モデルに対する推論計算の大部分が実行可能であることを示す。
これをQUIKと呼ばれるハイブリッド量子化戦略により実現し、重みとアクティベーションの大部分を4ビットに圧縮する。
我々は、QUIKフォーマットを高効率なレイヤワイドランタイムに適合させるGPUカーネルを提供し、これにより、エンドツーエンドのスループットが3.4倍に向上する。
論文 参考訳(メタデータ) (2023-10-13T17:15:05Z) - Multiplication-Free Transformer Training via Piecewise Affine Operations [44.99157696237478]
本稿では,浮動小数点数のビット表現を整数として加えることで実現した,安価なアフィン近似に置き換える。
変換器は、視覚と言語の両方のタスクに対して、結果の修正された行列乗法で、ほとんど、あるいは全く性能に影響を与えずに訓練できることが示される。
論文 参考訳(メタデータ) (2023-05-26T18:28:28Z) - A 4D Hybrid Algorithm to Scale Parallel Training to Thousands of GPUs [1.7481226034111275]
本稿では,並列訓練における通信を最適化するための4次元(4次元)アプローチを提案する。
AxoNNは最先端のフレームワークであるMegatron-LMを26%上回っている。
理論上のピークFLOP/sの57%、合計182 PFLOP/sを達成している。
論文 参考訳(メタデータ) (2023-05-22T22:41:49Z) - DeAR: Accelerating Distributed Deep Learning with Fine-Grained
All-Reduce Pipelining [22.168137965177284]
コミュニケーションスケジューリングは、分散トレーニングの加速に有効であることが示されている。
本稿では,全再現プリミティブを2つの連続演算に分解する新しいスケジューリングアルゴリズムであるDeARを提案する。
DeARは最先端ソリューションよりも最大83%,15%のトレーニングスピードアップを実現していることを示す。
論文 参考訳(メタデータ) (2023-02-24T04:11:18Z) - Exploiting Activation based Gradient Output Sparsity to Accelerate
Backpropagation in CNNs [15.465530153038927]
多くの最先端技術の背後にある原動力として、機械学習(ML/DL)ベースの技術が登場している。
しかし、大きなパラメータを含むこれらのモデルをトレーニングすることは、時間とエネルギーの両方を消費する。
論文 参考訳(メタデータ) (2021-09-16T04:12:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。