Fugu-MT 論文翻訳(概要): To 2:4 Sparsity and Beyond: Neuron-level Activation Function to Accelerate LLM Pre-Training

論文の概要: To 2:4 Sparsity and Beyond: Neuron-level Activation Function to Accelerate LLM Pre-Training

arxiv url: http://arxiv.org/abs/2602.06183v1
Date: Thu, 05 Feb 2026 20:43:24 GMT
ステータス: 翻訳完了
システム内更新日: 2026-02-09 22:18:26.104865
Title: To 2:4 Sparsity and Beyond: Neuron-level Activation Function to Accelerate LLM Pre-Training
Title（参考訳）: To 2:4 Sparsity and Beyond: Neuron-level Activation Function toAccelerate LLM Pre-Training
Authors: Meghana Madhyastha, Daniel Haziza, Jesse Cai, Newsha Ardalani, Zhiqi Bu, Carole-Jean Wu,
Abstract要約: 我々は,Feed Forward Network(FFN)のすべての行列乗算を高速化するために,ハードウェアアクセラレーションされた空間を利用することができることを示す。我々のレシピは、トレーニング前の大部分を加速するスパーストレーニングのステップに依存しており、最後には通常の密なトレーニングのステップが伴う。このアプローチでトレーニングされたモデルは、品質ベンチマークで同じパフォーマンスを示し、エンドツーエンドのトレーニングを1.4から1.7倍にスピードアップすることができます。
参考スコア（独自算出の注目度）: 17.090117647151708
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Trainings of Large Language Models are generally bottlenecked by matrix multiplications. In the Transformer architecture, a large portion of these operations happens in the Feed Forward Network (FFN), and this portion increases for larger models, up to 50% of the total pretraining floating point operations. We show that we can leverage hardware-accelerated sparsity to accelerate all matrix multiplications in the FFN, with 2:4 sparsity for weights and v:n:m (Venom) sparsity for activations. Our recipe relies on sparse training steps to accelerate a large part of the pretraining, associated with regular dense training steps towards the end. Overall, models trained with this approach exhibit the same performance on our quality benchmarks, and can speed up training end-to-end by 1.4 to 1.7x. This approach is applicable to all NVIDIA GPUs starting with the A100 generation, and is orthogonal to common optimization techniques, such as, quantization, and can also be applied to mixture-of-experts model architectures.
Abstract（参考訳）: 大規模言語モデルの訓練は一般に行列乗法によってボトルネックとなる。 Transformerアーキテクチャでは、これらの操作の大部分はFeed Forward Network(FFN)で行われ、この部分はより大きなモデルに対して増加し、事前訓練された浮動小数点演算の最大50%となる。ハードウェアアクセラレーションにより,FFNの行列乗算を高速化し,重みを2:4,アクティベーションをv:n:m(Venom)で行う。我々のレシピは、トレーニング前の大部分を加速するスパーストレーニングのステップに依存しており、最後には通常の密なトレーニングのステップが伴う。全体として、このアプローチでトレーニングされたモデルは、品質ベンチマークで同じパフォーマンスを示し、エンドツーエンドのトレーニングを1.4から1.7倍にスピードアップすることができます。このアプローチは、A100世代から始まるすべてのNVIDIA GPUに適用可能で、量子化などの一般的な最適化手法と直交するものであり、Mix-of-expertsモデルアーキテクチャにも適用することができる。

関連論文リスト

DiRL: An Efficient Post-Training Framework for Diffusion Language Models [54.405206032785706]
Diffusion Language Models (dLLMs) はAuto-Regressive(AR)モデルに代わる有望な代替品として登場した。既存の手法は、訓練と推論の間の計算の非効率性と客観的なミスマッチに悩まされている。我々は,FlexAttention-accelerated blockwise trainingとLMDeploy-timized inferenceを密接に統合した,効率的なポストトレーニングフレームワークであるDiRLを紹介した。
論文参考訳（メタデータ） (2025-12-23T08:33:19Z)
NeuronMM: High-Performance Matrix Multiplication for LLM Inference on AWS Trainium [4.7520621855466425]
我々は,Tranium 上での LLM 推論のために,臨界計算カーネルである高性能の matmul を設計する。当社のシステムは,AWS on Trainiumで実装された最先端のマットマよりもはるかに優れています。
論文参考訳（メタデータ） (2025-10-29T21:22:08Z)
Revolutionizing Reinforcement Learning Framework for Diffusion Large Language Models [49.911784762244814]
TraceRLは拡散言語モデル(DLM)のための軌道対応強化学習フレームワークである我々は最先端の拡散言語モデル、すなわち TraDo を導出する。 TraDo-8B-InstructはQwen2.5-7B-Instructで6.1%、Llama3.1-8B-Instructで51.3%の精度向上を実現している。
論文参考訳（メタデータ） (2025-09-08T17:58:06Z)
AutoHete: An Automatic and Efficient Heterogeneous Training System for LLMs [68.99086112477565]
トランスフォーマーベースの大規模言語モデル(LLM)は、シーケンスモデリングやテキスト生成において例外的な機能を示した。既存の異種トレーニング手法は、トレーニング可能なモデルの規模を大幅に拡大するが、かなりの通信オーバーヘッドとCPUワークロードを導入している。本稿では,シングルGPU環境とマルチGPU環境の両方に互換性のある,自動的で効率的なヘテロジニアストレーニングシステムであるAutoHeteを提案する。
論文参考訳（メタデータ） (2025-02-27T14:46:22Z)
Systems and Algorithms for Convolutional Multi-Hybrid Language Models at Scale [68.6602625868888]
本稿では,2つの簡単な観測に基づいて,畳み込み型マルチハイブリッドアーキテクチャを提案する。ハイブリッドモデルのオペレータは、インコンテキストリコール、マルチトークンリコール、圧縮などのトークン操作タスクにカスタマイズできる。我々は、最適化されたトランスフォーマーの1.2倍から2.9倍、以前の世代のハイブリッドの1.1倍から1.4倍の速さでエンドツーエンドを訓練する。
論文参考訳（メタデータ） (2025-02-25T19:47:20Z)
Building on Efficient Foundations: Effectively Training LLMs with Structured Feedforward Layers [16.253898272659242]
大規模言語モデル(LLM)における最先端の結果は、しばしばスケールに依存し、計算コストがかかる。本研究は,計算集約型フィードフォワードネットワーク(FFN)を対象とするトランスフォーマーベースLLMに着目した。広範かつ構造化されたネットワークは、最適なトレードオフにおいて、パラメータが少なく、高密度モデルよりも損失が少ないFLOPをより効率的に活用できることを示す。
論文参考訳（メタデータ） (2024-06-24T08:43:21Z)
Compute Better Spent: Replacing Dense Layers with Structured Matrices [77.61728033234233]
画像領域における畳み込みネットワークの成功が示すように、高密度行列に対するより効率的な代替手段を同定する。異なる構造は、しばしばパフォーマンスに不可欠な、非常に異なる初期化尺度と学習率を必要とする。本稿では,モナール行列を含む新しい行列族Block-Trainを提案する。
論文参考訳（メタデータ） (2024-06-10T13:25:43Z)
Enabling High-Sparsity Foundational Llama Models with Efficient Pretraining and Deployment [56.44025052765861]
大規模言語モデル(LLM)は自然言語処理(NLP)に革命をもたらしたが、そのサイズは計算のボトルネックを生み出している。そこで本研究では,高性能LLMの高精度かつ疎結合な基本バージョンを作成するための新しいアプローチを提案する。スパース量子化LLaMAの最大8.6倍のCPU上での総高速化を示す。
論文参考訳（メタデータ） (2024-05-06T16:03:32Z)
Harnessing Manycore Processors with Distributed Memory for Accelerated Training of Sparse and Recurrent Models [43.1773057439246]
現在のAIトレーニングインフラストラクチャは、単一の命令多重データ(SIMD)とシストリック配列アーキテクチャによって支配されている。分散ローカルメモリを用いた大規模並列多重命令型マルチデータアーキテクチャにおけるスパース・リカレントモデルトレーニングについて検討する。
論文参考訳（メタデータ） (2023-11-07T23:18:35Z)
QUIK: Towards End-to-End 4-Bit Inference on Generative Large Language Models [57.04178959678024]
重み付けとアクティベーションの両方を4ビットにキャストすることで、大きな生成モデルに対する推論計算の大部分が実行可能であることを示す。これをQUIKと呼ばれるハイブリッド量子化戦略により実現し、重みとアクティベーションの大部分を4ビットに圧縮する。我々は、QUIKフォーマットを高効率なレイヤワイドランタイムに適合させるGPUカーネルを提供し、これにより、エンドツーエンドのスループットが3.4倍に向上する。
論文参考訳（メタデータ） (2023-10-13T17:15:05Z)
Multiplication-Free Transformer Training via Piecewise Affine Operations [44.99157696237478]
本稿では,浮動小数点数のビット表現を整数として加えることで実現した,安価なアフィン近似に置き換える。変換器は、視覚と言語の両方のタスクに対して、結果の修正された行列乗法で、ほとんど、あるいは全く性能に影響を与えずに訓練できることが示される。
論文参考訳（メタデータ） (2023-05-26T18:28:28Z)
A 4D Hybrid Algorithm to Scale Parallel Training to Thousands of GPUs [1.7481226034111275]
本稿では,並列訓練における通信を最適化するための4次元(4次元)アプローチを提案する。 AxoNNは最先端のフレームワークであるMegatron-LMを26%上回っている。理論上のピークFLOP/sの57%、合計182 PFLOP/sを達成している。
論文参考訳（メタデータ） (2023-05-22T22:41:49Z)
DeAR: Accelerating Distributed Deep Learning with Fine-Grained All-Reduce Pipelining [22.168137965177284]
コミュニケーションスケジューリングは、分散トレーニングの加速に有効であることが示されている。本稿では,全再現プリミティブを2つの連続演算に分解する新しいスケジューリングアルゴリズムであるDeARを提案する。 DeARは最先端ソリューションよりも最大83%,15%のトレーニングスピードアップを実現していることを示す。
論文参考訳（メタデータ） (2023-02-24T04:11:18Z)
LearningGroup: A Real-Time Sparse Training on FPGA via Learnable Weight Grouping for Multi-Agent Reinforcement Learning [2.0625936401496237]
マルチエージェント強化学習(MARL)は,対話型人工知能システムを構築するための強力な技術である。本稿では,学習グループというリアルタイムスパース学習促進システムを提案する。本システムでは,スパースデータ生成のサイクル時間とメモリフットプリントを最大5.72倍,6.81倍まで最小化する。
論文参考訳（メタデータ） (2022-10-29T15:09:34Z)
Exploiting Activation based Gradient Output Sparsity to Accelerate Backpropagation in CNNs [15.465530153038927]
多くの最先端技術の背後にある原動力として、機械学習(ML/DL)ベースの技術が登場している。しかし、大きなパラメータを含むこれらのモデルをトレーニングすることは、時間とエネルギーの両方を消費する。
論文参考訳（メタデータ） (2021-09-16T04:12:51Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。