論文の概要: ELAS: Efficient Pre-Training of Low-Rank Large Language Models via 2:4 Activation Sparsity
- arxiv url: http://arxiv.org/abs/2605.03667v1
- Date: Tue, 05 May 2026 12:04:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-06 19:35:43.920793
- Title: ELAS: Efficient Pre-Training of Low-Rank Large Language Models via 2:4 Activation Sparsity
- Title(参考訳): ELAS: 2:4 Activation Sparsityによる低ランク大規模言語モデルの効率的な事前学習
- Authors: Jiaxi Li, Lu Yin, Li Shen, Jinjin Xu, Yuhui Liu, Wenwu Wang, Shiwei Liu, Xilu Wang,
- Abstract要約: ELAS: 2:4 Activation Sparsityによる低ランクLCMの効率的な事前トレーニング。
本稿では,2:4 Activation Sparsity による低ランク LLM の効率的な事前学習を提案する。
- 参考スコア(独自算出の注目度): 30.15914091924631
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Language Models (LLMs) have achieved remarkable capabilities, but their immense computational demands during training remain a critical bottleneck for widespread adoption. Low-rank training has received attention in recent years due to its ability to significantly reduce training memory usage. Meanwhile, applying 2:4 structured sparsity to weights and activations to leverage NVIDIA GPU support for 2:4 structured sparse format has become a promising direction. However, existing low-rank methods often leave activation matrices in full-rank, which dominates memory consumption and limits throughput during large-batch training. Furthermore, directly applying sparsity to weights often leads to non-negligible performance degradation. To achieve efficient pre-training of LLMs, this paper proposes ELAS: Efficient pre-training of Low-rank LLMs via 2:4 Activation Sparsity, a novel framework for low-rank models via 2:4 activation sparsity. ELAS applies squared ReLU activation functions to the feed-forward networks in low-rank models and implements 2:4 structured sparsity on the activations after the squared ReLU operation. We evaluated ELAS through pre-training experiments on LLaMA models ranging from 60M to 1B parameters. The results demonstrate that ELAS maintains performance with minimal degradation after applying 2:4 activation sparsity, while achieving training and inference acceleration. Moreover, ELAS reduces activation memory overhead, particularly with large batch sizes. Code is available at ELAS Repo.
- Abstract(参考訳): 大規模言語モデル(LLM)は目覚ましい能力を達成したが、訓練中の膨大な計算要求は、広く普及する上で重要なボトルネックである。
近年の低ランクトレーニングは、トレーニングメモリ使用量を大幅に削減する能力から注目されている。
一方、2:4構造化されたスパースフォーマットのNVIDIA GPUサポートを活用するために、重みとアクティベーションに2:4構造化された間隔を適用することが、有望な方向となっている。
しかし、既存の低ランク手法では、アクティベーション行列をフルランクに残すことが多く、これはメモリ消費を支配し、大規模バッチトレーニングのスループットを制限する。
さらに、重みに直接スパーシリティを適用すると、しばしば非無視的な性能低下につながる。
本稿では,2:4アクティベーション・スパシティによる低ランクモデルのための新しいフレームワークである2:4アクティベーション・スパシティによる低ランクLCMの効率的な事前トレーニングを提案する。
ELASは低ランクモデルのフィードフォワードネットワークに正方形ReLU活性化関数を適用し、正方形ReLU動作後のアクティベーションに2:4の構造的間隔を実装する。
我々は,60Mから1BパラメータのLLaMAモデルの事前学習実験によりELASを評価した。
その結果、ELASは2:4のアクティベーション間隔を適用した後に最小限の劣化を抑えつつ、トレーニングと推論の加速を達成しつつ、性能を維持できることを示した。
さらにELASは、特に大きなバッチサイズで、アクティベーションメモリのオーバーヘッドを低減する。
コードはELAS Repoで入手できる。
関連論文リスト
- Lightweight error mitigation strategies for post-training N:M activation sparsity in LLMs [17.379374639721554]
本研究は,大規模言語モデルにおけるN:Mアクティベーションプルーニングの学習後手法を包括的に分析する。
本研究は, 刈り込み活性化により, 同等の空間レベルでの刈り込みに比べて, 生成能の保存性が向上できることを実証する。
本研究は,アクティベーションプルーニングの効果的な実践方法と,よりフレキシブルなスパーシティパターンをサポートする将来のハードウェアへのモチベーションを提供する。
論文 参考訳(メタデータ) (2025-09-26T10:27:55Z) - R-Sparse: Rank-Aware Activation Sparsity for Efficient LLM Inference [77.47238561728459]
R-スパース(R-Sparse)は、高度なLCMにおいて高い疎度を達成できる訓練不要なアクティベーション・スパシティ・アプローチである。
10種類のタスクにわたるLlama-2/3およびMistralモデルの実験は、R-Sparseが50%のモデルレベルの間隔で同等のパフォーマンスを達成することを示した。
論文 参考訳(メタデータ) (2025-04-28T03:30:32Z) - SPAM: Spike-Aware Adam with Momentum Reset for Stable LLM Training [60.9776082805359]
大規模言語モデル(LLM)は、様々なタスクにまたがる例外的なパフォーマンスを示しているが、そのトレーニングは、非常にリソース集約的で、トレーニングの不安定性に影響を受けやすいままである。
本稿では,LLMトレーニング中に観測された勾配スパイクを包括的に調査し,複数のアーキテクチャやデータセットにまたがる傾向を明らかにする。
本稿では,モーメントムリセットを用いたスパイク・アウェア・アダムを提案し,モーメントムリセットとスパイク・アウェア・クリッピングによる勾配スパイク対策について述べる。
論文 参考訳(メタデータ) (2025-01-12T15:21:22Z) - Activation Sparsity Opportunities for Compressing General Large Language Models [4.5624217435826]
この研究は、最先端AIモデルにおけるアクティベーション空間の強制とパープレキシティ(精度)のトレードオフを体系的に調査する。
実験により,重要なFFN成分に対する主記憶の約50%と計算量の削減を無視可能な精度劣化で達成できることが実証された。
論文 参考訳(メタデータ) (2024-12-13T02:26:54Z) - Learn To be Efficient: Build Structured Sparsity in Large Language Models [17.940183066850565]
大きな言語モデル(LLM)は、その10億レベルのパラメータで驚くべき成功を収めていますが、高い推論オーバーヘッドを引き起こします。
既存の方法は、訓練後の環境で自然に形成された活性化空間の利用にのみ焦点をあてる。
本稿では,Learning-To-Efficient (LTE) という学習学習アルゴリズムを導入する。
論文 参考訳(メタデータ) (2024-02-09T01:18:16Z) - Dynamic Sparse No Training: Training-Free Fine-tuning for Sparse LLMs [67.38165028487242]
そこで我々は,DSnoT(Dynamic Sparse No Training, 動的スパース・ノー・トレーニング)を導入した。
動的スパーストレーニングにインスパイアされたDSnoTは、密度とスパースLLM間の再構成誤差を最小限に抑える。
本稿は, LLMのスパースを, 効率的なトレーニング自由な方法で微調整し, 新たな会場をオープンして, LLMの空間性に大きな可能性を拡大する方法について, 新たな知見を提供する。
論文 参考訳(メタデータ) (2023-10-13T07:38:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。