論文の概要: Litespark Technical Report: High-Throughput, Energy-Efficient LLM Training Framework
- arxiv url: http://arxiv.org/abs/2510.02483v1
- Date: Thu, 02 Oct 2025 18:42:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-06 16:35:52.132153
- Title: Litespark Technical Report: High-Throughput, Energy-Efficient LLM Training Framework
- Title(参考訳): Litespark Technical Report: High-Throughput, Energy-Efficient LLM Training Framework
- Authors: Nii Osae Osae Dade, Moinul Hossain Rahat,
- Abstract要約: 大規模言語モデル(LLM)の訓練は、長い訓練時間と大量のエネルギー消費に悩まされている。
Litesparkは、これらの非効率性に対処する新しい事前トレーニングフレームワークである。
提案手法は,標準的なトランスフォーマー実装との互換性を維持しつつ,モデルFLOP(MFU)を最大化するために,アーキテクチャ改善とアルゴリズム拡張を組み合わせる。
- 参考スコア(独自算出の注目度): 0.010742675209112623
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Training Large Language Models (LLMs) is plagued by long training times and massive energy consumption, with modern models requiring months of computation and gigawatt-hours of electricity. In light of these challenges,we introduce Litespark, a novel pre-training framework that addresses these inefficiencies through targeted optimizations to transformer attention and MLP layers. Our approach combines architectural improvements with algorithmic enhancements to maximize Model FLOPs Utilization (MFU) while maintaining compatibility with standard transformer implementations. Comprehensive benchmarking on 3B and 30B parameter Llama models using the SlimPajama-627B dataset demonstrates substantial performance gains: 2x-6x training throughput improvement and $55\%-83$% energy consumption reduction across multi-node H200 GPU clusters. These optimizations are model- and hardware-agnostic, enabling broad applicability across transformer architectures and extending to post-training phases including supervised fine-tuning and direct preference optimization.
- Abstract(参考訳): 大規模言語モデル(LLMs)の訓練は、長い訓練時間と大量のエネルギー消費に悩まされており、現代のモデルは数ヶ月の計算とギガワット時間の電力を必要とする。
これらの課題を踏まえて、我々はLitesparkという新しい事前学習フレームワークを紹介した。
提案手法は,標準的なトランスフォーマー実装との互換性を維持しつつ,モデルFLOP(MFU)の利用を最大化するために,アーキテクチャ改善とアルゴリズム拡張を組み合わせる。
SlimPajama-627Bデータセットを使用した3Bおよび30BパラメータLlamaモデルの総合的なベンチマークでは、2x-6xトレーニングスループットの改善と、マルチノードH200 GPUクラスタ間でのエネルギー消費量の削減という、大幅なパフォーマンス向上が示されている。
これらの最適化はモデルとハードウェアに依存しないため、トランスフォーマーアーキテクチャ全体に適用可能であり、教師付き微調整や直接優先最適化を含む後トレーニングフェーズにまで拡張できる。
関連論文リスト
- The Energy-Efficient Hierarchical Neural Network with Fast FPGA-Based Incremental Learning [0.4317207251910848]
従来の勾配に基づくトレーニング手法は非効率であり、多くの反復的な更新と高消費電力を必要とする。
本稿では,階層分解とFPGAに基づく直接方程式解法と漸進学習を組み合わせたハイブリッドフレームワークを提案する。
提案手法では,ニューラルネットワークを2つの機能層に分割する。低層はFPGA上の単一ステップ方程式により最適化され,効率よく並列化可能な特徴抽出が可能であり,高層は適応的な漸進的学習を用いて,完全リトレーニングなしで連続的な更新をサポートする。
論文 参考訳(メタデータ) (2025-09-18T15:54:15Z) - Lizard: An Efficient Linearization Framework for Large Language Models [100.63879229649581]
我々は,事前学習したトランスフォーマーベース大規模言語モデル(LLM)を,無限コンテキスト生成のための柔軟性のあるサブクワッドアーキテクチャに変換する線形化フレームワークであるLizardを提案する。
Lizardは、出力品質を保ちながらソフトマックスアテンションを正確に近似するサブクワッドアテンションメカニズムを導入することで、この制限に対処する。
そこで本研究では,Lizardが従来の線形化手法を著しく上回りながら,標準言語モデリングタスクにおける教師モデルの性能のほぼ無作為な回復を実現していることを示す。
論文 参考訳(メタデータ) (2025-07-11T21:19:18Z) - AutoHete: An Automatic and Efficient Heterogeneous Training System for LLMs [68.99086112477565]
トランスフォーマーベースの大規模言語モデル(LLM)は、シーケンスモデリングやテキスト生成において例外的な機能を示した。
既存の異種トレーニング手法は、トレーニング可能なモデルの規模を大幅に拡大するが、かなりの通信オーバーヘッドとCPUワークロードを導入している。
本稿では,シングルGPU環境とマルチGPU環境の両方に互換性のある,自動的で効率的なヘテロジニアストレーニングシステムであるAutoHeteを提案する。
論文 参考訳(メタデータ) (2025-02-27T14:46:22Z) - FlexiGPT: Pruning and Extending Large Language Models with Low-Rank Weight Sharing [59.12511498024836]
本稿では,重み付けスコアに基づいてモデルブロックを選択的にプルーする大規模言語モデル(LLM)をプルーする手法を提案する。
重み共有機構を用いて各刈り込みブロックを置換する原理的計量を提案する。
経験的評価は、既存の方法よりも大幅にパフォーマンスが向上したことを示している。
論文 参考訳(メタデータ) (2025-01-24T18:46:37Z) - Explore Activation Sparsity in Recurrent LLMs for Energy-Efficient Neuromorphic Computing [3.379854610429579]
Recurrent Large Language Models (R-LLM) は自己注意の複雑さを軽減するのに有効であることが証明されている。
ニューロモルフィックハードウェア上でのエネルギー効率を高めるために,R-LLMの活性化をスパースする,低コストでトレーニング不要なアルゴリズムを提案する。
論文 参考訳(メタデータ) (2025-01-09T19:13:03Z) - EPS-MoE: Expert Pipeline Scheduler for Cost-Efficient MoE Inference [49.94169109038806]
本稿では,既存の並列処理方式を超越したMoE用パイプラインスケジューラであるEPS-MoEを紹介する。
その結果,既存の並列推論手法と比較して,プリフィルスループットは52.4%向上した。
論文 参考訳(メタデータ) (2024-10-16T05:17:49Z) - TransCODE: Co-design of Transformers and Accelerators for Efficient
Training and Inference [6.0093441900032465]
本稿では,アクセラレータの設計空間におけるトランスフォーマー推論とトレーニングをシミュレートするフレームワークを提案する。
我々はこのシミュレータとTransCODEと呼ばれる共同設計手法を併用して最適性能のモデルを得る。
得られた変圧器・加速器対は、最先端の対よりも0.3%高い精度を達成する。
論文 参考訳(メタデータ) (2023-03-27T02:45:18Z) - Slapo: A Schedule Language for Progressive Optimization of Large Deep
Learning Model Training [17.556432199389615]
Slapoは、テンソルレベルの演算子の実行をその算術的定義から切り離すスケジュール言語である。
SlapoはNVIDIA V100 GPUを8台搭載した1台のマシンで最大2.92倍のトレーニングスループットを向上できることを示す。
論文 参考訳(メタデータ) (2023-02-16T00:34:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。