論文の概要: veScale: Consistent and Efficient Tensor Programming with Eager-Mode SPMD
- arxiv url: http://arxiv.org/abs/2509.07003v1
- Date: Fri, 05 Sep 2025 19:29:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-10 14:38:27.015253
- Title: veScale: Consistent and Efficient Tensor Programming with Eager-Mode SPMD
- Title(参考訳): veScale: Eager-Mode SPMDによる一貫性と効率的なテンソルプログラミング
- Authors: Youjie Li, Cheng Wan, Zhiqi Lin, Hongyu Zhu, Jiacheng Yang, Ziang Song, Xinyi Di, Jiawei Wu, Huiyao Shu, Wenlei Bao, Yanghua Peng, Haibin Lin, Li-Wen Chang,
- Abstract要約: 本稿では,SPMD(Single Program Multiple Data)パラダイムを完全に取り入れた,熱心なモードトレーニングシステムであるveScaleを紹介する。
veScaleは、任意のシャード演算子と互換性のある分散ランダム数生成(RNG)の新しいアルゴリズムを導入することで、PyTorchのようなシステムにおける一貫性のない結果の一般的な問題に対処する。
veScaleはTorchTitanのような最先端のトレーニングシステム上で最大2.2倍のスピードアップを提供し、コードの複雑性を78.4%削減し、単一デバイス相当の結果を保存する。
- 参考スコア(独自算出の注目度): 9.029755349723882
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Language Models (LLMs) have scaled rapidly in size and complexity, requiring increasingly intricate parallelism for distributed training, such as 3D parallelism. This sophistication motivates a shift toward simpler, more debuggable programming paradigm like Single Program Multiple Data (SPMD). However, SPMD in eager execution introduces two key challenges: ensuring consistency with single-device execution and achieving high performance at scale. In this paper, we introduce veScale, an eager-mode training system that fully embraces SPMD paradigm to democratize distributed tensor programming. veScale addresses the prevalent issue of inconsistent results in systems like PyTorch by introducing a novel algorithm of distributed Random Number Generation (RNG) compatible with arbitrary sharded operators. veScale also significantly boosts training performance by reducing PyTorch primitive's overhead and improving communication efficiency. Evaluations show that veScale delivers up to 2.2x speedup over the state-of-the-art training systems, like TorchTitan, and cuts code complexity by 78.4%, while preserving single-device-equivalent results.
- Abstract(参考訳): 大規模言語モデル(LLM)は、サイズと複雑さが急速に拡大し、3Dの並列性のような分散トレーニングにおいて、ますます複雑な並列性を必要としている。
この高度化は、SPMD(Single Program Multiple Data)のようなよりシンプルでデバッグしやすいプログラミングパラダイムへの移行を動機付けている。
しかし、熱心に実行しているSPMDには、2つの大きな課題がある。
本稿では,分散テンソルプログラミングを民主化するためのSPMDパラダイムを完全に取り入れた,熱心なモードトレーニングシステムであるveScaleを紹介する。
veScaleは、任意のシャード演算子と互換性のある分散ランダム数生成(RNG)の新しいアルゴリズムを導入することで、PyTorchのようなシステムにおける一貫性のない結果の一般的な問題に対処する。
veScaleはまた、PyTorchプリミティブのオーバーヘッドを減らし、通信効率を向上させることで、トレーニングパフォーマンスを大幅に向上する。
veScaleはTorchTitanのような最先端のトレーニングシステム上で最大2.2倍のスピードアップを提供し、コードの複雑性を78.4%削減し、単一デバイス相当の結果を保存する。
関連論文リスト
- Satori-SWE: Evolutionary Test-Time Scaling for Sample-Efficient Software Engineering [51.7496756448709]
言語モデル(LM)は、コーディングベンチマークではうまく機能するが、現実のソフトウェア工学のタスクでは苦労する。
既存のアプローチは、高品質なデータによる教師付き微調整に依存している。
本研究では, 生成を進化過程として扱うサンプル効率の高い手法であるテスト時間スケーリング(EvoScale)を提案する。
論文 参考訳(メタデータ) (2025-05-29T16:15:36Z) - FusionLLM: A Decentralized LLM Training System on Geo-distributed GPUs with Adaptive Compression [55.992528247880685]
分散トレーニングは、システム設計と効率に関する重要な課題に直面します。
大規模深層ニューラルネットワーク(DNN)のトレーニング用に設計・実装された分散トレーニングシステムFusionLLMを提案する。
本システムと手法は,収束性を確保しつつ,ベースライン法と比較して1.45~9.39倍の高速化を実現可能であることを示す。
論文 参考訳(メタデータ) (2024-10-16T16:13:19Z) - SymbolNet: Neural Symbolic Regression with Adaptive Dynamic Pruning for Compression [1.0356366043809717]
モデル圧縮技術として特別に設計された記号回帰に対するニューラルネットワークアプローチである$ttSymbolNet$を提案する。
このフレームワークは、単一のトレーニングプロセスにおいてモデルウェイト、入力特徴、数学的演算子の動的プルーニングを可能にする。
論文 参考訳(メタデータ) (2024-01-18T12:51:38Z) - Instant Soup: Cheap Pruning Ensembles in A Single Pass Can Draw Lottery
Tickets from Large Models [106.19385911520652]
Lottery Ticket hypothesis (LTH)とその変種は、パラメーターワークを生成する大規模な事前訓練モデルを作成するために利用されてきた。
LTHは反復的フルトレーニングと反復的マグニチュードプルーニング(IMP)のプルーニングルーチンによって著しく抑制される
Instant Soup Pruning (ISP) を提案する。
論文 参考訳(メタデータ) (2023-06-18T03:09:52Z) - Intelligence Processing Units Accelerate Neuromorphic Learning [52.952192990802345]
スパイキングニューラルネットワーク(SNN)は、エネルギー消費と遅延の観点から、桁違いに改善されている。
我々は、カスタムSNN PythonパッケージsnnTorchのIPU最適化リリースを提示する。
論文 参考訳(メタデータ) (2022-11-19T15:44:08Z) - Scaling Structured Inference with Randomization [64.18063627155128]
本稿では、構造化されたモデルを数万の潜在状態に拡張するためにランダム化された動的プログラミング(RDP)のファミリを提案する。
我々の手法は古典的DPベースの推論に広く適用できる。
また、自動微分とも互換性があり、ニューラルネットワークとシームレスに統合できる。
論文 参考訳(メタデータ) (2021-12-07T11:26:41Z) - DistIR: An Intermediate Representation and Simulator for Efficient
Neural Network Distribution [15.086401550425125]
DistIRは分散計算のための表現であり、効率的な解析のために調整されている。
本研究では、DistIRとそのシミュレータが1000以上の構成にまたがる複雑な分散空間を高速にグリッドで探索する方法を示す。
論文 参考訳(メタデータ) (2021-11-09T21:32:51Z) - DaSGD: Squeezing SGD Parallelization Performance in Distributed Training
Using Delayed Averaging [4.652668321425679]
ミニバッチ勾配降下(SGD)アルゴリズムでは、作業者は前方/後方の伝搬を停止する必要がある。
DaSGDはSGDとフォワード/バックの伝搬を並列化し、通信オーバーヘッドの100%を隠蔽する。
論文 参考訳(メタデータ) (2020-05-31T05:43:50Z) - Einsum Networks: Fast and Scalable Learning of Tractable Probabilistic
Circuits [99.59941892183454]
我々は,PC用の新しい実装設計であるEinsum Networks (EiNets)を提案する。
中心となるのは、E EiNets は単一のモノリシックな einsum-operation に多数の算術演算を組み合わせている。
本稿では,PCにおける予測最大化(EM)の実装を,自動微分を利用した簡易化が可能であることを示す。
論文 参考訳(メタデータ) (2020-04-13T23:09:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。