論文の概要: veScale-FSDP: Flexible and High-Performance FSDP at Scale
- arxiv url: http://arxiv.org/abs/2602.22437v1
- Date: Wed, 25 Feb 2026 21:55:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-27 18:41:22.425567
- Title: veScale-FSDP: Flexible and High-Performance FSDP at Scale
- Title(参考訳): veScale-FSDP: 大規模かつ柔軟な高性能FSDP
- Authors: Zezhou Wang, Youjie Li, Zhiqi Lin, Jiacheng Yang, Cong Xie, Guanyu Feng, Zheng Zhong, Ziyue Huang, Hongyu Zhu, Zhi Zhang, Yanghua Peng, Xin Liu,
- Abstract要約: 本稿では,フレキシブルなシャーディングフォーマットであるRaggedShardと構造対応計画アルゴリズムを組み合わせたFSDPシステムであるveScale-FSDPを紹介する。
veScale-FSDPは既存のFSDPシステムよりも566%高いスループットと1630%低いメモリ使用率を達成する。
- 参考スコア(独自算出の注目度): 14.906460825287162
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Fully Sharded Data Parallel (FSDP), also known as ZeRO, is widely used for training large-scale models, featuring its flexibility and minimal intrusion on model code. However, current FSDP systems struggle with structure-aware training methods (e.g., block-wise quantized training) and with non-element-wise optimizers (e.g., Shampoo and Muon) used in cutting-edge models (e.g., Gemini, Kimi K2). FSDP's fixed element- or row-wise sharding formats conflict with the block-structured computations. In addition, today's implementations fall short in communication and memory efficiency, limiting scaling to tens of thousands of GPUs. We introduce veScale-FSDP, a redesigned FSDP system that couples a flexible sharding format, RaggedShard, with a structure-aware planning algorithm to deliver both flexibility and performance at scale. veScale-FSDP natively supports efficient data placement required by FSDP, empowering block-wise quantization and non-element-wise optimizers. As a result, veScale-FSDP achieves 5~66% higher throughput and 16~30% lower memory usage than existing FSDP systems, while scaling efficiently to tens of thousands of GPUs.
- Abstract(参考訳): FSDP(Fully Sharded Data Parallel)はZeROとしても知られ、モデルコードの柔軟性と最小限の侵入を特徴とする大規模モデルのトレーニングに広く使用されている。
しかし、現在のFSDPシステムは、構造対応のトレーニング手法(ブロック単位の量子化トレーニングなど)と、最先端モデル(例えば、ジェミニ、キミK2)で使用される非要素ワイドオプティマイザ(例えば、シャンプー、ムーン)に苦戦している。
FSDPの固定要素または行ワイドシャーディング形式は、ブロック構造計算と矛盾する。
さらに、今日の実装は通信とメモリ効率が不足しており、スケーリングを数万のGPUに制限している。
本稿では,フレキシブルなシャーディングフォーマットであるRaggedShardと,大規模に柔軟性と性能を提供する構造対応計画アルゴリズムを組み合わせたFSDPシステムであるveScale-FSDPを紹介する。
veScale-FSDPはFSDPが必要とする効率的なデータ配置をサポートし、ブロックワイドな量子化と非要素ワイドな最適化を可能にする。
その結果、veScale-FSDPは既存のFSDPシステムよりも5~66%高いスループットと16~30%低いメモリ使用率を実現し、効率よく数万のGPUにスケールできる。
関連論文リスト
- PT$^2$-LLM: Post-Training Ternarization for Large Language Models [52.4629647715623]
大きな言語モデル(LLM)は、様々なタスクにまたがる印象的な機能を示しているが、その大きなメモリと計算能力は、デプロイメントを妨げている。
PT$2$-LLMを提案する。
その中核は2段精製パイプラインを備えた非対称3次量子化器である。
論文 参考訳(メタデータ) (2025-09-27T03:01:48Z) - FLAMES: A Hybrid Spiking-State Space Model for Adaptive Memory Retention in Event-Based Learning [16.60622265961373]
FLAMESは構造化状態空間力学とイベント駆動型計算を統合するハイブリッドフレームワークである。
ニューロモルフィックコンピューティングと構造化シーケンスモデリングをブリッジすることで、FLAMESはイベント駆動システムにおいてスケーラブルな長距離推論を可能にする。
論文 参考訳(メタデータ) (2025-04-02T00:08:19Z) - SimpleFSDP: Simpler Fully Sharded Data Parallel with torch.compile [7.544642148576768]
SimpleFSDPは、PyTorchネイティブコンパイラベースのFully Sharded Data Parallel (FSDP)フレームワークである。
メンテナンスと計算性のためのシンプルな実装を持ち、完全なコンポコミュニケーショングラフトレースを可能にし、コンパイラのバックエンド最適化によるパフォーマンス向上を実現している。
また、効率的な計算通信オーバーラップのために、TorchInductorバックエンドでバケットと並べ替えを行うIRノードも備えている。
論文 参考訳(メタデータ) (2024-11-01T00:43:54Z) - Transforming Image Super-Resolution: A ConvFormer-based Efficient Approach [58.57026686186709]
本稿では, Convolutional Transformer Layer (ConvFormer) を導入し, ConvFormer-based Super-Resolution Network (CFSR) を提案する。
CFSRは畳み込みベースのアプローチとトランスフォーマーベースのアプローチの両方の利点を継承する。
CFSRは計算コストと性能のバランスが最適であることを示す実験である。
論文 参考訳(メタデータ) (2024-01-11T03:08:00Z) - PyTorch FSDP: Experiences on Scaling Fully Sharded Data Parallel [19.24542340170026]
PyTorch Fully Sharded Data Parallel (FSDP) を大規模モデルトレーニングのための業界グレードのソリューションとして紹介する。
FSDPはTFLOPSの観点で、ほぼ直線的なスケーラビリティを持つ、はるかに大きなモデルをサポートする。
論文 参考訳(メタデータ) (2023-04-21T23:52:27Z) - Efficient Parallel Split Learning over Resource-constrained Wireless
Edge Networks [44.37047471448793]
本稿では,エッジコンピューティングパラダイムと並列分割学習(PSL)の統合を提唱する。
そこで本研究では,モデル学習を高速化するために,効率的な並列分割学習(EPSL)という革新的なPSLフレームワークを提案する。
提案するEPSLフレームワークは,目標精度を達成するために必要なトレーニング遅延を著しく低減することを示す。
論文 参考訳(メタデータ) (2023-03-26T16:09:48Z) - Joint Superposition Coding and Training for Federated Learning over
Multi-Width Neural Networks [52.93232352968347]
本稿では,2つの相乗的技術,フェデレートラーニング(FL)と幅調整可能なスリムブルニューラルネットワーク(SNN)を統合することを目的とする。
FLは、ローカルに訓練されたモバイルデバイスのモデルを交換することによって、データのプライバシを保護している。しかしながら、SNNは、特に時間変化のあるチャネル条件との無線接続下では、非自明である。
局所モデル更新のためのグローバルモデル集約と重ね合わせ訓練(ST)に重ね合わせ符号化(SC)を併用した通信およびエネルギー効率の高いSNNベースFL(SlimFL)を提案する。
論文 参考訳(メタデータ) (2021-12-05T11:17:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。