論文の概要: Placement Semantics for Distributed Deep Learning: A Systematic Framework for Analyzing Parallelism Strategies
- arxiv url: http://arxiv.org/abs/2601.02311v1
- Date: Mon, 05 Jan 2026 18:01:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-06 16:25:23.340109
- Title: Placement Semantics for Distributed Deep Learning: A Systematic Framework for Analyzing Parallelism Strategies
- Title(参考訳): 分散ディープラーニングのための配置セマンティクス:並列性戦略分析のための体系的フレームワーク
- Authors: Deep Pankajbhai Mehta,
- Abstract要約: 大規模言語モデルのトレーニングには、多くのアクセラレーターに分散した計算が必要である。
統一された体系的なフレームワークは、その振舞いを予測しません。
配置セマンティクスを導入します。各戦略は、デバイス間で4つのトレーニングステートを配置する方法によって指定されます。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Training large language models requires distributing computation across many accelerators, yet practitioners select parallelism strategies (data, tensor, pipeline, ZeRO) through trial and error because no unified systematic framework predicts their behavior. We introduce placement semantics: each strategy is specified by how it places four training states (parameters, optimizer, gradients, activations) across devices using five modes (replicated, sharded, sharded-with-gather, materialized, offloaded). From placement alone, without implementation details, we derive memory consumption and communication volume. Our predictions match published results exactly: ZeRO-3 uses 8x less memory than data parallelism at 1.5x communication cost, as reported in the original paper. We prove two conditions (gradient integrity, state consistency) are necessary and sufficient for distributed training to match single-device results, and provide composition rules for combining strategies safely. The framework unifies ZeRO Stages 1-3, Fully Sharded Data Parallel (FSDP), tensor parallelism, and pipeline parallelism as instances with different placement choices.
- Abstract(参考訳): 大規模言語モデルのトレーニングには,多くのアクセラレータに分散した計算処理が必要だが,並列処理戦略(データ,テンソル,パイプライン,ZeRO)を試験とエラーによって選択する。
配置セマンティクスを導入する: それぞれの戦略は、デバイス間で4つのトレーニング状態(パラメータ、オプティマイザ、グラデーション、アクティベーション)を配置する方法によって指定される。
実装の詳細のない配置だけでは、メモリ消費と通信容量を導出します。
ZeRO-3はデータ並列処理よりも8倍少ないメモリを1.5倍の通信コストで使用しています。
2つの条件(段階的整合性、状態整合性)が単一デバイス結果に適合する分散トレーニングに必要であり、戦略を安全に組み合わせるための構成ルールを提供する。
このフレームワークはZeRO Stages 1-3、FSDP(Fully Sharded Data Parallel)、テンソル並列性、パイプライン並列性を異なる配置選択のインスタンスとして統合する。
関連論文リスト
- Plan before Solving: Problem-Aware Strategy Routing for Mathematical Reasoning with LLMs [49.995906301946]
既存の手法は通常、数学的推論を行うためにLLM(Large Language Models)をガイドするための固定戦略を利用する。
分析の結果,単一戦略は問題固有の要件に適応できず,有効性と効率性のトレードオフを見落としていることが明らかとなった。
本稿では,PRISM(Planning and Routing through Instance-Specific Modeling)を提案する。
論文 参考訳(メタデータ) (2025-09-29T07:22:41Z) - Model Parallelism With Subnetwork Data Parallelism [21.914077370806016]
大規模な大規模ニューラルネットワークの事前トレーニングは、アクセラレータに大量のメモリ要求を課し、しばしば高価な通信を必要とする。
本稿では,分散トレーニングフレームワークであるSubnetwork Data Parallelism(SDP)を紹介する。
本研究では,不偏勾配を維持するために下位段階のみに空間性を適用した後方マスキングと,前方パスのパラメータを除去してより高効率なゲインを実現する前方マスキングの2つの相補的なマスキング方式について検討する。
論文 参考訳(メタデータ) (2025-07-11T21:25:11Z) - Accelerating Large Language Model Training with 4D Parallelism and Memory Consumption Estimator [4.953653137620666]
大規模言語モデル(LLM)トレーニングでは、並列性(TP)、パイプライン並列性(PP)、データ並列性(DP)など、いくつかの並列化戦略が採用されている。
Llamaアーキテクチャにおける4次元並列トレーニング(DP, TP, PP, CP)のパラメータ, 勾配, 状態, アクティベーションによって消費されるメモリの正確な計算式を提供する。
結果は、推定メモリ使用量が利用可能なGPUメモリの80%未満である場合、トレーニングはメモリ外エラーに遭遇しないことを示している。
論文 参考訳(メタデータ) (2024-11-10T13:45:08Z) - UniPT: Universal Parallel Tuning for Transfer Learning with Efficient
Parameter and Memory [69.33445217944029]
PETLは、トレーニング済みモデルを下流ドメインに適応するための効果的な戦略である。
最近のPETLは、より価値の高いメモリ効率特性に焦点を当てている。
メモリ効率の良い新しいPETL戦略Universal Parallel Tuning (UniPT)を提案する。
論文 参考訳(メタデータ) (2023-08-28T05:38:43Z) - SWARM Parallelism: Training Large Models Can Be Surprisingly
Communication-Efficient [69.61083127540776]
ディープラーニングアプリケーションは、数十億のパラメータを持つ大きなモデルを使用することの恩恵を受ける。
これらのモデルのトレーニングは、特殊なHPCクラスタを必要とするため、非常に高価である。
安価な"プリエンプティブル"インスタンスを使用するか、あるいは複数のリージョンから既存のリソースをプールする。
論文 参考訳(メタデータ) (2023-01-27T18:55:19Z) - Does compressing activations help model parallel training? [64.59298055364336]
モデル並列性に対する圧縮法の有効性に関する実験的検討を行った。
圧縮アルゴリズムの3つの共通クラスを実装し,評価する。
我々は160以上の設定と8つの一般的なデータセットでこれらの手法を評価した。
論文 参考訳(メタデータ) (2023-01-06T18:58:09Z) - DistIR: An Intermediate Representation and Simulator for Efficient
Neural Network Distribution [15.086401550425125]
DistIRは分散計算のための表現であり、効率的な解析のために調整されている。
本研究では、DistIRとそのシミュレータが1000以上の構成にまたがる複雑な分散空間を高速にグリッドで探索する方法を示す。
論文 参考訳(メタデータ) (2021-11-09T21:32:51Z) - Colossal-AI: A Unified Deep Learning System For Large-Scale Parallel
Training [23.633810934134065]
Colossal-AIは、大規模モデルで最大2.76回のトレーニングスピードアップを達成することができる。
システムは、データ、パイプライン、テンソル、シーケンス並列化などの並列トレーニングメソッドをサポートする。
論文 参考訳(メタデータ) (2021-10-28T04:45:55Z) - Parallel Training of Deep Networks with Local Updates [84.30918922367442]
ローカル並列性(Local Parallelism)は、グローバルバックプロパゲーションを切り捨てられたレイヤワイズバックプロパゲーションに置き換えることで、ディープネットワーク内の個々のレイヤのトレーニングを並列化するフレームワークである。
我々は、様々なアーキテクチャセットにわたるビジョンと言語領域の両方で結果を示し、局所的並列性は特に高コンピュートなシステムにおいて有効であることを見出した。
論文 参考訳(メタデータ) (2020-12-07T16:38:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。