論文の概要: A Tabular Schedule Abstraction for Communication-Aware Evaluation of Pipeline-Parallel LLM Training
- arxiv url: http://arxiv.org/abs/2605.24006v1
- Date: Tue, 19 May 2026 13:19:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-26 19:50:17.525998
- Title: A Tabular Schedule Abstraction for Communication-Aware Evaluation of Pipeline-Parallel LLM Training
- Title(参考訳): パイプライン・パラレルLLM訓練におけるコミュニケーション意識評価のためのタブラル・スケジュールの抽象化
- Authors: Daniel Barley, Jonathan Leis, Benjamin Klenk, Holger Fröning,
- Abstract要約: パイプライン並列性は、大規模言語モデルの分散トレーニングにおいて重要なテクニックである。
GPipe, 1F1B, Chimera, および Hanayo を複数のモデルシステム構成で比較した。
この結果から,スケジュールランキングは抽象的不変ではなく,バブル解析のみによって提案される構造上の利点を否定することができることがわかった。
- 参考スコア(独自算出の注目度): 0.8335524653717384
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Pipeline parallelism is a key technique for distributed training of large language models because it reduces per-device parameter and activation memory. However, comparing pipeline schedules is difficult: analytical models expose structural quantities such as bubble ratios, while end-to-end hardware experiments are costly and system-specific. In this work, we introduce a tabular schedule abstraction and a unified multi-abstraction methodology that connects formula-based reasoning, idealized schedule tables, and communication-aware execution simulation. Using this framework, we compare GPipe, 1F1B, Chimera, and Hanayo in its restricted regime across multiple modeled system configurations. Our results show that schedule rankings are not abstraction-invariant: communication can negate structural advantages suggested by bubble analysis alone. Under the assumptions considered here, GPipe and 1F1B are runtime-equivalent, but 1F1B achieves a lower activation-memory peak. Chimera is advantageous mainly at low microbatch counts and in communication-favorable regimes, while Hanayo is effective in its intended restricted operating point but remains sensitive to network bottlenecks. We further study an asymmetric Chimera-style placement, which does not reduce the global peak memory requirement but reveals limited runtime gains in shallow pipelines. Overall, pipeline schedule quality is meaningful only in the context of the modeled execution environment.
- Abstract(参考訳): パイプライン並列性は、デバイス毎のパラメータとアクティベーションメモリを減らすため、大規模な言語モデルの分散トレーニングにおいて重要なテクニックである。
しかし、パイプラインのスケジュールを比較することは困難である: 分析モデルはバブル比のような構造量を公開し、一方、エンドツーエンドのハードウェア実験はコストが高く、システム固有のものである。
本研究では,形式に基づく推論,理想化されたスケジュール表,通信対応実行シミュレーションを結合した表型スケジュール抽象化と統合型マルチアトラクション手法を提案する。
このフレームワークを用いて,GPipe, 1F1B, Chimera, および Hanayo を,複数のモデル化されたシステム構成に対して限定的に比較する。
この結果から,スケジュールランキングは抽象的不変ではなく,バブル解析のみによって提案される構造上の利点を否定することができることがわかった。
ここで考慮された仮定では、GPipeと1F1Bはランタイム等価であるが、1F1Bはアクティベーションメモリのピークを低くする。
キメラは、主にマイクロバッチ数や通信に好適な状況において有利であるが、ハナヨはその意図した制限された動作点において有効であるが、ネットワークボトルネックに敏感である。
さらに,非対称なキメラ方式の配置について検討し,グローバルなピークメモリ要求を低減せず,浅いパイプラインでのランタイムゲインの制限を明らかにした。
全体として、パイプラインのスケジュール品質は、モデル化された実行環境のコンテキストでのみ意味がある。
関連論文リスト
- PARM: Pipeline-Adapted Reward Model [60.769414637325326]
リワードモデル(RM)は、大規模言語モデル(LLM)を人間の好みと整合させることの中心であり、高度な復号化戦略を推進している。
これまでの作業はシングルステップ生成に重点を置いていたが、現実のアプリケーションはますますマルチステージパイプラインを採用するようになっている。
我々は、最適化のためのコード生成を通じてこれを調査し、報酬モデルを定式化とソリューション段階の両方に統合するパイプラインを構築する。
論文 参考訳(メタデータ) (2026-04-20T14:29:08Z) - HiAP: A Multi-Granular Stochastic Auto-Pruning Framework for Vision Transformers [3.644142828550762]
ビジョントランスフォーマーは計算資源とメモリ帯域幅を著しく制限し、エッジデバイスへの展開を著しく制限する。
単一エンドツーエンドのトレーニングフェーズにおいて最適なサブネットワークを探索する継続的緩和フレームワークである階層型オートプルーニング(HiAP)を提案する。
HiAPは大きな行列をロードするメモリバウンドオーバーヘッドと計算バウンドな数学的操作の両方に対処する。
論文 参考訳(メタデータ) (2026-03-12T17:45:38Z) - OptPipe: Memory- and Scheduling-Optimized Pipeline Parallelism for LLM Training [13.814101909348183]
Pipeline(PP)は、大規模言語モデル(LLM)トレーニングを複数のデバイスに拡張する標準的なテクニックになっている。
本研究では,パイプラインスケジューリング問題について,原理的最適化の観点から再検討する。
本稿では, メモリ容量, アクティベーション再利用, パイプラインバブル最小化を両立させる制約付き最適化問題としてスケジューリングを定式化する。
論文 参考訳(メタデータ) (2025-10-06T01:06:33Z) - AdaPtis: Reducing Pipeline Bubbles with Adaptive Pipeline Parallelism on Heterogeneous Models [59.7059443712562]
AdaPtisは、適応パイプライン並列性をサポートする大規模言語モデル(LLM)のトレーニングシステムである。
大規模な実験により、AdaPtisはMegatron-LM I-1F1Bよりも平均1.42倍(最大2.14倍)のスピードアップを達成した。
論文 参考訳(メタデータ) (2025-09-28T08:05:13Z) - PT$^2$-LLM: Post-Training Ternarization for Large Language Models [52.4629647715623]
大きな言語モデル(LLM)は、様々なタスクにまたがる印象的な機能を示しているが、その大きなメモリと計算能力は、デプロイメントを妨げている。
PT$2$-LLMを提案する。
その中核は2段精製パイプラインを備えた非対称3次量子化器である。
論文 参考訳(メタデータ) (2025-09-27T03:01:48Z) - CSGO: Generalized Optimization for Cold Start in Wireless Collaborative Edge LLM Systems [62.24576366776727]
本稿では,全体の推論遅延を最小限に抑えるために,遅延を考慮したスケジューリングフレームワークを提案する。
提案手法は,ベースライン戦略と比較して,コールドスタート遅延を著しく低減することを示す。
論文 参考訳(メタデータ) (2025-08-15T07:49:22Z) - Pangu Embedded: An Efficient Dual-system LLM Reasoner with Metacognition [95.54406667705999]
Pangu Embeddedは、Ascend Neural Processing Units (NPU) 上で開発された効率的なLarge Language Model (LLM) 推論器である。
既存の推論最適化 LLM でよく見られる計算コストと推論遅延の問題に対処する。
単一の統一モデルアーキテクチャ内で、迅速な応答と最先端の推論品質を提供する。
論文 参考訳(メタデータ) (2025-05-28T14:03:02Z) - Pipeline Parallelism with Controllable Memory [6.135123843073223]
既存のパイプラインスケジュールのほとんどすべてがメモリ非効率であることが示されています。
制御可能なアクティベーションメモリを備えた,メモリ効率の良いビルディングブロック群を紹介する。
1F1Bと同じアクティベーションメモリを維持しながら、ほぼゼロのパイプラインバブルを実現することができる。
論文 参考訳(メタデータ) (2024-05-24T08:54:36Z) - Edge Federated Learning Via Unit-Modulus Over-The-Air Computation
(Extended Version) [64.76619508293966]
本稿では,効率の良いエッジフェデレーション学習を実現するために,UM-AirCompフレームワークを提案する。
ローカルモデルパラメータを同時にアップロードし、アナログビームフォーミングを通じてグローバルモデルパラメータを更新する。
車両間自動運転シミュレーションプラットフォームにおけるUM-AirCompの実装を実演する。
論文 参考訳(メタデータ) (2021-01-28T15:10:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。