論文の概要: Canzona: A Unified, Asynchronous, and Load-Balanced Framework for Distributed Matrix-based Optimizers
- arxiv url: http://arxiv.org/abs/2602.06079v1
- Date: Wed, 04 Feb 2026 07:38:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-09 22:18:26.031103
- Title: Canzona: A Unified, Asynchronous, and Load-Balanced Framework for Distributed Matrix-based Optimizers
- Title(参考訳): Canzona: 分散マトリックスベースの最適化のための統一、非同期、ロードバランシングフレームワーク
- Authors: Liangyu Wang, Siqi Zhang, Junjie Wang, Yiming Dong, Bo Zheng, Zihan Qiu, Shengkun Tang, Di Wang, Rui Men, Dayiheng Liu,
- Abstract要約: 非同期アプローチは計算の冗長性に悩まされるが、レイヤワイドパーティショニングではこの矛盾を解決できない。
データ並列化では、負荷不均衡を中和しながら原子性を尊重するアルファバランス静的分割戦略を導入する。
提案手法は,エンド・ツー・エンドでの1.57倍の高速化を実現し,ステップ遅延をベースラインに比べて5.8倍削減する。
- 参考スコア(独自算出の注目度): 36.650880799066215
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The scaling of Large Language Models (LLMs) drives interest in matrix-based optimizers (e.g., Shampoo, Muon, SOAP) for their convergence efficiency; yet their requirement for holistic updates conflicts with the tensor fragmentation in distributed frameworks like Megatron. Existing solutions are suboptimal: synchronous approaches suffer from computational redundancy, while layer-wise partitioning fails to reconcile this conflict without violating the geometric constraints of efficient communication primitives. To bridge this gap, we propose Canzona, a Unified, Asynchronous, and Load-Balanced framework that decouples logical optimizer assignment from physical parameter distribution. For Data Parallelism, we introduce an alpha-Balanced Static Partitioning strategy that respects atomicity while neutralizing the load imbalance. For Tensor Parallelism, we design an Asynchronous Compute pipeline utilizing Micro-Group Scheduling to batch fragmented updates and hide reconstruction overhead. Extensive evaluations on the Qwen3 model family (up to 32B parameters) on 256 GPUs demonstrate that our approach preserves the efficiency of established parallel architectures, achieving a 1.57x speedup in end-to-end iteration time and reducing optimizer step latency by 5.8x compared to the baseline.
- Abstract(参考訳): 大規模言語モデル(LLM)のスケーリングは、収束効率に対する行列ベースの最適化(例えば、シャンプー、ムーン、SOAP)への関心を喚起しますが、全体的な更新要求はMegatronのような分散フレームワークのテンソルフラグメンテーションと矛盾します。
同期的アプローチは計算冗長性に悩まされる一方、レイヤワイドパーティショニングは効率的な通信プリミティブの幾何学的制約に違反することなく、この競合を解決できない。
このギャップを埋めるために、物理パラメータ分布から論理オプティマイザ割り当てを分離する、統一、非同期、ロードバランサフレームワークであるCanzonaを提案する。
データ並列化では、負荷不均衡を中和しながら原子性を尊重するアルファバランス静的分割戦略を導入する。
Tensor Parallelismでは、マイクログループスケジューリングを利用した非同期計算パイプラインを設計し、断片化された更新をバッチ化し、再構築のオーバーヘッドを隠蔽する。
256GPU上でのQwen3モデルファミリ(最大32Bパラメータ)の大規模な評価は、我々のアプローチが確立された並列アーキテクチャの効率を保ち、エンドツーエンドのイテレーション時間で1.57倍のスピードアップを実現し、ベースラインと比較してオプティマイザステップのレイテンシを5.8倍削減することを示した。
関連論文リスト
- AsyncMesh: Fully Asynchronous Optimization for Data and Pipeline Parallelism [54.8494905524997]
両方の並列処理軸をまたいだ非同期更新を導入し、コロケーション要求を緩和します。
スパース平均化と非同期更新の両方に対して収束保証を提供します。
大規模言語モデルを用いた実験により,本手法が完全同期ベースラインの性能と一致することを示した。
論文 参考訳(メタデータ) (2026-01-30T01:24:47Z) - Memory- and Latency-Constrained Inference of Large Language Models via Adaptive Split Computing [8.705453442427585]
大規模言語モデル(LLM)は様々な推論タスクでほぼ人間に近い性能を達成した。
リソース制約のあるIoT(Internet-of-Things)デバイスへのデプロイメントは、大量のパラメータフットプリントとメモリ集約型の自己回帰デコーディングのため、依然として現実的ではない。
この研究は、エッジデバイスにLLMを配置するために明示的に設計された最初の自動回帰対応分割コンピューティングフレームワークを紹介した。
論文 参考訳(メタデータ) (2025-11-06T02:55:07Z) - Eliminating Multi-GPU Performance Taxes: A Systems Approach to Efficient Distributed LLMs [61.953548065938385]
分析フレームワークとして'3つの税'(バルク同期、カーネル間データローカリティ、カーネルローンチオーバーヘッド)を紹介した。
我々は、分散GPU実行におけるキー非効率に対処するために、厳密なBSPモデルを超えて移動することを提案する。
BSPベースのアプローチによるエンドツーエンドのレイテンシの10-20%の高速化を観察する。
論文 参考訳(メタデータ) (2025-11-04T01:15:44Z) - AsyncHZP: Hierarchical ZeRO Parallelism with Asynchronous Scheduling for Scalable LLM Training [4.643969942380424]
単純さとメモリ効率を維持しつつ,優れた性能を実現するために,ZeROの新しい非同期版を提案する。
非効率な通信につながるような細粒度のシャーディングを使用する従来のZeROとは異なり、AsyncHZPはパラメータ、勾配、および異なるレプリカグループ間の状態を適応的に再シャーディングする。
AsyncHZPは古典的なND並列性より一貫して優れており、複雑な戦略的チューニングなしに最先端のパフォーマンスを実現している。
論文 参考訳(メタデータ) (2025-10-23T01:29:35Z) - CSGO: Generalized Optimization for Cold Start in Wireless Collaborative Edge LLM Systems [62.24576366776727]
本稿では,全体の推論遅延を最小限に抑えるために,遅延を考慮したスケジューリングフレームワークを提案する。
提案手法は,ベースライン戦略と比較して,コールドスタート遅延を著しく低減することを示す。
論文 参考訳(メタデータ) (2025-08-15T07:49:22Z) - ASPD: Unlocking Adaptive Serial-Parallel Decoding by Exploring Intrinsic Parallelism in LLMs [34.477777651648914]
大規模言語モデル(LLM)は、自動回帰デコードパラダイムのため、推論遅延の大きな問題を生じさせる。
本稿では、並列化可能なデータの自動構築と効率的な並列化機構の2つの課題に対処する適応シリアル-パラレルデコーディング(ASPD)を提案する。
我々のフレームワークは、効率的なLCM並列推論のための基盤となるベンチマークを設定し、AIによるカスタマーサービスボットや回答検索エンジンのようなレイテンシに敏感なアプリケーションへのデプロイの道を開く。
論文 参考訳(メタデータ) (2025-08-12T12:35:55Z) - APB: Accelerating Distributed Long-Context Inference by Passing Compressed Context Blocks across GPUs [81.5049387116454]
我々は、効率的な長文推論フレームワークであるAPBを紹介する。
APBはプリフィル速度を高めるためにマルチホスト近似アテンションを使用する。
APBはFlashAttn、RingAttn、StarAttnと比較して最大9.2x、4.2x、1.6xの速度を実現している。
論文 参考訳(メタデータ) (2025-02-17T17:59:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。