論文の概要: Learned Subspace Compression for Communication-Efficient Pipeline Parallelism
- arxiv url: http://arxiv.org/abs/2606.05484v1
- Date: Wed, 03 Jun 2026 22:10:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-05 22:39:44.425291
- Title: Learned Subspace Compression for Communication-Efficient Pipeline Parallelism
- Title(参考訳): 通信効率の良いパイプライン並列処理のための学習部分空間圧縮
- Authors: Paul Janson, Edouard Oyallon, Eugene Belilovsky,
- Abstract要約: パイプライン並列処理は、単一デバイスメモリを超える大きな言語モデルのトレーニングを可能にする。
低帯域ネットワークでトレーニングする際、段階間アクティベーション通信が主要なボトルネックとなる。
本稿では,段階間圧縮を学習可能な直交射影として扱う手法であるMAPL(Aware Manifold Projection Learning)を提案する。
我々は,MAPLが既存のパイプラインに容易に適用可能であることを示し,最適化性能を低下させることなく高い圧縮を実現することを示す。
- 参考スコア(独自算出の注目度): 24.2079184778031
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Pipeline parallelism enables training of large language models that exceed single-device memory, yet inter-stage activation communication becomes the dominant bottleneck when trained on low-bandwidth networks. Recent work in this area has proposed using fixed orthogonal projections to compress activations. However, this still results in a significant performance degradation and requires a number of non-standard adaptations to constrain the optimization. A natural alternative is to learn a low rank projection for each pipeline stage, however maintaining the necessary orthogonality of these projectors during training remains a challenge. We present Manifold Aware Projection Learning (MAPL), a method that treats inter-stage compression as a learnable orthogonal projection under explicit Stiefel manifold (orthogonal matrices) constraints. Rather than prescribing a fixed global subspace, MAPL lets each pipeline stage discover and continuously adapt its own task-optimal compression subspace via manifold-constrained steepest descent. To recover token-specific signals at stage boundaries, we introduce per-stage factorized anchor embeddings that allow for full-rank activation reconstruction with negligible communication overhead. We further show that we can incorporate residual vector quantization after projection with a streaming codebook synchronization protocol that amortizes dictionary communication. Across LLaMA models from 150M to 1B parameters we show that MAPL can be easily applied to the existing pipeline and can achieve high compression with neglibile performance degradation with a drastically improved tradeoffs in performance vs. compression compared to Subspace Networks.
- Abstract(参考訳): パイプライン並列処理により、単一デバイスメモリを超える大規模な言語モデルのトレーニングが可能になるが、低帯域ネットワークでトレーニングされた場合、ステージ間のアクティベーション通信が主要なボトルネックとなる。
この領域における最近の研究は、固定直交射影を用いて活性化を圧縮することを提案している。
しかし、これは依然として性能が著しく低下し、最適化を制約するためには、多くの非標準適応が必要である。
自然な代替手段は、各パイプラインステージの低階射影を学ぶことであるが、訓練中にこれらのプロジェクターの直交性を維持することは依然として困難である。
本稿では,段階間圧縮を明示的なスティフェル多様体(直交行列)制約の下で学習可能な直交射影として扱う手法であるMAPLを提案する。
固定された大域部分空間を規定するのではなく、MAPLは各パイプラインステージが、多様体に制約された最も急勾配により、自身のタスク最適圧縮部分空間を発見し、継続的に適用できるようにする。
ステージ境界におけるトークン固有の信号を回復するために,非無視的な通信オーバヘッドでフルランクのアクティベーション再構築を可能にする,ステージごとの分解アンカー埋め込みを導入する。
さらに,予測後の残差ベクトル量子化を,辞書通信を再生するストリーミングコードブック同期プロトコルに組み込むことができることを示す。
150Mから1BパラメータのLLaMAモデル全体で、MAPLは既存のパイプラインに容易に適用でき、サブスペースネットワークと比較して性能のトレードオフを大幅に改善し、不安定な性能劣化を伴う高い圧縮を実現することができることを示す。
関連論文リスト
- ResBM: Residual Bottleneck Models for Low-Bandwidth Pipeline Parallelism [0.0]
大規模分散トレーニングは、そうでなければ、未使用の計算資源を利用することができる。
近年の取り組みでは、100倍のアクティベーション圧縮が主張されているが、複雑な制約付き最適化に依存し、真のエンドツーエンドトレーニングから逸脱している。
ResBMはコンバージェンスレートを著しく損なうことなく、メモリや計算オーバーヘッドを大きく損なうことなく、最先端の128倍のアクティベーション圧縮を実現する。
論文 参考訳(メタデータ) (2026-04-13T18:40:45Z) - Heterogeneous Low-Bandwidth Pre-Training of LLMs [14.653627043173715]
SparseLoCoは,低帯域幅パイプラインモデル並列化と,低周波同期とスパース擬似勾配交換に基づく低周波データ並列化手法である。
高帯域相互接続で完全なレプリカをホストする異種分散トレーニングフレームワークを導入する一方、リソース制限された参加者は共同でレプリカをインスタンス化するためにグループ化される。
アクティベーション圧縮はSparseLoCoと最小のコストで構成され、選択的(異種)圧縮は損失通信トレードオフを一貫して改善する。
論文 参考訳(メタデータ) (2026-01-05T18:59:57Z) - TawPipe: Topology-Aware Weight Pipeline Parallelism for Accelerating Long-Context Large Models Training [9.859893936091813]
大規模言語モデル(LLM)のトレーニングは、デバイスメモリの制限とデバイス間通信のコストによって、基本的に制限されている。
分散クラスタにおける階層的帯域幅を利用して通信効率を向上させるTawPipeを提案する。
論文 参考訳(メタデータ) (2025-11-12T21:06:37Z) - OmniSAT: Compact Action Token, Faster Auto Regression [70.70037017501357]
我々は、コンパクトで転送可能なアクション表現を学ぶOmni Swift Action Tokenizerを紹介する。
その結果、離散トークン化はトレーニングシーケンスを6.8$times$に短縮し、ターゲットエントロピーを低下させる。
論文 参考訳(メタデータ) (2025-10-08T03:55:24Z) - CollaPipe: Adaptive Segment-Optimized Pipeline Parallelism for Collaborative LLM Training in Heterogeneous Edge Networks [57.95170323315603]
CollaPipeは、コラボレーティブパイプライン並列性とフェデレーションアグリゲーションを統合し、自己進化型ネットワークをサポートする分散学習フレームワークである。
CollaPipeでは、エンコーダ部分は可変サイズのセグメントに適応的に分割され、パイプライン並列トレーニングのためにモバイルデバイスにデプロイされ、デコーダは生成タスクを処理するためにエッジサーバにデプロイされる。
トレーニング効率を向上させるために,モデルセグメント,マイクロバッチ,帯域幅,送信電力を適応的に割り当てる共同最適化問題を定式化する。
論文 参考訳(メタデータ) (2025-09-24T07:54:01Z) - TAH-QUANT: Effective Activation Quantization in Pipeline Parallelism over Slow Network [21.231881562816373]
本稿では,パイプライン並列性に特化した新しいアクティベーション量子化フレームワークTAH-Quant(Tile-wise Adaptive Hadamard Quantization)を紹介する。
提案手法は,精密制御のための細粒度タイルワイド量子化,最適ビット使用のためのエントロピー誘導トークンレベル適応ビット割り当て,およびピボット要素スワップを用いたアダマール変換を統合し,量子化出力を効果的に抑制する。
論文 参考訳(メタデータ) (2025-06-02T06:13:41Z) - SHERL: Synthesizing High Accuracy and Efficient Memory for Resource-Limited Transfer Learning [63.93193829913252]
本稿では,リソース制限シナリオに対するSHERLと呼ばれる革新的なMETL戦略を提案する。
初期経路では、中間出力は反冗長動作によって統合される。
遅延ルートでは、最小限の遅延事前トレーニングされたレイヤを利用することで、メモリオーバーヘッドのピーク需要を軽減できる。
論文 参考訳(メタデータ) (2024-07-10T10:22:35Z) - Efficient Parallel Split Learning over Resource-constrained Wireless
Edge Networks [44.37047471448793]
本稿では,エッジコンピューティングパラダイムと並列分割学習(PSL)の統合を提唱する。
そこで本研究では,モデル学習を高速化するために,効率的な並列分割学習(EPSL)という革新的なPSLフレームワークを提案する。
提案するEPSLフレームワークは,目標精度を達成するために必要なトレーニング遅延を著しく低減することを示す。
論文 参考訳(メタデータ) (2023-03-26T16:09:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。