論文の概要: ResBM: Residual Bottleneck Models for Low-Bandwidth Pipeline Parallelism
- arxiv url: http://arxiv.org/abs/2604.11947v1
- Date: Mon, 13 Apr 2026 18:40:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-15 19:11:32.064023
- Title: ResBM: Residual Bottleneck Models for Low-Bandwidth Pipeline Parallelism
- Title(参考訳): ResBM:低帯域パイプライン並列化のための残留ボツネックモデル
- Authors: Alan Aboudib, Rodrigo Lopez Portillo A., Kalei Brady, Steffen Cruz,
- Abstract要約: 大規模分散トレーニングは、そうでなければ、未使用の計算資源を利用することができる。
近年の取り組みでは、100倍のアクティベーション圧縮が主張されているが、複雑な制約付き最適化に依存し、真のエンドツーエンドトレーニングから逸脱している。
ResBMはコンバージェンスレートを著しく損なうことなく、メモリや計算オーバーヘッドを大きく損なうことなく、最先端の128倍のアクティベーション圧縮を実現する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Unlocking large-scale low-bandwidth decentralized training has the potential to utilize otherwise untapped compute resources. In centralized settings, large-scale multi-node training is primarily enabled by data and pipeline parallelism, two techniques that require ultra-high-bandwidth communication. While efficient methods now exist for decentralized data parallelism, pipeline parallelism remains the primary challenge. Recent efforts, such as Subspace Models (SM), have claimed up to 100x activation compression but rely on complex constrained optimization and diverge from true end-to-end training. In this paper, we propose a different approach, based on an architecture designed from the ground up to be native to low-bandwidth communication environments while still applicable to any standard transformer-based architecture. We call this architecture the Residual Bottleneck Model or ResBM, it introduces a residual encoder-decoder bottleneck module across pipeline boundaries that can be trained end-to-end as part of the model's parameters while preserving an explicit low-rank identity path. We show that ResBMs achieve state-of-the-art 128x activation compression without significant loss in convergence rates and without significant memory or compute overhead.
- Abstract(参考訳): 大規模低帯域分散トレーニングのアンロックは、そうでなければ未使用の計算資源を利用する可能性がある。
集中的な設定では、大規模マルチノードトレーニングは主にデータとパイプラインの並列処理によって実現される。
分散データ並列化には効率的な方法が現在存在するが、パイプライン並列化は依然として主要な課題である。
サブスペースモデル(SM)のような最近の取り組みでは、最大100倍のアクティベーション圧縮が主張されているが、複雑な制約のある最適化に依存し、真のエンドツーエンドトレーニングから逸脱している。
本稿では,標準トランスフォーマーアーキテクチャにも適用可能な,低帯域通信環境にネイティブなアーキテクチャをゼロから設計した,異なるアプローチを提案する。
私たちはこのアーキテクチャをResidual Bottleneck Model(ResBM)と呼び、パイプライン境界を越えた残留エンコーダとデコーダのボトルネックモジュールを導入します。
ResBMはコンバージェンスレートを著しく損なうことなく、メモリや計算オーバーヘッドを大きく損なうことなく、最先端の128倍のアクティベーション圧縮を実現する。
関連論文リスト
- AsyncMesh: Fully Asynchronous Optimization for Data and Pipeline Parallelism [54.8494905524997]
両方の並列処理軸をまたいだ非同期更新を導入し、コロケーション要求を緩和します。
スパース平均化と非同期更新の両方に対して収束保証を提供します。
大規模言語モデルを用いた実験により,本手法が完全同期ベースラインの性能と一致することを示した。
論文 参考訳(メタデータ) (2026-01-30T01:24:47Z) - Heterogeneous Low-Bandwidth Pre-Training of LLMs [14.653627043173715]
SparseLoCoは,低帯域幅パイプラインモデル並列化と,低周波同期とスパース擬似勾配交換に基づく低周波データ並列化手法である。
高帯域相互接続で完全なレプリカをホストする異種分散トレーニングフレームワークを導入する一方、リソース制限された参加者は共同でレプリカをインスタンス化するためにグループ化される。
アクティベーション圧縮はSparseLoCoと最小のコストで構成され、選択的(異種)圧縮は損失通信トレードオフを一貫して改善する。
論文 参考訳(メタデータ) (2026-01-05T18:59:57Z) - Range Asymmetric Numeral Systems-Based Lightweight Intermediate Feature Compression for Split Computing of Deep Neural Networks [5.186026342830856]
Splitコンピューティングは、リソース制約のあるエッジデバイスとクラウドサーバの間で、ディープニューラルネットワーク推論を分散する。
本研究では、非対称整数量子化とスパーステンソル表現を併用したレンジ非対称数値システム(rANS)の符号化を利用して、伝送オーバーヘッドを劇的に低減する新しい軽量圧縮フレームワークを提案する。
論文 参考訳(メタデータ) (2025-11-11T12:33:59Z) - Model Parallelism With Subnetwork Data Parallelism [21.914077370806016]
大規模な大規模ニューラルネットワークの事前トレーニングは、アクセラレータに大量のメモリ要求を課し、しばしば高価な通信を必要とする。
本稿では,分散トレーニングフレームワークであるSubnetwork Data Parallelism(SDP)を紹介する。
本研究では,不偏勾配を維持するために下位段階のみに空間性を適用した後方マスキングと,前方パスのパラメータを除去してより高効率なゲインを実現する前方マスキングの2つの相補的なマスキング方式について検討する。
論文 参考訳(メタデータ) (2025-07-11T21:25:11Z) - Protocol Models: Scaling Decentralized Training with Communication-Efficient Model Parallelism [59.79227116582264]
モデルスケーリングはディープラーニングの大幅な進歩につながったが、これらのモデルを分散環境でトレーニングすることは依然として難しい。
本研究では,前処理と後処理の両方を圧縮し,最大99%の圧縮が可能となる新しい圧縮アルゴリズムを提案する。
論文 参考訳(メタデータ) (2025-06-02T02:19:22Z) - StreamRL: Scalable, Heterogeneous, and Elastic RL for LLMs with Disaggregated Stream Generation [55.75008325187133]
強化学習(RL)は,大規模言語モデル(LLM)の学習後のコアとなる。
StreamRLは、最初の原則から分離して、2種類のパフォーマンスボトルネックに対処するように設計されている。
実験により、StreamRLは既存の最先端システムと比較してスループットを最大2.66倍改善することが示された。
論文 参考訳(メタデータ) (2025-04-22T14:19:06Z) - SHERL: Synthesizing High Accuracy and Efficient Memory for Resource-Limited Transfer Learning [63.93193829913252]
本稿では,リソース制限シナリオに対するSHERLと呼ばれる革新的なMETL戦略を提案する。
初期経路では、中間出力は反冗長動作によって統合される。
遅延ルートでは、最小限の遅延事前トレーニングされたレイヤを利用することで、メモリオーバーヘッドのピーク需要を軽減できる。
論文 参考訳(メタデータ) (2024-07-10T10:22:35Z) - Iterative Soft Shrinkage Learning for Efficient Image Super-Resolution [91.3781512926942]
画像超解像(SR)は、CNNからトランスフォーマーアーキテクチャへの広範なニューラルネットワーク設計を目撃している。
本研究は,市販のネットワーク設計を生かし,基礎となる計算オーバーヘッドを低減するため,超高解像度イテレーションにおけるネットワークプルーニングの可能性について検討する。
本研究では, ランダムネットワークのスパース構造を最適化し, 重要でない重みを小さめに微調整することにより, 反復型軟収縮率(ISS-P)法を提案する。
論文 参考訳(メタデータ) (2023-03-16T21:06:13Z) - Adaptive Subcarrier, Parameter, and Power Allocation for Partitioned
Edge Learning Over Broadband Channels [69.18343801164741]
パーティショニングエッジ学習(PARTEL)は、無線ネットワークにおいてよく知られた分散学習手法であるパラメータサーバトレーニングを実装している。
本稿では、いくつかの補助変数を導入してParticleELを用いてトレーニングできるディープニューラルネットワーク(DNN)モデルについて考察する。
論文 参考訳(メタデータ) (2020-10-08T15:27:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。