論文の概要: Ladder-residual: parallelism-aware architecture for accelerating large model inference with communication overlapping
- arxiv url: http://arxiv.org/abs/2501.06589v2
- Date: Tue, 21 Jan 2025 14:33:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-22 14:17:31.776476
- Title: Ladder-residual: parallelism-aware architecture for accelerating large model inference with communication overlapping
- Title(参考訳): Ladder-Residual: parallelism-aware architecture for acelerating large model inference with communication overlapping
- Authors: Muru Zhang, Mayank Mishra, Zhongzhu Zhou, William Brandon, Jue Wang, Yoon Kim, Jonathan Ragan-Kelley, Shuaiwen Leon Song, Ben Athiwaratkun, Tri Dao,
- Abstract要約: すべての残差ベースモデルに適用可能な,シンプルなアーキテクチャ変更であるLadder Residualを紹介する。
Ladder Residualをすべてのレイヤに適用することで、TPシャーディングが8台以上のデバイスで推論時に、エンドツーエンドのウォールクロックを30%高速化することができる。
1Bおよび3Bラダー変換器をスクラッチからトレーニングし、標準の高密度変圧器ベースラインに匹敵する性能を観測する。
- 参考スコア(独自算出の注目度): 36.71999572939612
- License:
- Abstract: Large language model inference is both memory-intensive and time-consuming, often requiring distributed algorithms to efficiently scale. Various model parallelism strategies are used in multi-gpu training and inference to partition computation across multiple devices, reducing memory load and computation time. However, using model parallelism necessitates communication of information between GPUs, which has been a major bottleneck and limits the gains obtained by scaling up the number of devices. We introduce Ladder Residual, a simple architectural modification applicable to all residual-based models that enables straightforward overlapping that effectively hides the latency of communication. Our insight is that in addition to systems optimization, one can also redesign the model architecture to decouple communication from computation. While Ladder Residual can allow communication-computation decoupling in conventional parallelism patterns, we focus on Tensor Parallelism in this paper, which is particularly bottlenecked by its heavy communication. For a Transformer model with 70B parameters, applying Ladder Residual to all its layers can achieve 30% end-to-end wall clock speed up at inference time with TP sharding over 8 devices. We refer the resulting Transformer model as the Ladder Transformer. We train a 1B and 3B Ladder Transformer from scratch and observe comparable performance to a standard dense transformer baseline. We also show that it is possible to convert parts of the Llama-3.1 8B model to our Ladder Residual architecture with minimal accuracy degradation by only retraining for 3B tokens.
- Abstract(参考訳): 大規模な言語モデル推論はメモリ集約的かつ時間を要するため、分散アルゴリズムを効率的にスケールする必要があることが多い。
マルチgpuトレーニングや推論において、複数のデバイス間での計算のパーティショニングに様々なモデル並列化戦略が使用され、メモリ負荷と計算時間を削減している。
しかし、モデル並列性を用いることで、GPU間での情報通信が必要となり、デバイス数をスケールアップすることで得られる利益を制限している。
ラダー・リシダル(Ladder Residual)は、すべての残差ベースモデルに適用可能なシンプルなアーキテクチャ変更であり、単純なオーバーラップを可能にし、通信の遅延を効果的に隠蔽する。
私たちの洞察では、システム最適化に加えて、モデルアーキテクチャを再設計して、通信を計算から切り離すこともできる。
Ladder Residualは、従来の並列処理パターンにおける通信計算のデカップリングを可能にするが、この論文ではテンソル並列性に焦点をあてる。
70Bパラメータを持つTransformerモデルでは、Ladder Residualをすべてのレイヤに適用することで、TPシャーディングを8つのデバイスで行うことで、推論時に30%のエンドツーエンドのウォールクロックを高速化することができる。
結果のTransformerモデルをLadder Transformerと呼ぶ。
1Bおよび3Bラダー変換器をスクラッチからトレーニングし、標準の高密度変圧器ベースラインに匹敵する性能を観測する。
また,Llama-3.1 8B モデルの部品を 3B トークンのみをリトレーニングすることで,最小限の精度でLdder Residual アーキテクチャに変換することが可能であることを示す。
関連論文リスト
- Kraken: Inherently Parallel Transformers For Efficient Multi-Device Inference [8.527031391688283]
Krakenは、マルチデバイスシステムの効率的な推論のための標準的なTransformerアーキテクチャの進化である。
OpenWebTextでトレーニングすると、Krakenモデルは標準のTransformerと同じような難易度に達する。
SuperGLUEベンチマークでテストすると、Krakenはモデルサイズで平均35.6%のタイム・トゥ・ファースト・トークンをスピードアップする。
論文 参考訳(メタデータ) (2024-08-14T20:24:03Z) - Retentive Network: A Successor to Transformer for Large Language Models [91.6652200825638]
大規模言語モデルの基盤アーキテクチャとしてRetentive Network(RetNet)を提案する。
理論的には、再発と注意の関係を導出する。
言語モデリングの実験結果から、RetNetは優れたスケーリング結果、並列トレーニング、低コストなデプロイメント、効率的な推論を実現している。
論文 参考訳(メタデータ) (2023-07-17T16:40:01Z) - RWKV: Reinventing RNNs for the Transformer Era [54.716108899349614]
本稿では,変換器の効率的な並列化学習とRNNの効率的な推論を組み合わせた新しいモデルアーキテクチャを提案する。
モデルを最大14億のパラメータにスケールし、トレーニングされたRNNの中では最大で、同じサイズのTransformerと同等のRWKVのパフォーマンスを実現しています。
論文 参考訳(メタデータ) (2023-05-22T13:57:41Z) - SWARM Parallelism: Training Large Models Can Be Surprisingly
Communication-Efficient [69.61083127540776]
ディープラーニングアプリケーションは、数十億のパラメータを持つ大きなモデルを使用することの恩恵を受ける。
これらのモデルのトレーニングは、特殊なHPCクラスタを必要とするため、非常に高価である。
安価な"プリエンプティブル"インスタンスを使用するか、あるいは複数のリージョンから既存のリソースをプールする。
論文 参考訳(メタデータ) (2023-01-27T18:55:19Z) - On Optimizing the Communication of Model Parallelism [74.15423270435949]
大規模モデル並列ディープラーニング(DL)における新しい重要なコミュニケーションパターンについて検討する。
クロスメッシュリシャーディングでは、シャードテンソルをソースデバイスメッシュから宛先デバイスメッシュに送信する必要がある。
本稿では、効率的な放送ベースの通信システムと「重複しやすい」パイプラインスケジュールという、クロスメシュ・リシャーディングに対処するための2つのコントリビューションを提案する。
論文 参考訳(メタデータ) (2022-11-10T03:56:48Z) - LiteTransformerSearch: Training-free On-device Search for Efficient
Autoregressive Language Models [34.673688610935876]
モデルトレーニングを必要とせずに、レイテンシとパープレクシリティが最前線に現れることを示す。
我々は,多種多様なデバイス上での軽量トランスフォーマーサーチ (LTS) の評価を行った。
最大2倍のレイテンシでTransformer-XLのパープレキシティを実現することができることを示す。
論文 参考訳(メタデータ) (2022-03-04T02:10:43Z) - TCCT: Tightly-Coupled Convolutional Transformer on Time Series
Forecasting [6.393659160890665]
本稿では, 密結合型畳み込み変換器(TCCT)と3つのTCCTアーキテクチャを提案する。
実世界のデータセットに対する我々の実験は、我々のTCCTアーキテクチャが既存の最先端トランスフォーマーモデルの性能を大幅に改善できることを示している。
論文 参考訳(メタデータ) (2021-08-29T08:49:31Z) - Hardware Beyond Backpropagation: a Photonic Co-Processor for Direct
Feedback Alignment [26.65651157173834]
数兆のパラメータでランダムなプロジェクションを計算できる、ダイレクトフィードバックアライメントのためのフォトニック加速器を提案する。
これはスケーラブルなハードウェアを構築するための重要なステップであり、バックプロパゲーションを超えることができる。
論文 参考訳(メタデータ) (2020-12-11T14:20:45Z) - One-step regression and classification with crosspoint resistive memory
arrays [62.997667081978825]
高速で低エネルギーのコンピュータは、エッジでリアルタイム人工知能を実現するために要求されている。
ワンステップ学習は、ボストンの住宅のコスト予測と、MNIST桁認識のための2層ニューラルネットワークのトレーニングによって支援される。
結果は、クロスポイントアレイ内の物理計算、並列計算、アナログ計算のおかげで、1つの計算ステップで得られる。
論文 参考訳(メタデータ) (2020-05-05T08:00:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。