論文の概要: DSP: Dynamic Sequence Parallelism for Multi-Dimensional Transformers
- arxiv url: http://arxiv.org/abs/2403.10266v1
- Date: Fri, 15 Mar 2024 12:53:50 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-18 17:11:11.120670
- Title: DSP: Dynamic Sequence Parallelism for Multi-Dimensional Transformers
- Title(参考訳): DSP: 多次元変圧器の動的シーケンス並列性
- Authors: Xuanlei Zhao, Shenggan Cheng, Zangwei Zheng, Zheming Yang, Ziming Liu, Yang You,
- Abstract要約: 本稿では,多次元トランスモデルに対する効率的なシーケンス並列化を実現するための新しいアプローチである動的シーケンス並列化(DSP)を提案する。
鍵となる考え方は、多次元の注意の潜在的特性を利用して、現在の段階に応じて並列性次元を動的に切り替えることである。
実験の結果、DSPは従来のシーケンス並列化法よりもエンドツーエンドのスループットを42.0%から216.8%改善した。
- 参考スコア(独自算出の注目度): 14.876761790361105
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Scaling large models with long sequences across applications like language generation, video generation and multimodal tasks requires efficient sequence parallelism. However, existing sequence parallelism methods all assume a single sequence dimension and fail to adapt to multi-dimensional transformer architectures that perform attention calculations across different dimensions. This paper introduces Dynamic Sequence Parallelism (DSP), a novel approach to enable efficient sequence parallelism for multi-dimensional transformer models. The key idea is to dynamically switch the parallelism dimension according to the current computation stage, leveraging the potential characteristics of multi-dimensional attention. This dynamic dimension switching allows sequence parallelism with minimal communication overhead compared to applying traditional single-dimension parallelism to multi-dimensional models. Experiments show DSP improves end-to-end throughput by 42.0% to 216.8% over prior sequence parallelism methods.
- Abstract(参考訳): 言語生成、ビデオ生成、マルチモーダルタスクといったアプリケーションにまたがって長いシーケンスを持つ大規模モデルをスケールするには、効率的なシーケンス並列性が必要である。
しかし、既存のシーケンス並列化法は、すべて単一のシーケンス次元を仮定し、異なる次元にわたる注意計算を行う多次元トランスフォーマーアーキテクチャに適合しない。
本稿では,多次元トランスモデルに対する効率的なシーケンス並列化を実現するための新しいアプローチである動的シーケンス並列化(DSP)を提案する。
鍵となる考え方は、多次元の注意の潜在的特性を利用して、現在の計算段階に応じて並列性次元を動的に切り替えることである。
この動的次元スイッチングにより、従来の1次元並列処理を多次元モデルに適用するよりも、通信オーバーヘッドを最小限に抑えたシーケンス並列化が可能となる。
実験の結果、DSPは従来のシーケンス並列化法よりもエンドツーエンドのスループットを42.0%から216.8%改善した。
関連論文リスト
- Transformers, parallel computation, and logarithmic depth [33.659870765923884]
我々は,一定数の自己注意層が,大規模並列計算の通信ラウンドを効率よくシミュレートし,シミュレートできることを示す。
論文 参考訳(メタデータ) (2024-02-14T15:54:55Z) - Convolutional State Space Models for Long-Range Spatiotemporal Modeling [65.0993000439043]
ConvS5は、長距離時間モデリングのための効率的な変種である。
トランスフォーマーとConvNISTTMは、長い水平移動実験において、ConvLSTMより3倍速く、トランスフォーマーより400倍速くサンプルを生成する一方で、大幅に性能が向上した。
論文 参考訳(メタデータ) (2023-10-30T16:11:06Z) - DeepSpeed Ulysses: System Optimizations for Enabling Training of Extreme
Long Sequence Transformer Models [34.74093040678323]
我々は,高度に効率的かつスケーラブルなLDMトレーニングを実現するための,新しい,ポータブルで効果的な方法論であるDeepSpeed-Ulyssesを紹介した。
DeepSpeed-Ulyssesは、そのコアでシーケンス次元に沿って入力データを分割し、効率的なオール・ツー・オールの集合通信を用いて注意を払っている。
実験の結果、DeepSpeed-Ulyssesは既存のSOTAベースラインの4倍のシーケンス長で2.5倍高速であることがわかった。
論文 参考訳(メタデータ) (2023-09-25T20:15:57Z) - Online Multi-Task Learning with Recursive Least Squares and Recursive Kernel Methods [50.67996219968513]
本稿では,オンラインマルチタスク学習(MTL)回帰問題に対する2つの新しいアプローチを紹介する。
入力空間の次元の2次パースタンスコストで精度よく近似的な再帰を実現する。
我々は,実世界の風速予測ケーススタディにおいて,オンラインMTL法と他の競技者との比較を行った。
論文 参考訳(メタデータ) (2023-08-03T01:41:34Z) - RWKV: Reinventing RNNs for the Transformer Era [54.716108899349614]
本稿では,変換器の効率的な並列化学習とRNNの効率的な推論を組み合わせた新しいモデルアーキテクチャを提案する。
モデルを最大14億のパラメータにスケールし、トレーニングされたRNNの中では最大で、同じサイズのTransformerと同等のRWKVのパフォーマンスを実現しています。
論文 参考訳(メタデータ) (2023-05-22T13:57:41Z) - DBA: Efficient Transformer with Dynamic Bilinear Low-Rank Attention [53.02648818164273]
動的双線形低ランク注意(DBA)という,効率的かつ効果的な注意機構を提案する。
DBAは入力感度の動的射影行列によってシーケンス長を圧縮し、線形時間と空間の複雑さを実現する。
様々なシーケンス長条件のタスクに対する実験は、DBAが最先端のパフォーマンスを達成することを示す。
論文 参考訳(メタデータ) (2022-11-24T03:06:36Z) - Embarrassingly Parallel Independent Training of Multi-Layer Perceptrons
with Heterogeneous Architectures [2.094821665776961]
ParallelMLPsは、異なる数のニューロンとアクティベーション関数を並列に持つ複数の独立したパーセプトロンニューラルネットワークのトレーニングを可能にする手順である。
我々は,1万の異なるモデルを用いて,サンプル数,特徴量,バッチ数をシミュレーションデータセットで評価した。
逐次的アプローチと比較して1~4桁のトレーニングスピードアップを実現した。
論文 参考訳(メタデータ) (2022-06-14T02:00:31Z) - Parallel Training of GRU Networks with a Multi-Grid Solver for Long
Sequences [1.9798034349981162]
本稿では,GRU(Gated Recurrent Unit)ネットワークのための並列学習手法を提案する。
MGRITはシーケンスを複数の短いサブシーケンスに分割し、異なるプロセッサ上のサブシーケンスを並列に訓練する。
HMDB51データセットにおいて、各ビデオが画像シーケンスである実験結果から、新しい並列トレーニングスキームがシリアルアプローチよりも最大6.5$times$スピードアップを達成することを示した。
論文 参考訳(メタデータ) (2022-03-07T11:32:44Z) - TeraPipe: Token-Level Pipeline Parallelism for Training Large-Scale
Language Models [60.23234205219347]
TeraPipeは、Transformerベースの言語モデルの同期モデル並列トレーニングのための高性能トークンレベルのパイプライン並列アルゴリズムです。
TeraPipeは、AWSクラスタ上で1750億のパラメータを持つ最大のGPT-3モデルのトレーニングを5.0倍高速化できることを示す。
論文 参考訳(メタデータ) (2021-02-16T07:34:32Z) - Parallel Training of Deep Networks with Local Updates [84.30918922367442]
ローカル並列性(Local Parallelism)は、グローバルバックプロパゲーションを切り捨てられたレイヤワイズバックプロパゲーションに置き換えることで、ディープネットワーク内の個々のレイヤのトレーニングを並列化するフレームワークである。
我々は、様々なアーキテクチャセットにわたるビジョンと言語領域の両方で結果を示し、局所的並列性は特に高コンピュートなシステムにおいて有効であることを見出した。
論文 参考訳(メタデータ) (2020-12-07T16:38:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。