論文の概要: DSP: Dynamic Sequence Parallelism for Multi-Dimensional Transformers
- arxiv url: http://arxiv.org/abs/2403.10266v1
- Date: Fri, 15 Mar 2024 12:53:50 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-18 17:11:11.120670
- Title: DSP: Dynamic Sequence Parallelism for Multi-Dimensional Transformers
- Title(参考訳): DSP: 多次元変圧器の動的シーケンス並列性
- Authors: Xuanlei Zhao, Shenggan Cheng, Zangwei Zheng, Zheming Yang, Ziming Liu, Yang You,
- Abstract要約: 本稿では,多次元トランスモデルに対する効率的なシーケンス並列化を実現するための新しいアプローチである動的シーケンス並列化(DSP)を提案する。
鍵となる考え方は、多次元の注意の潜在的特性を利用して、現在の段階に応じて並列性次元を動的に切り替えることである。
実験の結果、DSPは従来のシーケンス並列化法よりもエンドツーエンドのスループットを42.0%から216.8%改善した。
- 参考スコア(独自算出の注目度): 14.876761790361105
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Scaling large models with long sequences across applications like language generation, video generation and multimodal tasks requires efficient sequence parallelism. However, existing sequence parallelism methods all assume a single sequence dimension and fail to adapt to multi-dimensional transformer architectures that perform attention calculations across different dimensions. This paper introduces Dynamic Sequence Parallelism (DSP), a novel approach to enable efficient sequence parallelism for multi-dimensional transformer models. The key idea is to dynamically switch the parallelism dimension according to the current computation stage, leveraging the potential characteristics of multi-dimensional attention. This dynamic dimension switching allows sequence parallelism with minimal communication overhead compared to applying traditional single-dimension parallelism to multi-dimensional models. Experiments show DSP improves end-to-end throughput by 42.0% to 216.8% over prior sequence parallelism methods.
- Abstract(参考訳): 言語生成、ビデオ生成、マルチモーダルタスクといったアプリケーションにまたがって長いシーケンスを持つ大規模モデルをスケールするには、効率的なシーケンス並列性が必要である。
しかし、既存のシーケンス並列化法は、すべて単一のシーケンス次元を仮定し、異なる次元にわたる注意計算を行う多次元トランスフォーマーアーキテクチャに適合しない。
本稿では,多次元トランスモデルに対する効率的なシーケンス並列化を実現するための新しいアプローチである動的シーケンス並列化(DSP)を提案する。
鍵となる考え方は、多次元の注意の潜在的特性を利用して、現在の計算段階に応じて並列性次元を動的に切り替えることである。
この動的次元スイッチングにより、従来の1次元並列処理を多次元モデルに適用するよりも、通信オーバーヘッドを最小限に抑えたシーケンス並列化が可能となる。
実験の結果、DSPは従来のシーケンス並列化法よりもエンドツーエンドのスループットを42.0%から216.8%改善した。
関連論文リスト
- NIMBA: Towards Robust and Principled Processing of Point Clouds With SSMs [9.978766637766373]
データ複製を必要とせずに3次元空間構造を維持できる点雲を1次元配列に変換する手法を提案する。
本手法では位置埋め込みは必要とせず, 精度を保ちながら短いシーケンス長が可能である。
論文 参考訳(メタデータ) (2024-10-31T18:58:40Z) - Mini-Sequence Transformer: Optimizing Intermediate Memory for Long Sequences Training [78.93900796545523]
ミニシーケンス変換器(Mini-Sequence Transformer, MsT)は、非常に長いシーケンスを持つ高速かつ高精度なLLMトレーニング手法である。
MsTは入力シーケンスを分割し、中間メモリ使用量を減らすためにミニシーケンスを反復的に処理する。
huggingfaceライブラリと統合され、MsTはQwen、Mistral、Gemma-2の最大コンテキスト長を12-24倍に拡張した。
論文 参考訳(メタデータ) (2024-07-22T01:52:30Z) - Multimodal Transformer With a Low-Computational-Cost Guarantee [14.852842445363505]
Low-Cost Multimodal Transformer (LoCoMT) は、トレーニング中の計算コストを低減し、性能損失を最小限に抑えることを目的とした、新しいマルチモーダルアテンション機構である。
LoCoMTは柔軟にマルチモーダル信号を制御でき、理論上既存のマルチモーダルトランスフォーマーの変種と比較して計算コストを削減できる。
論文 参考訳(メタデータ) (2024-02-23T05:09:35Z) - Convolutional State Space Models for Long-Range Spatiotemporal Modeling [65.0993000439043]
ConvS5は、長距離時間モデリングのための効率的な変種である。
トランスフォーマーとConvNISTTMは、長い水平移動実験において、ConvLSTMより3倍速く、トランスフォーマーより400倍速くサンプルを生成する一方で、大幅に性能が向上した。
論文 参考訳(メタデータ) (2023-10-30T16:11:06Z) - DeepSpeed Ulysses: System Optimizations for Enabling Training of Extreme
Long Sequence Transformer Models [34.74093040678323]
我々は,高度に効率的かつスケーラブルなLDMトレーニングを実現するための,新しい,ポータブルで効果的な方法論であるDeepSpeed-Ulyssesを紹介した。
DeepSpeed-Ulyssesは、そのコアでシーケンス次元に沿って入力データを分割し、効率的なオール・ツー・オールの集合通信を用いて注意を払っている。
実験の結果、DeepSpeed-Ulyssesは既存のSOTAベースラインの4倍のシーケンス長で2.5倍高速であることがわかった。
論文 参考訳(メタデータ) (2023-09-25T20:15:57Z) - Online Multi-Task Learning with Recursive Least Squares and Recursive Kernel Methods [50.67996219968513]
本稿では,オンラインマルチタスク学習(MTL)回帰問題に対する2つの新しいアプローチを紹介する。
入力空間の次元の2次パースタンスコストで精度よく近似的な再帰を実現する。
我々は,実世界の風速予測ケーススタディにおいて,オンラインMTL法と他の競技者との比較を行った。
論文 参考訳(メタデータ) (2023-08-03T01:41:34Z) - Blockwise Parallel Transformer for Large Context Models [70.97386897478238]
Blockwise Parallel Transformer (BPT) は、メモリコストを最小限に抑えるために、自己アテンションとフィードフォワードネットワーク融合のブロックワイズ計算である。
メモリ効率を維持しながら、長い入力シーケンスを処理することにより、BPTはバニラ変換器の32倍、以前のメモリ効率の4倍のトレーニングシーケンスを可能にする。
論文 参考訳(メタデータ) (2023-05-30T19:25:51Z) - DBA: Efficient Transformer with Dynamic Bilinear Low-Rank Attention [53.02648818164273]
動的双線形低ランク注意(DBA)という,効率的かつ効果的な注意機構を提案する。
DBAは入力感度の動的射影行列によってシーケンス長を圧縮し、線形時間と空間の複雑さを実現する。
様々なシーケンス長条件のタスクに対する実験は、DBAが最先端のパフォーマンスを達成することを示す。
論文 参考訳(メタデータ) (2022-11-24T03:06:36Z) - Parallel Training of GRU Networks with a Multi-Grid Solver for Long
Sequences [1.9798034349981162]
本稿では,GRU(Gated Recurrent Unit)ネットワークのための並列学習手法を提案する。
MGRITはシーケンスを複数の短いサブシーケンスに分割し、異なるプロセッサ上のサブシーケンスを並列に訓練する。
HMDB51データセットにおいて、各ビデオが画像シーケンスである実験結果から、新しい並列トレーニングスキームがシリアルアプローチよりも最大6.5$times$スピードアップを達成することを示した。
論文 参考訳(メタデータ) (2022-03-07T11:32:44Z) - Dual-Flattening Transformers through Decomposed Row and Column Queries
for Semantic Segmentation [50.321277476317974]
本稿では,高解像度出力を実現するためにDual-Flattening Transformer (DFlatFormer)を提案する。
ADE20KおよびCityscapesデータセットの実験は、提案された2重平坦トランスアーキテクチャの優位性を実証している。
論文 参考訳(メタデータ) (2022-01-22T22:38:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。