論文の概要: Folding Tensor and Sequence Parallelism for Memory-Efficient Transformer Training & Inference
- arxiv url: http://arxiv.org/abs/2604.26294v1
- Date: Wed, 29 Apr 2026 04:44:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-30 15:59:36.258839
- Title: Folding Tensor and Sequence Parallelism for Memory-Efficient Transformer Training & Inference
- Title(参考訳): メモリ効率のよい変圧器訓練と推論のための折り曲げテンソルとシーケンス並列性
- Authors: Vasu Shyam, Anna Golubeva, Quentin Anthony,
- Abstract要約: tensor and sequence parallelism (TSP) は、テンソル並列性とシーケンス並列性を単一のデバイス軸に折り畳む並列実行戦略である。
我々はこの設計を2つの実行時スケジュールで実装する。注意すべきは、シーケンスワイドのキー/値交換による放送パラメータのシャードとコンテキストのランク付けである。
本稿では,TP,SP,TP+SPに対してTSPをベンチマークし,留意点とゲートブロックの実装を理論的に記述する。
- 参考スコア(独自算出の注目度): 7.139526063136717
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present tensor and sequence parallelism (TSP), a parallel execution strategy that folds tensor parallelism and sequence parallelism onto a single device axis. In conventional multi-dimensional parallelism layouts, tensor parallelism (TP) shards model weights while sequence parallelism (SP) shards tokens, reducing per-device parameter or activation memory, respectively. Traditionally, each scheme is assigned its own mesh dimension. TSP instead assigns each rank both a weight shard and a sequence shard, reducing both parameter and activation memory along the same device axis. We implement this design with two runtime schedules. For attention, ranks iterate over broadcast parameter shards and reconstruct context through a sequence-wise key/value exchange. For gated MLPs, weight shards circulate in a ring while partial outputs accumulate locally. By sharding both weights and activations across the same devices, TSP trades additional communication volume for reduced memory overhead. We provide a theoretical communication and memory analysis, describe our implementation of TSP attention and gated MLP blocks, and benchmark TSP against TP, SP, and TP+SP. These results position TSP as a hardware-aware alternative for long-context and memory-constrained model training, and as a viable axis of parallelism in concert with existing parallelism schemes such as pipeline and expert parallelism for dense and mixture-of-expert models.
- Abstract(参考訳): テンソル並列性とシーケンス並列性(TSP)は,テンソル並列性とシーケンス並列性を1つのデバイス軸に折り畳む並列実行戦略である。
従来の多次元並列化レイアウトでは、テンソル並列化(TP)はモデルの重みをシャードし、シーケンス並列化(SP)はトークンをシャードし、デバイス単位のパラメータやアクティベーションメモリをそれぞれ削減した。
伝統的に、各スキームは独自のメッシュ次元を割り当てる。
代わりに、TSPは各ランクをウェイトシャードとシーケンスシャードの両方に割り当て、同じデバイス軸に沿ったパラメータとアクティベーションメモリの両方を削減する。
2つのランタイムスケジュールでこの設計を実装します。
注意するために、放送パラメータシャードの上にランク付けし、シーケンスワイドのキー/バリュー交換を通してコンテキストを再構築する。
ゲート型MLPでは、部分出力が局所的に蓄積される間、重量シャードが環に循環する。
同じデバイス間で重みとアクティベーションの両方をシャーディングすることで、TSPはメモリオーバーヘッドを減らすために追加の通信ボリュームを交換する。
本稿では,TP,SP,TP+SPに対して,TP,SP,TP+SPに対するTSPアテンションとゲートMLPブロックの実装について述べる。
これらの結果から、TSPは長期コンテキストおよびメモリ制約モデルトレーニングのためのハードウェア対応の代替品として位置づけられ、また、高密度および高度混合モデルのためのパイプラインやエキスパート並列化のような既存の並列化スキームと協調して、並列化の実行可能な軸として位置づけられた。
関連論文リスト
- PRISM: Parallel Residual Iterative Sequence Model [52.26239951489612]
我々はこの緊張を解決するためにPRISM(Parallel Residual Iterative Sequence Model)を提案する。
PRISMは、パラレル化可能な形で多段階精製の重要な構造特性を捉える、ソルバに着想を得た帰納バイアスを導入している。
この定式化が Rank-$L$ の蓄積を達成することを証明し、更新多様体を単一ステップの Rank-$1$ ボトルネックを超えて構造的に拡張する。
論文 参考訳(メタデータ) (2026-02-11T12:39:41Z) - db-SP: Accelerating Sparse Attention for Visual Generative Models with Dual-Balanced Sequence Parallelism [14.406306253079515]
シーケンス並列化による拡散変換器(DiT)のスケーリングは、視覚発生の遅延を低減するために重要である。
スパース不均衡比を定式化して不均衡を定量化し、スパースを意識したシーケンス並列化手法であるdb-SPを提案する。
我々は,db-SPが1.25xのエンドツーエンドスピードアップと1.40xのアテンション特異的スピードアップを実現していることを示す。
論文 参考訳(メタデータ) (2025-11-28T11:55:46Z) - GSPN-2: Efficient Parallel Sequence Modeling [101.33780567131716]
一般化空間伝搬ネットワーク(GSPN)は2次自己アテンションを直線走査型伝搬方式に置き換えることでこの問題に対処する。
GSPN-2は、視覚アプリケーションにおけるグローバル空間コンテキストをモデル化するための新しい効率フロンティアを確立する。
論文 参考訳(メタデータ) (2025-11-28T07:26:45Z) - PT$^2$-LLM: Post-Training Ternarization for Large Language Models [52.4629647715623]
大きな言語モデル(LLM)は、様々なタスクにまたがる印象的な機能を示しているが、その大きなメモリと計算能力は、デプロイメントを妨げている。
PT$2$-LLMを提案する。
その中核は2段精製パイプラインを備えた非対称3次量子化器である。
論文 参考訳(メタデータ) (2025-09-27T03:01:48Z) - HelixPipe: Efficient Distributed Training of Long Sequence Transformers with Attention Parallel Pipeline Parallelism [14.067070576474086]
トランスシークエンスの長さが大きくなるにつれて、既存のパイプライン並列処理は2次注意計算とかなりのメモリオーバーヘッドのため、最適以下の性能を実現する。
長周期変圧器訓練のための新しいパイプライン並列性であるHelixPipeを提案する。
これは、異なるパイプラインステージ間で異なるマイクロバッチのアテンション計算を並列にスケジュールし、パイプラインバブルを減少させる、アテンション並列パーティションを導入している。
メモリ使用量のバランスと、フラグメンテーションによる重複通信のバランスをとるために、2倍の第一段階のマイクロバッチスケジュールを採用している。
論文 参考訳(メタデータ) (2025-07-01T03:11:18Z) - xDiT: an Inference Engine for Diffusion Transformers (DiTs) with Massive Parallelism [5.704297874096985]
拡散モデルは高品質の画像やビデオを生成する上で重要な要素である。
本稿では,DiTの総合的並列推論エンジンであるxDiTを紹介する。
特に、Ethernetに接続されたGPUクラスタ上でDiTsのスケーラビリティを最初に示すのは、私たちです。
論文 参考訳(メタデータ) (2024-11-04T01:40:38Z) - USP: A Unified Sequence Parallelism Approach for Long Context Generative AI [1.973144426163543]
シーケンス並列性(SP)は、生成AIモデルの長期コンテキスト機能をアンロックする鍵となっている。
本稿では,最先端SPアプローチ,すなわちDeepSpeed-UlyssesとRing-Attentionについて検討し,統一SPアプローチを提案する。
LLAMA3-8BモデルトレーニングにSPを用いた2つの8xA800ノードに対して,シーケンス長208Kを用いた47%のMFUを達成した。
論文 参考訳(メタデータ) (2024-05-13T13:08:02Z) - Alpa: Automating Inter- and Intra-Operator Parallelism for Distributed
Deep Learning [54.99749970495241]
Alpaは大規模なディープラーニング(DL)モデルのモデル並列トレーニングを自動化する。
Alpaはデータ、演算子、パイプライン並列性を統一する実行計画を生成する。
特殊なシステムとは異なり、Alpaは手動設計の計画なしで異質なアーキテクチャやモデルを持つモデルに一般化する。
論文 参考訳(メタデータ) (2022-01-28T10:13:35Z) - Parallel Training of Deep Networks with Local Updates [84.30918922367442]
ローカル並列性(Local Parallelism)は、グローバルバックプロパゲーションを切り捨てられたレイヤワイズバックプロパゲーションに置き換えることで、ディープネットワーク内の個々のレイヤのトレーニングを並列化するフレームワークである。
我々は、様々なアーキテクチャセットにわたるビジョンと言語領域の両方で結果を示し、局所的並列性は特に高コンピュートなシステムにおいて有効であることを見出した。
論文 参考訳(メタデータ) (2020-12-07T16:38:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。