Fugu-MT 論文翻訳(概要): DSP: Dynamic Sequence Parallelism for Multi-Dimensional Transformers

論文の概要: DSP: Dynamic Sequence Parallelism for Multi-Dimensional Transformers

arxiv url: http://arxiv.org/abs/2403.10266v2
Date: Mon, 27 May 2024 18:51:52 GMT
ステータス: 翻訳完了
システム内更新日: 2024-05-30 00:59:19.219247
Title: DSP: Dynamic Sequence Parallelism for Multi-Dimensional Transformers
Title（参考訳）: DSP: 多次元変圧器の動的シーケンス並列性
Authors: Xuanlei Zhao, Shenggan Cheng, Chang Chen, Zangwei Zheng, Ziming Liu, Zheming Yang, Yang You,
Abstract要約: シーケンス並列性の新しい抽象化として動的シーケンス並列性(DSP)を提案する。 DSPは通信コストの大幅な削減、モジュール間の適応性、最小限の制約による実装の容易性を提供する。
参考スコア（独自算出の注目度）: 24.994629024745866
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Scaling multi-dimensional transformers to long sequences is indispensable across various domains. However, the challenges of large memory requirements and slow speeds of such sequences necessitate sequence parallelism. All existing approaches fall under the category of embedded sequence parallelism, which are limited to shard along a single sequence dimension, thereby introducing significant communication overhead. However, the nature of multi-dimensional transformers involves independent calculations across multiple sequence dimensions. To this end, we propose Dynamic Sequence Parallelism (DSP) as a novel abstraction of sequence parallelism. DSP dynamically switches the parallel dimension among all sequences according to the computation stage with efficient resharding strategy. DSP offers significant reductions in communication costs, adaptability across modules, and ease of implementation with minimal constraints. Experimental evaluations demonstrate DSP's superiority over state-of-the-art embedded sequence parallelism methods by remarkable throughput improvements ranging from 32.2% to 10x, with less than 25% communication volume.
Abstract（参考訳）: 長い列への多次元変換器のスケーリングは、様々な領域で必須である。しかし、大きなメモリ要求とそのようなシーケンスの遅い速度の課題は、シーケンス並列性を必要とする。既存のすべてのアプローチは、単一のシーケンス次元に沿ってシャードに制限された組込みシーケンス並列化のカテゴリに該当するため、かなりの通信オーバーヘッドが生じる。しかし、多次元変圧器の性質は、複数の列次元にまたがる独立計算を伴う。そこで本研究では,動的シーケンス並列性(DSP)を並列性の新たな抽象化として提案する。 DSPは効率的な再シャーディング戦略で計算段階に応じて全列の並列次元を動的に切り替える。 DSPは通信コストの大幅な削減、モジュール間の適応性、最小限の制約による実装の容易性を提供する。実験により、DSPは32.2%から10倍のスループット向上により25%未満の通信量で、最先端の組込みシーケンス並列化法よりも優れていることが示された。

関連論文リスト

PRISM: Parallel Residual Iterative Sequence Model [52.26239951489612]
我々はこの緊張を解決するためにPRISM(Parallel Residual Iterative Sequence Model)を提案する。 PRISMは、パラレル化可能な形で多段階精製の重要な構造特性を捉える、ソルバに着想を得た帰納バイアスを導入している。この定式化が Rank-$L$ の蓄積を達成することを証明し、更新多様体を単一ステップの Rank-$1$ ボトルネックを超えて構造的に拡張する。
論文参考訳（メタデータ） (2026-02-11T12:39:41Z)
Layer-Parallel Training for Transformers [3.799206695592991]
マルチレベル層並列手法を用いたトランスフォーマーの新しいトレーニング手法を提案する。トレーニングの前・後処理フェーズに対するマルチレベル並列インタイムアルゴリズムの適用により,層次元の並列加速度が達成される。我々は、この臨界遷移を検出し、シリアルトレーニングに切り替えるか、階層並列トレーニングの精度を体系的に向上させるアルゴリズムを開発した。
論文参考訳（メタデータ） (2026-01-13T23:12:53Z)
NeuMatC: A General Neural Framework for Fast Parametric Matrix Operation [75.91285900600549]
我々は、一般的なパラメトリック行列演算タスクをエレガントに扱うtextbftextitNeural Matrix Computation Framework (NeuMatC)を提案する。 NeuMatCは、パラメータから対応する行列演算結果への低ランクかつ連続的なマッピングを教師なしで学習する。合成と実世界の両方のデータセットの実験結果は、NeuMatCの有望な性能を示している。
論文参考訳（メタデータ） (2025-11-28T07:21:17Z)
Beyond Surface Reasoning: Unveiling the True Long Chain-of-Thought Capacity of Diffusion Large Language Models [54.81955614221652]
同時トークン更新を可能にする並列デコード。厳格な推論にしばしば必要とされる因果順序と競合する。単純な推論タスクと複雑な推論タスクの両方において、DLLMは直接決定可能な出力に対してのみ真の並列性を示すことを示す。そこで本研究では,PSCによる非効率性と非効率性を低減するために,いくつかの実用的な緩和,並列指向プロンプト,拡散早期停止,並列スケーリングを提案する。
論文参考訳（メタデータ） (2025-10-10T16:58:14Z)
ASPD: Unlocking Adaptive Serial-Parallel Decoding by Exploring Intrinsic Parallelism in LLMs [34.477777651648914]
大規模言語モデル(LLM)は、自動回帰デコードパラダイムのため、推論遅延の大きな問題を生じさせる。本稿では、並列化可能なデータの自動構築と効率的な並列化機構の2つの課題に対処する適応シリアル-パラレルデコーディング(ASPD)を提案する。我々のフレームワークは、効率的なLCM並列推論のための基盤となるベンチマークを設定し、AIによるカスタマーサービスボットや回答検索エンジンのようなレイテンシに敏感なアプリケーションへのデプロイの道を開く。
論文参考訳（メタデータ） (2025-08-12T12:35:55Z)
TriADA: Massively Parallel Trilinear Matrix-by-Tensor Multiply-Add Algorithm and Device Architecture for the Acceleration of 3D Discrete Transformations [0.0]
マルチ線形変換は、ハイパフォーマンスコンピューティング(HPC)と人工知能(AI)ワークロードにおいて重要である。並列処理ユニットの数を増やすことでスケール計算はエネルギー消費を大幅に増加させます。 TriADAは、ハイパーキュービックな算術複雑性を持つ様々なトリ線形変換を、線形の時間ステップで実行することができる。
論文参考訳（メタデータ） (2025-06-28T08:42:01Z)
Sequential-Parallel Duality in Prefix Scannable Models [68.39855814099997]
近年では Gated Linear Attention (GLA) や Mamba など様々なモデルが開発されている。ニアコンスタント時間並列評価と線形時間、定数空間シーケンシャル推論をサポートするニューラルネットワークモデルの全クラスを特徴付けることができるだろうか?
論文参考訳（メタデータ） (2025-06-12T17:32:02Z)
NIMBA: Towards Robust and Principled Processing of Point Clouds With SSMs [9.978766637766373]
データ複製を必要とせずに3次元空間構造を維持できる点雲を1次元配列に変換する手法を提案する。本手法では位置埋め込みは必要とせず, 精度を保ちながら短いシーケンス長が可能である。
論文参考訳（メタデータ） (2024-10-31T18:58:40Z)
Mini-Sequence Transformer: Optimizing Intermediate Memory for Long Sequences Training [78.93900796545523]
ミニシーケンス変換器(Mini-Sequence Transformer, MsT)は、非常に長いシーケンスを持つ高速かつ高精度なLLMトレーニング手法である。 MsTは入力シーケンスを分割し、中間メモリ使用量を減らすためにミニシーケンスを反復的に処理する。 huggingfaceライブラリと統合され、MsTはQwen、Mistral、Gemma-2の最大コンテキスト長を12-24倍に拡張した。
論文参考訳（メタデータ） (2024-07-22T01:52:30Z)
Linear Attention Sequence Parallelism [33.06590170649837]
線形アテンションに基づく変圧器モデルのための線形アテンションシーケンス並列性(LASP)を導入する。 LASPは、線形注意による適切な製品カーネルトリックを活用し、通信オーバーヘッドを劇的に削減する。 LASPは128GPU上で4096Kまでのシーケンス長をスケールし、既存のSPメソッドよりも8$times$長い。
論文参考訳（メタデータ） (2024-04-03T17:33:21Z)
Multimodal Transformer With a Low-Computational-Cost Guarantee [14.852842445363505]
Low-Cost Multimodal Transformer (LoCoMT) は、トレーニング中の計算コストを低減し、性能損失を最小限に抑えることを目的とした、新しいマルチモーダルアテンション機構である。 LoCoMTは柔軟にマルチモーダル信号を制御でき、理論上既存のマルチモーダルトランスフォーマーの変種と比較して計算コストを削減できる。
論文参考訳（メタデータ） (2024-02-23T05:09:35Z)
Convolutional State Space Models for Long-Range Spatiotemporal Modeling [65.0993000439043]
ConvS5は、長距離時間モデリングのための効率的な変種である。トランスフォーマーとConvNISTTMは、長い水平移動実験において、ConvLSTMより3倍速く、トランスフォーマーより400倍速くサンプルを生成する一方で、大幅に性能が向上した。
論文参考訳（メタデータ） (2023-10-30T16:11:06Z)
DeepSpeed Ulysses: System Optimizations for Enabling Training of Extreme Long Sequence Transformer Models [34.74093040678323]
我々は,高度に効率的かつスケーラブルなLDMトレーニングを実現するための,新しい,ポータブルで効果的な方法論であるDeepSpeed-Ulyssesを紹介した。 DeepSpeed-Ulyssesは、そのコアでシーケンス次元に沿って入力データを分割し、効率的なオール・ツー・オールの集合通信を用いて注意を払っている。実験の結果、DeepSpeed-Ulyssesは既存のSOTAベースラインの4倍のシーケンス長で2.5倍高速であることがわかった。
論文参考訳（メタデータ） (2023-09-25T20:15:57Z)
Online Multi-Task Learning with Recursive Least Squares and Recursive Kernel Methods [50.67996219968513]
本稿では,オンラインマルチタスク学習(MTL)回帰問題に対する2つの新しいアプローチを紹介する。入力空間の次元の2次パースタンスコストで精度よく近似的な再帰を実現する。我々は,実世界の風速予測ケーススタディにおいて,オンラインMTL法と他の競技者との比較を行った。
論文参考訳（メタデータ） (2023-08-03T01:41:34Z)
Blockwise Parallel Transformer for Large Context Models [70.97386897478238]
Blockwise Parallel Transformer (BPT) は、メモリコストを最小限に抑えるために、自己アテンションとフィードフォワードネットワーク融合のブロックワイズ計算である。メモリ効率を維持しながら、長い入力シーケンスを処理することにより、BPTはバニラ変換器の32倍、以前のメモリ効率の4倍のトレーニングシーケンスを可能にする。
論文参考訳（メタデータ） (2023-05-30T19:25:51Z)
DBA: Efficient Transformer with Dynamic Bilinear Low-Rank Attention [53.02648818164273]
動的双線形低ランク注意(DBA)という,効率的かつ効果的な注意機構を提案する。 DBAは入力感度の動的射影行列によってシーケンス長を圧縮し、線形時間と空間の複雑さを実現する。様々なシーケンス長条件のタスクに対する実験は、DBAが最先端のパフォーマンスを達成することを示す。
論文参考訳（メタデータ） (2022-11-24T03:06:36Z)
Parallel Training of GRU Networks with a Multi-Grid Solver for Long Sequences [1.9798034349981162]
本稿では,GRU(Gated Recurrent Unit)ネットワークのための並列学習手法を提案する。 MGRITはシーケンスを複数の短いサブシーケンスに分割し、異なるプロセッサ上のサブシーケンスを並列に訓練する。 HMDB51データセットにおいて、各ビデオが画像シーケンスである実験結果から、新しい並列トレーニングスキームがシリアルアプローチよりも最大6.5$times$スピードアップを達成することを示した。
論文参考訳（メタデータ） (2022-03-07T11:32:44Z)
Dual-Flattening Transformers through Decomposed Row and Column Queries for Semantic Segmentation [50.321277476317974]
本稿では,高解像度出力を実現するためにDual-Flattening Transformer (DFlatFormer)を提案する。 ADE20KおよびCityscapesデータセットの実験は、提案された2重平坦トランスアーキテクチャの優位性を実証している。
論文参考訳（メタデータ） (2022-01-22T22:38:15Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。