Fugu-MT 論文翻訳(概要): Scaling State-Space Models on Multiple GPUs with Tensor Parallelism

論文の概要: Scaling State-Space Models on Multiple GPUs with Tensor Parallelism

arxiv url: http://arxiv.org/abs/2602.21144v1
Date: Tue, 24 Feb 2026 17:47:54 GMT
ステータス: 翻訳完了
システム内更新日: 2026-02-25 17:34:53.870421
Title: Scaling State-Space Models on Multiple GPUs with Tensor Parallelism
Title（参考訳）: テンソル並列性を持つ複数GPU上の状態空間モデルのスケーリング
Authors: Anurag Dutt, Nimit Shah, Hazem Masarani, Anshul Gandhi,
Abstract要約: 選択状態空間モデル(SSM)は、大規模言語モデルにとって急速に魅力的なバックボーンとなっている。しかし、デプロイメントでは、その推論性能は単一のGPUのメモリ容量、帯域幅、レイテンシ制限によって制限されることが多い。本稿では,3つの実践的技術的課題に対処する,選択的SSM推論のための通信効率のよいTP設計法を提案する。
参考スコア（独自算出の注目度）: 0.24148976266903474
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Selective state space models (SSMs) have rapidly become a compelling backbone for large language models, especially for long-context workloads. Yet in deployment, their inference performance is often bounded by the memory capacity, bandwidth, and latency limits of a single GPU, making multi-GPU execution increasingly necessary. Although tensor parallelism (TP) is widely used to scale Transformer inference, applying it to selective SSM blocks is non-trivial because the SSM mixer couples large projections with a sequence-wise recurrent state update and local mixing whose efficiency depends on preserving locality and avoiding synchronization in the critical path. This paper presents a communication-efficient TP design for selective SSM inference that addresses three practical engineering challenges: enabling TTFT improvements via an SSM state cache across prefill and decode, partitioning the mixer's packed parameter tensor so that recurrent updates remain local while minimizing communication, and reducing TP aggregation overhead with quantized AllReduce. We evaluate on three representative SSM-based LLMs spanning pure-SSM and hybrid architectures - Mamba, Falcon-Mamba, and Zamba - on NVIDIA A6000 and A100 clusters. Our experiments show substantial throughput gains from tensor-parallel SSM inference, improving batch-request throughput by ~1.6-2.1x on 2 GPUs and ~2.6-4.0x on 4 GPUs for Mamba, with the largest benefits at long context lengths, and achieving a further ~10-18% throughput improvement from quantized all-reduce by lowering synchronization bandwidth overhead.
Abstract（参考訳）: SSM(Selective State Space Model)は、特に長期的コンテキストのワークロードにおいて、大規模言語モデルにとって急速に魅力的なバックボーンとなっている。しかし、デプロイメントでは、その推論性能は単一のGPUのメモリ容量、帯域幅、レイテンシ制限によって制限されることが多く、マルチGPUの実行がますます必要になる。テンソル並列性(TP)はTransformer推論のスケールに広く用いられているが、SSMミキサーは、局所性の保存と臨界経路における同期の回避に依存する局所混合と、逐次的にリカレントな状態更新との大きなプロジェクションを結合するため、選択的なSSMブロックに適用することは簡単ではない。本稿では、プリフィルとデコードにまたがるSSM状態キャッシュによるTTFT改善の実現、ミキサの充填パラメータテンソルのパーティショニング、通信を最小化しながら繰り返し更新をローカルに保つこと、および量子化されたAllReduceによるTP集約オーバーヘッドを低減することの3つの実践的な課題に対処する、選択的なSSM推論のための通信効率のよいTP設計を提案する。我々は、NVIDIA A6000およびA100クラスタ上で、純SSMおよびハイブリッドアーキテクチャ(Mamba、Falcon-Mamba、Zamba)にまたがる3つのSSMベースのLLMを評価した。実験の結果,テンソル並列SSM推論によるスループット向上,Mambaの4GPUで1.6-2.1x,Mambaの4GPUで2.6-4.0xのバッチ要求スループット向上,および待ち時間帯のオーバーヘッド低減による量子化オールリデュースのスループット向上により,さらに10-18%のスループット向上を実現した。

関連論文リスト

Parallel Track Transformers: Enabling Fast GPU Inference with Reduced Synchronization [19.97521786735984]
Parallel Track (PT) Transformerは、デバイス間の依存関係を最小限にするために再構成される新しいアーキテクチャパラダイムである。その結果,最大15～30%の時間短縮,2～12%の時間短縮,最大31.90%のスループット向上が報告された。
論文参考訳（メタデータ） (2026-02-07T01:42:20Z)
Eliminating Multi-GPU Performance Taxes: A Systems Approach to Efficient Distributed LLMs [61.953548065938385]
分析フレームワークとして'3つの税'(バルク同期、カーネル間データローカリティ、カーネルローンチオーバーヘッド)を紹介した。我々は、分散GPU実行におけるキー非効率に対処するために、厳密なBSPモデルを超えて移動することを提案する。 BSPベースのアプローチによるエンドツーエンドのレイテンシの10-20%の高速化を観察する。
論文参考訳（メタデータ） (2025-11-04T01:15:44Z)
DistZO2: High-Throughput and Memory-Efficient Zeroth-Order Fine-tuning LLMs with Distributed Parallel Computing [4.589472292598182]
細調整された大規模言語モデル(LLM)は、その厳密なスケールのため、リソース集約型のままである。 LLMの分散ゼロオーダー微調整のためのメモリ効率のよいフレームワークであるDistZO2を提案する。
論文参考訳（メタデータ） (2025-07-03T22:53:34Z)
MegaScale-Infer: Serving Mixture-of-Experts at Scale with Disaggregated Expert Parallelism [26.923312725688735]
Mixture-of-Experts (MoE)は、大規模言語モデル(LLM)をスケールし、性能を向上し、計算の複雑さを減らし、大きな可能性を誇示している。大規模MOEモデルを提供するための効率よく費用効率の良いシステムであるMegaScale-Inferを提案する。
論文参考訳（メタデータ） (2025-04-03T04:20:44Z)
Quamba2: A Robust and Scalable Post-training Quantization Framework for Selective State Space Models [23.045441347570886]
ステートスペースモデル(SSM)は、一貫したメモリ使用量と高性能のため、トランスフォーマーの魅力的な代替品として浮上している。これを解決するために、ビット幅の少ないデータフォーマットでSSMを定量化することで、モデルのサイズを減らし、ハードウェアアクセラレーションの恩恵を受けることができる。 We present Quamba2, compatible with W8A8, W4A8, W4A16 for both Mamba1 and Mamba2 backbones。
論文参考訳（メタデータ） (2025-03-28T21:10:39Z)
MARLIN: Mixed-Precision Auto-Regressive Parallel Inference on Large Language Models [58.3342517278868]
本稿では,Mixed-precision AutoRegressive LINearカーネルの設計について述べる。バッチサイズは16-32までサポートでき、量子化のスピードアップが最大 (4times$) になる。 MarLINは非同期メモリアクセス、複雑なタスクスケジューリング、パイプライン化といったテクニックを組み合わせてこれを実現している。
論文参考訳（メタデータ） (2024-08-21T16:10:41Z)
vTensor: Flexible Virtual Tensor Management for Efficient LLM Serving [53.972175896814505]
大規模言語モデル(LLM)は様々なドメインで広く使われ、数百万の日次要求を処理する。大規模言語モデル(LLM)は様々なドメインで広く使われ、数百万の日次要求を処理する。
論文参考訳（メタデータ） (2024-07-22T14:37:58Z)
Fast Matrix Multiplications for Lookup Table-Quantized LLMs [58.11584672945781]
FLUTEはLUT量子化LLM用のフレキシブルなルックアップテーブルエンジンである。バッチサイズ32と量子化グループサイズ128では、FLUTEカーネルは既存のGEMMカーネルよりも2〜4倍高速である。
論文参考訳（メタデータ） (2024-07-15T17:55:42Z)
Efficient State Space Model via Fast Tensor Convolution and Block Diagonalization [5.260841516691153]
本稿では,マルチインプットマルチアウトプットSSMに基づく新しい状態空間層,すなわち効率的なSSMを提案する。我々のeSSMは、マルチインプットおよびマルチインプット(MIMO)SSMの畳み込み表現に基づいて構築されている。モデル効率ベンチマークでは、eSSMのパラメータはLSTMの12.89%、Mambaの13.24%に過ぎなかった。
論文参考訳（メタデータ） (2024-02-23T12:36:31Z)
SqueezeLLM: Dense-and-Sparse Quantization [80.32162537942138]
LLMにおける生成推論の主なボトルネックは、単一のバッチ推論のための計算ではなく、メモリ帯域幅である。学習後量子化フレームワークであるSqueezeLLMを導入し、最大3ビットの超低精度でのロスレス圧縮を実現する。本フレームワークは,2次情報に基づく最適ビット精度割当を探索する感度ベース非一様量子化法と,2次情報に基づくDense-and-Sparse分解法と,2次情報量割当値と感度重み値を効率的にスパース形式で格納するDense-and-Sparse分解法である。
論文参考訳（メタデータ） (2023-06-13T08:57:54Z)
Edge-MoE: Memory-Efficient Multi-Task Vision Transformer Architecture with Task-level Sparsity via Mixture-of-Experts [60.1586169973792]
M$3$ViTは、Mix-of-experts (MoE)を導入した最新のマルチタスクViTモデルである。 MoEは精度の向上と80%以上の削減計算を実現しているが、FPGAに効率的なデプロイを行う上での課題は残されている。 Edge-MoEと呼ばれる私たちの研究は、アーキテクチャの革新の集合を伴って、マルチタスクのViTのための最初のエンドツーエンドFPGAアクセラレータを導入するという課題を解決します。
論文参考訳（メタデータ） (2023-05-30T02:24:03Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。