論文の概要: Scaling State-Space Models on Multiple GPUs with Tensor Parallelism
- arxiv url: http://arxiv.org/abs/2602.21144v1
- Date: Tue, 24 Feb 2026 17:47:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-25 17:34:53.870421
- Title: Scaling State-Space Models on Multiple GPUs with Tensor Parallelism
- Title(参考訳): テンソル並列性を持つ複数GPU上の状態空間モデルのスケーリング
- Authors: Anurag Dutt, Nimit Shah, Hazem Masarani, Anshul Gandhi,
- Abstract要約: 選択状態空間モデル(SSM)は、大規模言語モデルにとって急速に魅力的なバックボーンとなっている。
しかし、デプロイメントでは、その推論性能は単一のGPUのメモリ容量、帯域幅、レイテンシ制限によって制限されることが多い。
本稿では,3つの実践的技術的課題に対処する,選択的SSM推論のための通信効率のよいTP設計法を提案する。
- 参考スコア(独自算出の注目度): 0.24148976266903474
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Selective state space models (SSMs) have rapidly become a compelling backbone for large language models, especially for long-context workloads. Yet in deployment, their inference performance is often bounded by the memory capacity, bandwidth, and latency limits of a single GPU, making multi-GPU execution increasingly necessary. Although tensor parallelism (TP) is widely used to scale Transformer inference, applying it to selective SSM blocks is non-trivial because the SSM mixer couples large projections with a sequence-wise recurrent state update and local mixing whose efficiency depends on preserving locality and avoiding synchronization in the critical path. This paper presents a communication-efficient TP design for selective SSM inference that addresses three practical engineering challenges: enabling TTFT improvements via an SSM state cache across prefill and decode, partitioning the mixer's packed parameter tensor so that recurrent updates remain local while minimizing communication, and reducing TP aggregation overhead with quantized AllReduce. We evaluate on three representative SSM-based LLMs spanning pure-SSM and hybrid architectures - Mamba, Falcon-Mamba, and Zamba - on NVIDIA A6000 and A100 clusters. Our experiments show substantial throughput gains from tensor-parallel SSM inference, improving batch-request throughput by ~1.6-2.1x on 2 GPUs and ~2.6-4.0x on 4 GPUs for Mamba, with the largest benefits at long context lengths, and achieving a further ~10-18% throughput improvement from quantized all-reduce by lowering synchronization bandwidth overhead.
- Abstract(参考訳): SSM(Selective State Space Model)は、特に長期的コンテキストのワークロードにおいて、大規模言語モデルにとって急速に魅力的なバックボーンとなっている。
しかし、デプロイメントでは、その推論性能は単一のGPUのメモリ容量、帯域幅、レイテンシ制限によって制限されることが多く、マルチGPUの実行がますます必要になる。
テンソル並列性(TP)はTransformer推論のスケールに広く用いられているが、SSMミキサーは、局所性の保存と臨界経路における同期の回避に依存する局所混合と、逐次的にリカレントな状態更新との大きなプロジェクションを結合するため、選択的なSSMブロックに適用することは簡単ではない。
本稿では、プリフィルとデコードにまたがるSSM状態キャッシュによるTTFT改善の実現、ミキサの充填パラメータテンソルのパーティショニング、通信を最小化しながら繰り返し更新をローカルに保つこと、および量子化されたAllReduceによるTP集約オーバーヘッドを低減することの3つの実践的な課題に対処する、選択的なSSM推論のための通信効率のよいTP設計を提案する。
我々は、NVIDIA A6000およびA100クラスタ上で、純SSMおよびハイブリッドアーキテクチャ(Mamba、Falcon-Mamba、Zamba)にまたがる3つのSSMベースのLLMを評価した。
実験の結果,テンソル並列SSM推論によるスループット向上,Mambaの4GPUで1.6-2.1x,Mambaの4GPUで2.6-4.0xのバッチ要求スループット向上,および待ち時間帯のオーバーヘッド低減による量子化オールリデュースのスループット向上により,さらに10-18%のスループット向上を実現した。
関連論文リスト
- DistZO2: High-Throughput and Memory-Efficient Zeroth-Order Fine-tuning LLMs with Distributed Parallel Computing [4.589472292598182]
細調整された大規模言語モデル(LLM)は、その厳密なスケールのため、リソース集約型のままである。
LLMの分散ゼロオーダー微調整のためのメモリ効率のよいフレームワークであるDistZO2を提案する。
論文 参考訳(メタデータ) (2025-07-03T22:53:34Z) - Quamba2: A Robust and Scalable Post-training Quantization Framework for Selective State Space Models [23.045441347570886]
ステートスペースモデル(SSM)は、一貫したメモリ使用量と高性能のため、トランスフォーマーの魅力的な代替品として浮上している。
これを解決するために、ビット幅の少ないデータフォーマットでSSMを定量化することで、モデルのサイズを減らし、ハードウェアアクセラレーションの恩恵を受けることができる。
We present Quamba2, compatible with W8A8, W4A8, W4A16 for both Mamba1 and Mamba2 backbones。
論文 参考訳(メタデータ) (2025-03-28T21:10:39Z) - MARLIN: Mixed-Precision Auto-Regressive Parallel Inference on Large Language Models [58.3342517278868]
本稿では,Mixed-precision AutoRegressive LINearカーネルの設計について述べる。
バッチサイズは16-32までサポートでき、量子化のスピードアップが最大 (4times$) になる。
MarLINは非同期メモリアクセス、複雑なタスクスケジューリング、パイプライン化といったテクニックを組み合わせてこれを実現している。
論文 参考訳(メタデータ) (2024-08-21T16:10:41Z) - vTensor: Flexible Virtual Tensor Management for Efficient LLM Serving [53.972175896814505]
大規模言語モデル(LLM)は様々なドメインで広く使われ、数百万の日次要求を処理する。
大規模言語モデル(LLM)は様々なドメインで広く使われ、数百万の日次要求を処理する。
論文 参考訳(メタデータ) (2024-07-22T14:37:58Z) - SqueezeLLM: Dense-and-Sparse Quantization [80.32162537942138]
LLMにおける生成推論の主なボトルネックは、単一のバッチ推論のための計算ではなく、メモリ帯域幅である。
学習後量子化フレームワークであるSqueezeLLMを導入し、最大3ビットの超低精度でのロスレス圧縮を実現する。
本フレームワークは,2次情報に基づく最適ビット精度割当を探索する感度ベース非一様量子化法と,2次情報に基づくDense-and-Sparse分解法と,2次情報量割当値と感度重み値を効率的にスパース形式で格納するDense-and-Sparse分解法である。
論文 参考訳(メタデータ) (2023-06-13T08:57:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。