論文の概要: Helix Parallelism: Rethinking Sharding Strategies for Interactive Multi-Million-Token LLM Decoding
- arxiv url: http://arxiv.org/abs/2507.07120v1
- Date: Mon, 07 Jul 2025 19:47:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-11 16:40:15.12374
- Title: Helix Parallelism: Rethinking Sharding Strategies for Interactive Multi-Million-Token LLM Decoding
- Title(参考訳): Helix Parallelism: 対話型マルチミリオントーケンLDMデコードのためのシャーディング戦略の再考
- Authors: Nidhi Bhatia, Ankit More, Ritika Borkar, Tiyasa Mitra, Ramon Matas, Ritchie Zhao, Maximilian Golub, Dheevatsa Mudigere, Brian Pharris, Bita Darvish Rouhani,
- Abstract要約: Helix Feed-Forward Network(FFN)ウェイトにアクセスし、長いKVキャッシュを読み取る。
Helix Parallelism (TP) はFFN重み読み込みのコストを軽減するのに役立つが、注意を向けるには十分ではない。
HOP-Bは、固定バッチサイズで最大1.5倍、DeepSeek-R1と同じレイテンシ予算で最大32倍のバッチをサポートする。
- 参考スコア(独自算出の注目度): 3.294299390035743
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: As LLMs scale to multi-million-token KV histories, real-time autoregressive decoding under tight Token-to-Token Latency (TTL) constraints faces growing pressure. Two core bottlenecks dominate: accessing Feed-Forward Network (FFN) weights and reading long KV caches. While Tensor Parallelism (TP) helps mitigate the cost of FFN weight reads, it does not scale well for attention. When TP width exceeds the number of KV heads, it leads to inefficient KV duplication, limits parallelism, and constrains batch size. Simultaneously, DRAM reads for long KV histories scale linearly with batch size, further capping efficiency. We introduce Helix Parallelism, a hybrid execution strategy that applies KV parallelism during attention to shard KV caches across GPUs, then reuses the same GPUs for TP in dense LLMs or TPxExpert Parallel (EP) in MoEs during FFN computation. To preserve exact attention behavior, Helix includes a lightweight communication step. To minimize the exposed communication cost, we introduce Helix HOP-B. Helix HOP-B effectively minimizes communication overhead through batchwise overlap, preserving low TTL while improving GPU efficiency. Compared to conventional parallelism approaches, Helix reduces TTL by up to 1.5x at fixed batch sizes and supports up to 32x larger batches under the same latency budget for DeepSeek-R1, pushing forward the throughput-latency Pareto on Blackwell and making real-time inference with ultra-long-sequence practical.
- Abstract(参考訳): LLMが数百万のKV履歴にスケールするにつれて、厳密なToken-to-Token Latency(TTL)制約下でのリアルタイム自己回帰復号化は圧力の増加に直面している。
フィードフォワードネットワーク(FFN)のウェイトにアクセスし、長いKVキャッシュを読み取る。
Tensor Parallelism (TP) はFFN重み読み込みのコストを軽減するのに役立っているが、注意を向けるには十分ではない。
TP幅がKVヘッド数を超えると、非効率なKV重複、並列性を制限し、バッチサイズを制約する。
同時に、DRAMは長いKV履歴をバッチサイズで線形にスケールし、キャッピング効率を向上する。
我々は、GPU間のシャードKVキャッシュに注意を払ってKV並列性を適用したハイブリッド実行戦略であるHelix Parallelismを導入し、FFN計算中に、高密度LLMでTP用の同じGPUを、MoEsでTPxExpert Parallel(EP)を再利用する。
正確な注意行動を維持するため、Helixは軽量な通信ステップを含む。
公開通信コストを最小限に抑えるため,Helix HOP-Bを導入する。
Helix HOP-Bはバッチ的にオーバーラップすることで通信オーバーヘッドを効果的に最小化し、低TTLを維持しながらGPU効率を向上させる。
従来の並列処理アプローチと比較して、Helixは、固定バッチサイズで最大1.5倍のTTLを削減し、DeepSeek-R1と同じレイテンシ予算で最大32倍のバッチをサポートする。
関連論文リスト
- HelixPipe: Efficient Distributed Training of Long Sequence Transformers with Attention Parallel Pipeline Parallelism [14.067070576474086]
トランスシークエンスの長さが大きくなるにつれて、既存のパイプライン並列処理は2次注意計算とかなりのメモリオーバーヘッドのため、最適以下の性能を実現する。
長周期変圧器訓練のための新しいパイプライン並列性であるHelixPipeを提案する。
これは、異なるパイプラインステージ間で異なるマイクロバッチのアテンション計算を並列にスケジュールし、パイプラインバブルを減少させる、アテンション並列パーティションを導入している。
メモリ使用量のバランスと、フラグメンテーションによる重複通信のバランスをとるために、2倍の第一段階のマイクロバッチスケジュールを採用している。
論文 参考訳(メタデータ) (2025-07-01T03:11:18Z) - CommVQ: Commutative Vector Quantization for KV Cache Compression [50.37946553931796]
本稿では,長期LLM推論におけるメモリ使用量を大幅に削減するために,CommVQ(CommVQ)を提案する。
まず、KVキャッシュを圧縮するための軽量エンコーダとコードブックを用いた加算量子化を導入する。
提案手法は,RoPE-commutative codebook を用いた加算量子化と低オーバーヘッド化により高い精度を実現する。
論文 参考訳(メタデータ) (2025-06-23T17:50:11Z) - PM-KVQ: Progressive Mixed-precision KV Cache Quantization for Long-CoT LLMs [18.315998135174652]
トレーニング後のKVキャッシュ量子化は、有望な圧縮技術として登場した。
既存のメソッドは、利用可能なメモリを適切に活用できない。
短いコンテキストのキャリブレーションでは、キーキャッシュ内の頻度の低いチャネルの分散を考慮できません。
論文 参考訳(メタデータ) (2025-05-24T09:18:11Z) - ParallelComp: Parallel Long-Context Compressor for Length Extrapolation [51.68913021512016]
超長い文脈(テキスト長 >128K)の補間は、大きな言語モデル(LLM)にとって大きな課題である。
本研究では,メモリボトルネックを効果的に克服する並列長コンテキスト圧縮手法であるParallelCompを提案する。
チャンクスループットが1.76倍向上し、プリフィル段階では23.50倍の高速化を実現し、性能損失を無視できる。
論文 参考訳(メタデータ) (2025-02-20T07:10:43Z) - SCBench: A KV Cache-Centric Analysis of Long-Context Methods [61.025422435235456]
KVキャッシュ中心の視点から長文の手法を評価するベンチマークであるSCBenchを紹介する。
我々は、Gated Linear RNNsやMamba-Attention Hybridsを含む8つのカテゴリの長期コンテキストソリューションについて、広範なKVキャッシュ中心の分析を行う。
本研究は,O(n)メモリとサブO(n2)プリフィルによるスパース符号化が堅牢に動作する一方で,サブO(n)メモリ手法がマルチターンシナリオに悩まされていることを示す。
論文 参考訳(メタデータ) (2024-12-13T17:59:52Z) - LoRC: Low-Rank Compression for LLMs KV Cache with a Progressive Compression Strategy [59.1298692559785]
キーバリュー(KV)キャッシュは、トランスフォーマーベースの自己回帰型大言語モデル(LLM)を提供する上で重要なコンポーネントである。
この問題を緩和するためのアプローチとしては、(1) アップサイクルステージに統合された効率的な注意変動、(2) テスト時のKVキャッシュ圧縮、(3) テスト時のKVキャッシュ圧縮がある。
そこで我々は,KV重み行列の低ランク近似を提案し,モデル再学習なしに既存のトランスフォーマーベースLCMとのプラグイン統合を実現する。
本手法は,テスト段階におけるアップサイクリング段階のモデルチューニングやタスク固有のプロファイリングを伴わずに機能するように設計されている。
論文 参考訳(メタデータ) (2024-10-04T03:10:53Z) - KV-Runahead: Scalable Causal LLM Inference by Parallel Key-Value Cache Generation [20.98447775598288]
大規模言語モデル(LLM)推論は、プロンプト(またはプリフィル)フェーズと拡張(またはデコード)フェーズの2つのフェーズを持つ。
本稿では,プロンプト位相を高速化する効率的な並列化手法KV-Runaheadを提案する。
我々は、KV-RunaheadがそれぞれLlama 7BとFalcon 7Bの1.4倍と1.6倍のスピードアップを提供できることを示した。
論文 参考訳(メタデータ) (2024-05-08T18:03:22Z) - KIVI: A Tuning-Free Asymmetric 2bit Quantization for KV Cache [67.9776980972508]
我々はKIVIというチューニング不要な2ビットKVキャッシュ量子化アルゴリズムを開発した。
KIVI は Llama, Falcon, Mistral のモデルを $mathbf2.6times$ less peak memory を使用しながらほぼ同じ品質を維持することができる。
論文 参考訳(メタデータ) (2024-02-05T06:06:47Z) - DeepSpeed Ulysses: System Optimizations for Enabling Training of Extreme
Long Sequence Transformer Models [34.74093040678323]
我々は,高度に効率的かつスケーラブルなLDMトレーニングを実現するための,新しい,ポータブルで効果的な方法論であるDeepSpeed-Ulyssesを紹介した。
DeepSpeed-Ulyssesは、そのコアでシーケンス次元に沿って入力データを分割し、効率的なオール・ツー・オールの集合通信を用いて注意を払っている。
実験の結果、DeepSpeed-Ulyssesは既存のSOTAベースラインの4倍のシーケンス長で2.5倍高速であることがわかった。
論文 参考訳(メタデータ) (2023-09-25T20:15:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。