論文の概要: SURGE: SuperBatch Unified Resource-efficient GPU Encoding for Heterogeneous Partitioned Data
- arxiv url: http://arxiv.org/abs/2605.01060v1
- Date: Fri, 01 May 2026 19:51:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-05 20:33:49.560915
- Title: SURGE: SuperBatch Unified Resource-efficient GPU Encoding for Heterogeneous Partitioned Data
- Title(参考訳): SURGE: 異種分割データのための超バッチ統一資源効率GPU符号化
- Authors: Shashank Kapadia, Deep Narayan Mishra, Sujal Reddy Alugubelli, Ajay Kumar, Swapnil Yadav, Rishi Bhatia,
- Abstract要約: SURGEは,4万の論理パーティションに8億以上のテキストの埋め込みを生成するために,本番環境にデプロイされたストリーミングエンコーディングシステムである。
4つのNVIDIA L4768を持つ10Mテキストでは、SURGEは26,413のテキスト/sを提供する。
- 参考スコア(独自算出の注目度): 3.1624024957575982
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present SURGE, a streaming GPU encoding system deployed in production to generate embeddings for over 800 million texts across 40,000 logical partitions. Production embedding pipelines face a tension between logical data partitioning and efficient GPU utilization: processing each partition independently incurs $P$ inter-process communication (IPC) calls whose overhead limits throughput for compute-light models. Our contributions are analytical: (i) a cost model (Theorem 1) predicting throughput within 2% across three encoders spanning a 15$\times$ parameter range; (ii) a memory-safety bound (Lemma 3) enabling a streaming two-threshold policy with peak memory $O(B_{\min} + n_{\max})$ rather than $O(N)$; and (iii) a $φ$/CV decision framework characterizing when the pattern applies beyond our workload. The naive fix of batching at fixed size requires $O(N)$ peak memory (32.7 GB at 10M texts; infeasible beyond ~60M on 192 GB nodes), produces no output until all encoding completes, and offers no fault tolerance. SURGE achieves the same throughput with $O(B_{\min} + n_{\max})$ bounded memory (2.6 GB), 68$\times$ faster time-to-first-output, and crash recovery at SuperBatch granularity. On 10M texts with 4 NVIDIA L4 GPUs, SURGE delivers 26,413 texts/s -- matching fixed-batch throughput while using 12.6$\times$ less memory. We validate on bge-base (109M, $d$=768, error 1.3%) and across log-normal $σ$ in {1.0, 1.72, 2.5} (speedup invariant within $\pm$3%), and compare against a partition-batched baseline (PB-PBP-LB), against which SURGE retains a 7% throughput edge and 2.5$\times$ faster TTFO. Complementary engineering -- zero-copy Arrow serialization (22-25$\times$ speedup) and async I/O pipelining (up to 93% benefit) -- realizes the design but is not the contribution.
- Abstract(参考訳): SURGEは,4万の論理パーティションに8億以上のテキストの埋め込みを生成するために,実運用環境にデプロイされたストリーミングGPUエンコーディングシステムである。
論理データパーティショニングとGPUの効率的な利用との間には,運用パイプラインが緊張関係にある。 各パーティションを個別に処理することで,計算ライトモデルのスループットをオーバーヘッドに制限したP$プロセス間通信(IPC)コールが発生します。
私たちの貢献は分析的です。
(i) 15$\times$パラメータ範囲にまたがる3エンコーダのスループットを予測するコストモデル(Theorem 1)
(ii)メモリセーフティバウンド(Lemma3)により、ピークメモリ$O(B_{\min} + n_{\max})$を$O(N)$よりもむしろ$O(B_{\min} + n_{\max})$でストリーミングできる。
(iii)このパターンがワークロードを超えて適用される場合を特徴付ける$φ$/CV決定フレームワーク。
固定サイズでのバッチ処理は、$O(N)$ peak memory (10Mテキストで32.7GB、192GBノードで約60Mを超える)が必要であり、すべてのエンコーディングが完了するまで出力を生成せず、フォールトトレランスも提供しない。
SURGEは同じスループットを$O(B_{\min} + n_{\max})$bounded memory (2.6 GB),68$\times$ faster time-to-first-output, and crash recovery at SuperBatch Granityで達成している。
4つのNVIDIA L4 GPUを持つ10Mテキストでは、SURGEは26,413のテキスト/sを提供する。
我々は, bge-base (109M, $d$=768, error 1.3%) およびlog-normal $σ$ in {1.0, 1.72, 2.5} ($\pm$3%内での高速化不変) を検証し, SURGE が 7% のスループットエッジと2.5$\times$ faster TTFO を保持する分割バッチベースライン (PB-PBP-LB) と比較した。
補完的なエンジニアリング -- ゼロコピーのArrowシリアライゼーション(22-25$\times$ speedup)と非同期I/Oパイプライニング(最大93%のメリット) -- は、設計を実現するが、コントリビューションではない。
関連論文リスト
- Copy-as-Decode: Grammar-Constrained Parallel Prefill for LLM Editing [2.6382975801439836]
LLMは、入力中にほとんどのトークンが冗長に見える場合でも、全出力を自動回帰的に再生することでテキストとコードを編集する。
Copy-as-Decodeは、2プリミティブ文法上の構造化復号化として生成を再キャストする復号化機構である。
論文 参考訳(メタデータ) (2026-04-20T12:29:53Z) - A Persistent-State Dataflow Accelerator for Memory-Bound Linear Attention Decode on FPGA [10.452946241750562]
Gated DeltaNet(GDN)は、成長するKVキャッシュを固定サイズのリカレントステートに置き換える線形アテンションメカニズムである。
このボトルネックはアルゴリズムではなくアーキテクチャであることが示され、全てのサブクワッド列モデルはデコード時に 1 FLOP/B 未満の演算強度を示す。
オンチップBRAMにおいて,フル2MBのリカレント状態を持続的に保持することにより,このボトルネックを解消するFPGAアクセラレータを提案する。
論文 参考訳(メタデータ) (2026-03-06T06:03:38Z) - FuseSampleAgg: Fused Neighbor Sampling and Aggregation for Mini-batch GNNs [51.56484100374058]
FuseSampleAggは、隣人の平均アグリゲーションをGraphSAGEの1つのパスにフューズし、サンプリングする。
Operatorは決定論的であり、標準のPyTorchと統合され、CSVログからすべてのテーブルとフィギュアを再現するスクリプトが同梱されている。
論文 参考訳(メタデータ) (2025-11-17T17:57:18Z) - 70% Size, 100% Accuracy: Lossless LLM Compression for Efficient GPU Inference via Dynamic-Length Float [52.079202872069835]
大規模言語モデル(LLM)や拡散モデル(DM)といった大規模AIモデルは急速に成長している。
圧縮フレームワークであるDynamic-Length Float (DFloat11) を導入し, LLM と DM サイズを30%削減した。
論文 参考訳(メタデータ) (2025-04-15T22:38:38Z) - Hardware-Aware Parallel Prompt Decoding for Memory-Efficient Acceleration of LLM Inference [23.633481089469836]
LLM(Large Language Models)の自動回帰デコーディングは、ハードウェアの性能に大きなオーバーヘッドをもたらす。
トレーニング可能なパラメータを0.0002$%しか必要とせず,A100-40GBのGPUをたった16時間で効率的にトレーニングできる並列プロンプトデコーディングを提案する。
我々のアプローチでは、最大2.49$times$ スピードアップを示し、最小のメモリオーバーヘッドは0.0004$%である。
論文 参考訳(メタデータ) (2024-05-28T22:19:30Z) - H$_2$O: Heavy-Hitter Oracle for Efficient Generative Inference of Large
Language Models [110.06476624089679]
メモリフットプリントを大幅に削減する新しいKVキャッシュの実装手法を提案する。
我々のアプローチは、トークンのごく一部が、注意点の計算において、ほとんどの価値に寄与する、という観察に基づいている。
我々は,最近のトークンとH$のバランスを動的に保持するKVキャッシュ消去ポリシーであるヘビーヒッター(H$O)を提案する。
論文 参考訳(メタデータ) (2023-06-24T20:11:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。