論文の概要: Hybrid JIT-CUDA Graph Optimization for Low-Latency Large Language Model Inference
- arxiv url: http://arxiv.org/abs/2604.23467v1
- Date: Sat, 25 Apr 2026 23:19:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-28 17:12:07.375103
- Title: Hybrid JIT-CUDA Graph Optimization for Low-Latency Large Language Model Inference
- Title(参考訳): 低レイテンシ大言語モデル推論のためのハイブリッドJIT-CUDAグラフ最適化
- Authors: Divakar Kumar Yadav, Tian Zhao,
- Abstract要約: 本稿では,Just-In-Time(JIT)コンパイルとGraph実行を併用して起動オーバーヘッドを低減するハイブリッドフレームワークを提案する。
単一GPUを用いたLLaMA-2 7Bに対する提案手法の評価を行った。
- 参考スコア(独自算出の注目度): 0.3580891736370874
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Models (LLMs) have achieved strong performance across natural language and multimodal tasks, yet their practical deployment remains constrained by inference latency and kernel launch overhead, particularly in interactive, short-sequence settings. This paper presents a hybrid runtime framework that combines Just-In-Time (JIT) compilation with CUDA Graph execution to reduce launch overhead while preserving runtime flexibility during autoregressive decoding. The framework partitions transformer inference into static components executed via CUDA Graph replay and dynamic components handled through JIT-compiled kernels, enabling asynchronous graph capture and reuse across decoding steps. We evaluate the proposed approach on LLaMA-2 7B using single-GPU, batch-size-one inference across prompt lengths from 10 to 500 tokens. Experimental results show that the hybrid runtime reduces Time-to-First-Token (TTFT) by up to 66.0% and achieves lower P99 latency compared with TensorRT-LLM in this regime. These results indicate that hybrid JIT-CUDA Graph execution can effectively reduce inference latency and variance for short-sequence LLM workloads, making it a practical optimization strategy for latency-sensitive AI applications.
- Abstract(参考訳): 大規模言語モデル(LLM)は、自然言語やマルチモーダルタスクにまたがって強力なパフォーマンスを実現している。
本稿では、Just-In-Time(JIT)コンパイルとCUDA Graph実行を組み合わせたハイブリッドランタイムフレームワークを提案する。
このフレームワークはトランスフォーマー推論をCUDA Graphリプレイで実行される静的コンポーネントとJITコンパイルされたカーネルで処理される動的コンポーネントに分割し、デコードステップ間で非同期グラフのキャプチャと再利用を可能にする。
単一GPUを用いたLLaMA-2 7Bに対する提案手法の評価を行った。
実験の結果、ハイブリッドランタイムは、TTFT(Time-to-First-Token)を最大66.0%削減し、この方式のTensorRT-LLMと比較してP99レイテンシを低くすることがわかった。
これらの結果から、JIT-CUDAグラフのハイブリッド実行は、短時間のLLMワークロードの推論遅延と分散を効果的に低減し、遅延に敏感なAIアプリケーションに対する実用的な最適化戦略となることが示唆された。
関連論文リスト
- Compiling Code LLMs into Lightweight Executables [18.677096682203697]
Dittoは、コードLLMのモデルサイズと推論プログラムの両方を最適化する新しい方法である。
私たちは、Dittoを3つの人気のあるコードLLMで評価し、元の推論パイプラインと比較して最大10.5$times$低いメモリ使用量を達成しました。
論文 参考訳(メタデータ) (2026-03-31T14:40:19Z) - Canzona: A Unified, Asynchronous, and Load-Balanced Framework for Distributed Matrix-based Optimizers [36.650880799066215]
非同期アプローチは計算の冗長性に悩まされるが、レイヤワイドパーティショニングではこの矛盾を解決できない。
データ並列化では、負荷不均衡を中和しながら原子性を尊重するアルファバランス静的分割戦略を導入する。
提案手法は,エンド・ツー・エンドでの1.57倍の高速化を実現し,ステップ遅延をベースラインに比べて5.8倍削減する。
論文 参考訳(メタデータ) (2026-02-04T07:38:24Z) - Yggdrasil: Bridging Dynamic Speculation and Static Runtime for Latency-Optimal Tree-Based LLM Decoding [49.16776388429616]
Yggdrasilは、コンテキスト対応のツリードラフトとコンパイラフレンドリな実行を通じて、レイテンシ最適化の投機的デコーディングを可能にするシステムである。
Yggdrasil は未修正の LLM をサポートし、複数のハードウェア構成で最先端のベースラインを最大3.98倍のスピードアップを実現している。
論文 参考訳(メタデータ) (2025-12-29T20:51:38Z) - Eliminating Multi-GPU Performance Taxes: A Systems Approach to Efficient Distributed LLMs [61.953548065938385]
分析フレームワークとして'3つの税'(バルク同期、カーネル間データローカリティ、カーネルローンチオーバーヘッド)を紹介した。
我々は、分散GPU実行におけるキー非効率に対処するために、厳密なBSPモデルを超えて移動することを提案する。
BSPベースのアプローチによるエンドツーエンドのレイテンシの10-20%の高速化を観察する。
論文 参考訳(メタデータ) (2025-11-04T01:15:44Z) - JEDI-linear: Fast and Efficient Graph Neural Networks for Jet Tagging on FPGAs [36.158374493924455]
グラフニューラルネットワーク (GNN) は、CERN High Luminosity Large Hadron Collider (HLLHC) において、ジェットタグの異常な性能を示した。
本稿では,線形計算複雑性を持つ新しいGNNアーキテクチャであるJEDI-linearを提案する。
これは60ns未満のレイテンシを達成した初めてのインタラクションベースのGNNであり、現在はHL-LHC CMS Level-1トリガシステムで使用される要件を満たしている。
論文 参考訳(メタデータ) (2025-08-21T11:40:49Z) - CSGO: Generalized Optimization for Cold Start in Wireless Collaborative Edge LLM Systems [62.24576366776727]
本稿では,全体の推論遅延を最小限に抑えるために,遅延を考慮したスケジューリングフレームワークを提案する。
提案手法は,ベースライン戦略と比較して,コールドスタート遅延を著しく低減することを示す。
論文 参考訳(メタデータ) (2025-08-15T07:49:22Z) - Latency-aware Unified Dynamic Networks for Efficient Image Recognition [72.8951331472913]
LAUDNetは動的ネットワークの理論的および実用的な効率ギャップを橋渡しするフレームワークである。
3つの主要な動的パラダイム - 適応型計算、動的層スキップ、動的チャネルスキップ - を統合している。
これにより、V100,3090やTX2 GPUのようなプラットフォーム上で、ResNetのようなモデルの遅延を50%以上削減できる。
論文 参考訳(メタデータ) (2023-08-30T10:57:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。