論文の概要: TaxBreak: Unmasking the Hidden Costs of LLM Inference Through Overhead Decomposition
- arxiv url: http://arxiv.org/abs/2603.12465v1
- Date: Thu, 12 Mar 2026 21:30:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-16 17:38:11.77152
- Title: TaxBreak: Unmasking the Hidden Costs of LLM Inference Through Overhead Decomposition
- Title(参考訳): TaxBreak: オーバーヘッド分解によるLCM推論の隠れたコストを解き明かす
- Authors: Prabhu Vellaisamy, Shreesh Tripathi, Vignesh Natarajan, Surya Santhan Thenarasu, Shawn Blanton, John P. Shen,
- Abstract要約: この作業では、ホスト可視のオーケストレーションオーバーヘッドを分解するトレース駆動の方法論であるTaxBreakを紹介している。
NVIDIA H100およびH200システム上でTaxBreakを検証し、提案したホストデバイスバランス指標(HDBI)を導出する。
我々は,MoEモデルが高密度モデルよりも出力トークン当たり8~11倍のカーネルをディスパッチし,ホストバウンドワークロードでは,シングルスレッド性能が1次パラメータであることを示す。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Language Model (LLM) inference is widely used in interactive assistants and agentic systems. In latency-sensitive deployments, inference time can become dominated by host-side overheads. Existing approaches typically expose this cost only as an aggregate residual or a launch/queue metric, which is often insufficient to identify which execution layer should be optimized. This work presents TaxBreak, a trace-driven methodology for decomposing host-visible orchestration overhead into three components: framework translation time, CUDA library translation time, and kernel launch-path time. We validate TaxBreak on NVIDIA H100 and H200 systems and use it to derive our proposed Host-Device Balance Index (HDBI), a boundedness summary index that relates device-active execution to host-visible orchestration. Across representative dense and mixture-of-experts workloads in both prefill and decode, we show that aggregate latency, GPU inactivity, or boundedness ratios alone can obscure the dominant optimization target. TaxBreak instead distinguishes cases where optimization should reduce software-stack overhead from cases where the primary win comes from reducing device-side work. We further show that MoE models dispatch 8-11x more kernels per output token than dense models, and that for such host-bound workloads, CPU single-thread performance is a first-order parameter: a faster host CPU reduces orchestration overhead by 10-29% and improves end-to-end latency by up to 14%, even when paired with a slower-clocked GPU. These results position TaxBreak as a diagnostic tool for assessing whether optimization effort should target the software stack or the device-side workload execution.
- Abstract(参考訳): 大規模言語モデル(LLM)推論は対話型アシスタントやエージェントシステムで広く使われている。
レイテンシに敏感なデプロイメントでは、推論時間はホスト側のオーバーヘッドに支配される。
既存のアプローチでは、このコストをアグリゲート残量またはローンチ/キューメトリックとしてのみ公開するが、どの実行層を最適化すべきかを特定するのにはしばしば不十分である。
これは、ホスト可視のオーケストレーションオーバーヘッドをフレームワーク翻訳時間、CUDAライブラリ翻訳時間、カーネル起動パス時間という3つのコンポーネントに分解するトレース駆動の方法論である。
NVIDIA H100およびH200システム上でTaxBreakを検証するとともに、デバイスアクティブ実行とホスト可視オーケストレーションを関連づけたバウンダリ要約インデックスである、HBI(Host-Device Balance Index)を導出する。
プリフィルとデコードの両方において、代表的密集ワークロードと熟練ワークロードの混在によって、アグリゲートレイテンシ、GPU不活性、バウンダリネス比のみが、主要な最適化目標を曖昧にする可能性があることを示す。
代わりにTaxBreakは、最適化がソフトウェアスタックのオーバーヘッドを減らすべきケースと、デバイス側の作業を減らすことが主な利益をもたらすケースとを区別する。
より高速なホストCPUは、オーケストレーションのオーバーヘッドを10~29%削減し、低クロックGPUと組み合わせても、エンドツーエンドのレイテンシを最大14%改善する。
これらの結果はTaxBreakを、最適化作業がソフトウェアスタックやデバイス側のワークロード実行をターゲットにすべきかどうかを評価する診断ツールとして位置づけている。
関連論文リスト
- An LLVM-Based Optimization Pipeline for SPDZ [0.0]
我々はSPDZプロトコルのための概念実証LLVMベースの最適化パイプラインを実装した。
フロントエンドは軽量なプライバシアノテーションを備えたCのサブセットを受け入れ、LLVM IRに格下げします。
我々のバックエンドは、最適化されたIR上でデータフローと制御フローの分析を行い、ノンブロッキングランタイムスケジューラを駆動します。
論文 参考訳(メタデータ) (2025-12-11T20:53:35Z) - Eliminating Multi-GPU Performance Taxes: A Systems Approach to Efficient Distributed LLMs [61.953548065938385]
分析フレームワークとして'3つの税'(バルク同期、カーネル間データローカリティ、カーネルローンチオーバーヘッド)を紹介した。
我々は、分散GPU実行におけるキー非効率に対処するために、厳密なBSPモデルを超えて移動することを提案する。
BSPベースのアプローチによるエンドツーエンドのレイテンシの10-20%の高速化を観察する。
論文 参考訳(メタデータ) (2025-11-04T01:15:44Z) - Nexus:Proactive Intra-GPU Disaggregation of Prefill and Decode in LLM Serving [4.309392302169281]
エンジンレベルのプリフィル・デコード(PD)デアグリゲーションは干渉を避けるが、高いハードウェアと調整オーバーヘッドを引き起こす。
PDは、最大2.2倍のスループット、20倍のTTFT、2.5倍のTBTを達成する。
論文 参考訳(メタデータ) (2025-07-09T07:27:18Z) - DAOP: Data-Aware Offloading and Predictive Pre-Calculation for Efficient MoE Inference [14.676716521856813]
Mixture-of-Experts (MoE)モデルは、メモリ制限されたデバイスにおいて、重大なデプロイメント上の課題に直面している。
並列GPU-CPU実行を最適化するデバイス上でのMoE推論エンジンである presentP を提案する。
Pは従来のエキスパートキャッシングとプリフェッチの手法を最大8.20倍、オフロード技術は1.35倍、精度は維持する。
論文 参考訳(メタデータ) (2024-12-16T07:59:21Z) - Hardware-Aware Parallel Prompt Decoding for Memory-Efficient Acceleration of LLM Inference [23.633481089469836]
LLM(Large Language Models)の自動回帰デコーディングは、ハードウェアの性能に大きなオーバーヘッドをもたらす。
トレーニング可能なパラメータを0.0002$%しか必要とせず,A100-40GBのGPUをたった16時間で効率的にトレーニングできる並列プロンプトデコーディングを提案する。
我々のアプローチでは、最大2.49$times$ スピードアップを示し、最小のメモリオーバーヘッドは0.0004$%である。
論文 参考訳(メタデータ) (2024-05-28T22:19:30Z) - Latency-aware Unified Dynamic Networks for Efficient Image Recognition [72.8951331472913]
LAUDNetは動的ネットワークの理論的および実用的な効率ギャップを橋渡しするフレームワークである。
3つの主要な動的パラダイム - 適応型計算、動的層スキップ、動的チャネルスキップ - を統合している。
これにより、V100,3090やTX2 GPUのようなプラットフォーム上で、ResNetのようなモデルの遅延を50%以上削減できる。
論文 参考訳(メタデータ) (2023-08-30T10:57:41Z) - MAPLE-Edge: A Runtime Latency Predictor for Edge Devices [80.01591186546793]
汎用ハードウェアの最先端遅延予測器であるMAPLEのエッジデバイス指向拡張であるMAPLE-Edgeを提案する。
MAPLEと比較して、MAPLE-Edgeはより小さなCPUパフォーマンスカウンタを使用して、ランタイムとターゲットデバイスプラットフォームを記述することができる。
また、共通ランタイムを共有するデバイスプール上でトレーニングを行うMAPLEとは異なり、MAPLE-Edgeは実行時に効果的に一般化できることを示す。
論文 参考訳(メタデータ) (2022-04-27T14:00:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。