論文の概要: Characterizing WebGPU Dispatch Overhead for LLM Inference Across Four GPU Vendors, Three Backends, and Three Browsers
- arxiv url: http://arxiv.org/abs/2604.02344v1
- Date: Mon, 09 Feb 2026 20:14:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-19 19:09:11.312053
- Title: Characterizing WebGPU Dispatch Overhead for LLM Inference Across Four GPU Vendors, Three Backends, and Three Browsers
- Title(参考訳): 4つのGPUベンダー、3つのバックエンド、3つのブラウザにわたるLLM推論のためのWebGPUディスパッチオーバーヘッドの特性
- Authors: Jędrzej Maczan,
- Abstract要約: WebGPUのセキュリティを重視した設計では、ニューラルネットワーク推論において、多数の小さなディスパッチにまたがる化合物の操作毎の検証が義務付けられている。
バッチサイズ1のLLM推論のためのWebGPUディスパッチオーバーヘッドを,4つのベンダ(NVIDIA,AMD,Apple,Intel)と2つのネイティブ実装(Dawn,wgpu-native)と3つのブラウザ(Chrome,Safari,Firefox)にまたがるシステマティックな評価を行った。
私たちの主なコントリビューションはシーケンシャルなディスパッチ手法です。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: WebGPU's security-focused design imposes per-operation validation that compounds across the many small dispatches in neural network inference, yet the true cost of this overhead is poorly characterized. We present a systematic characterization of WebGPU dispatch overhead for LLM inference at batch size 1, spanning four GPU vendors (NVIDIA, AMD, Apple, Intel), two native implementations (Dawn, wgpu-native) and three browsers (Chrome, Safari, Firefox), and two model sizes (Qwen2.5-0.5B and 1.5B). Our primary contribution is a sequential-dispatch methodology that reveals naive single-operation benchmarks overestimate dispatch cost by ${\sim}20\times$. The true per-dispatch cost of WebGPU API overhead alone is 24-36 $μ$s on Vulkan and 32-71 $μ$s on Metal, while the total per-operation overhead including Python cost is ${\sim}95$~$μ$s, which turns out to be a distinction critical for optimization. On Vulkan, kernel fusion improves throughput by 53%, while CUDA fusion provides no benefit, confirming that per-operation overhead is a primary differentiator. LLM inference was tested across three major operating systems (Linux, Windows, macOS). We built $\texttt{torch-webgpu}$, a PrivateUse1-based out-of-tree PyTorch backend and an FX-to-WebGPU compiler, which on our reference platform achieves 11--12% of CUDA performance. At dtype-matched float32, RTX PRO 2000 achieves 1.4$\times$ WebGPU's throughput despite ${\sim}6\times$ less compute than RTX 5090. For dispatch overhead, backend choice is the dominant factor, although implementation choice also matters substantially within a backend (2.2$\times$ for Metal). In terms of dispatch vs kernel compute efficiency, we conclude that at batch=1 with the current dispatch-heavy pipeline, per-operation overhead dominates regardless of kernel quality. All code, benchmarks, and raw data are open source.
- Abstract(参考訳): WebGPUのセキュリティを重視した設計では、ニューラルネットワーク推論において、多数の小さなディスパッチにまたがる化合物に対して、運用単位の検証が義務付けられている。
バッチサイズ1では,GPUベンダ4社(NVIDIA,AMD,Apple,Intel),ネイティブ実装2社(Dawn,wgpu-native)とブラウザ3社(Chrome,Safari,Firefox),モデルサイズ2社(Qwen2.5-0.5B,1.5B)にまたがるWebGPUディスパッチのオーバーヘッドを体系的に評価した。
私たちの主な貢献はシーケンシャルなディスパッチ手法であり、${\sim}20\times$で送出コストを過大評価する単純な単一運用ベンチマークを明らかにします。
WebGPU APIの真のディスパッチコストは、Vulkanでは24-36$μ$s、Metalでは32-71$μ$sであり、Pythonでは${\sim}95$~$μ$sである。
Vulkanでは、カーネルフュージョンはスループットを53%改善する一方、CUDAフュージョンはメリットを提供しておらず、運用間オーバーヘッドが主要な差別化要因であることを確認した。
LLM推論は3つの主要なオペレーティングシステム(Linux、Windows、macOS)でテストされた。
私たちは、PrivateUse1ベースのアウトオブツリーPyTorchバックエンドとFX-to-WebGPUコンパイラである$\texttt{torch-webgpu}$を構築しました。
dtype-matched float32では、RTX PRO 2000は、${\sim}6\times$ RTX 5090よりも少ない計算にもかかわらず、1.4$\times$ WebGPUのスループットを達成した。
ディスパッチのオーバーヘッドでは、バックエンドの選択が主な要因であるが、実装の選択はバックエンド内でも重要である(2.2$\times$ for Metal)。
ディスパッチとカーネルの計算効率の面では、現在のディスパッチ重パイプラインとバッチ=1では、カーネルの品質に関わらず、運用毎のオーバーヘッドが支配的であると結論付けている。
すべてのコード、ベンチマーク、生データはオープンソースです。
関連論文リスト
- ParallelKittens: Systematic and Practical Simplification of Multi-GPU AI Kernels [40.94392896555992]
既存のシステムは、計算通信の重複によってこれを緩和するが、しばしばワークロードと新しいアクセラレータ間の理論的帯域幅を満たさない。
演算子固有のテクニックの代わりに、簡単な再利用可能な原則の小さなセットが、ワークロードの最適なパフォーマンスを導くことができるかどうかを問う。
PKKittens(PK)カーネルは、最大2.33倍の並列ワークロードを実現する。
論文 参考訳(メタデータ) (2025-11-17T21:48:33Z) - Minute-Long Videos with Dual Parallelisms [57.22737565366549]
Diffusion Transformer (DiT)ベースのビデオ拡散モデルは、大規模に高品質なビデオを生成するが、長いビデオの処理遅延とメモリコストは禁じられている。
我々はDualParalと呼ばれる新しい分散推論戦略を提案する。
1つのGPUでビデオ全体を生成する代わりに、時間フレームとモデルレイヤの両方をGPU間で並列化します。
論文 参考訳(メタデータ) (2025-05-27T11:55:22Z) - CAT: A GPU-Accelerated FHE Framework with Its Application to High-Precision Private Dataset Query [0.51795041186793]
本稿では,オープンソースGPUアクセラレーションによる完全同型暗号(FHE)フレームワークCATを紹介する。
emphCATは、コア数学の基礎、事前計算された要素と複合操作のブリッジ、FHE演算子のAPIアクセス可能なレイヤという3層アーキテクチャを備えている。
本フレームワークでは,CKKS,BFV,BGVの3種類のFHEスキームを実装した。
論文 参考訳(メタデータ) (2025-03-28T08:20:18Z) - BurTorch: Revisiting Training from First Principles by Coupling Autodiff, Math Optimization, and Systems [56.16884466478886]
BurTorchは、単一ノードワークステーション上でのディープラーニング(DL)トレーニングを最適化するために設計された、コンパクトな高性能フレームワークである。
BurTorchは最小限の設計を採用し、これらの状況下では、古典的なコンパイルされたプログラミング言語がDL研究において重要な役割を果たすことを証明している。
論文 参考訳(メタデータ) (2025-03-18T00:52:12Z) - Fully-fused Multi-Layer Perceptrons on Intel Data Center GPUs [3.7101665559244874]
本稿では,Intel Data Center GPU Max 1550用のMulti-formedLayer Perceptrons(MLP)の実装について述べる。
これにより算術強度が大幅に向上し,特に推論性能が向上することを示す。
論文 参考訳(メタデータ) (2024-03-26T11:38:39Z) - INR-Arch: A Dataflow Architecture and Compiler for Arbitrary-Order
Gradient Computations in Implicit Neural Representation Processing [66.00729477511219]
計算グラフとして表される関数を考えると、従来のアーキテクチャはn階勾配を効率的に計算する上で困難に直面している。
InR-Archは,n階勾配の計算グラフをハードウェア最適化データフローアーキテクチャに変換するフレームワークである。
1.8-4.8x と 1.5-3.6x の高速化を CPU と GPU のベースラインと比較した結果を示す。
論文 参考訳(メタデータ) (2023-08-11T04:24:39Z) - PLSSVM: A (multi-)GPGPU-accelerated Least Squares Support Vector Machine [68.8204255655161]
Support Vector Machines (SVM) は機械学習で広く使われている。
しかし、現代的で最適化された実装でさえ、最先端ハードウェア上の大きな非自明な高密度データセットにはうまくスケールしない。
PLSSVMはLVMのドロップイン代替として使用できる。
論文 参考訳(メタデータ) (2022-02-25T13:24:23Z) - Efficient and Generic 1D Dilated Convolution Layer for Deep Learning [52.899995651639436]
幅広いパラメータをカバーする汎用的な1D畳み込み層の効率的な実装を紹介します。
特にIntel AVX-512とAVX-512 BFloat16命令を含むアーキテクチャ向けに最適化されている。
本稿では,最適化された1次元畳み込み層の性能を,実際のゲノミクスデータセットを用いたエンドツーエンドニューラルネットワークトレーニングで実証する。
論文 参考訳(メタデータ) (2021-04-16T09:54:30Z) - Efficient MPI-based Communication for GPU-Accelerated Dask Applications [1.211955119100926]
本稿では,Dask の新しい通信バックエンド MPI4Dask の設計と実装について述べる。
MPI4Daskは、Message Passing Interface標準のGPU対応実装であるMVAPICH2-GDRよりもmpi4pyを利用している。
我々のレイテンシとスループットの比較から、MPI4Daskは1バイトメッセージでUCXを6倍、大きなメッセージで4倍性能が高いことが示唆されている。
論文 参考訳(メタデータ) (2021-01-21T22:59:08Z) - Optimization of XNOR Convolution for Binary Convolutional Neural
Networks on GPU [2.578242050187029]
本稿では,GPU上でのバイナリ畳み込みネットワーク推論の実装を提案する。
実験の結果、GPUを使用することで、カーネルサイズが3ドル3セントの最大42.61ドルまでスピードアップできることがわかった。
論文 参考訳(メタデータ) (2020-07-28T13:01:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。