論文の概要: VUDA: Breaking CUDA-Vulkan Isolation for Spatial Sharing of Compute and Graphics on the Same GPU
- arxiv url: http://arxiv.org/abs/2605.01352v1
- Date: Sat, 02 May 2026 09:54:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-05 20:33:49.722063
- Title: VUDA: Breaking CUDA-Vulkan Isolation for Spatial Sharing of Compute and Graphics on the Same GPU
- Title(参考訳): VUDA:同じGPU上での計算とグラフィックの空間共有のためのCUDA-Vulkan分離
- Authors: Bin Xu, Pengfei Hu, Wenxin Zheng, Jinyu Gu, Haibo Chen,
- Abstract要約: VUDAは、単一のデバイス上でのAIインターリーブ物理シミュレーション(CUDA)とレンダリング(Vulkan)を具現化するシステムである。
Vulkanは異なる抽象化を公開しているが、その実行パスはドライバとハードウェアレベルで共通のチャネルプリミティブに収束する。
実験によると、VUDAは時間共有ベースラインよりも85%高い。
- 参考スコア(独自算出の注目度): 8.606051275493147
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: GPU-based simulation environments for embodied AI interleave physics simulation (CUDA) and photorealistic rendering (Vulkan) on a single device. We observe that two foundational scenarios -- simulation data generation and RL training -- can be naturally adapted to execute their simulation and rendering phases concurrently, presenting a significant opportunity to improve GPU utilization through spatial multiplexing. However, a fundamental obstacle we term execution isolation prevents this: CUDA and Vulkan create separate GPU contexts whose channels are bound to different scheduling groups, confining compute and graphics to mutually exclusive time slices. Existing spatial-sharing techniques are limited to the CUDA ecosystem, while temporal-sharing approaches underutilize available resources. This paper presents VUDA, a system that breaks execution isolation to enable spatial parallelism between CUDA compute and Vulkan graphics workloads. VUDA is built on two key observations: although CUDA and Vulkan expose different programming abstractions, their execution paths converge to a common channel primitive at the driver and hardware level; meanwhile, their virtual-address spaces are inherently disjoint, making safe page-table merging feasible without remapping. VUDA exposes a thin API for developers to annotate co-schedulable CUDA streams, and realizes spatial sharing through channel redirection into Vulkan's scheduling domain and page-table grafting to unify address spaces, eliminating all data copying on the critical path. Experiments on representative embodied-AI workloads show that VUDA delivers up to 85% higher throughput than temporal-sharing baselines, while improving GPU utilization and reducing end-to-end latency.
- Abstract(参考訳): 実装されたAIインターリーブ物理シミュレーション(CUDA)とフォトリアリスティックレンダリング(Vulkan)のためのGPUベースのシミュレーション環境。
シミュレーションデータ生成とRLトレーニングという2つの基本的なシナリオが,シミュレーションとレンダリングフェーズを同時に実行するために自然に適応できることが観察された。
CUDAとVulkanは、異なるスケジューリンググループにチャンネルをバインドした別々のGPUコンテキストを作成し、計算とグラフィックを互いに排他的なタイムスライスに集約する。
既存の空間共有技術はCUDAのエコシステムに限られている。
本稿では,CUDA計算とVulkanグラフィックスワークロード間の空間並列性を実現するために,実行分離を切断するシステムであるVUDAを提案する。
CUDAとVulkanは異なるプログラミング抽象化を公開するが、それらの実行パスはドライバとハードウェアレベルで共通のチャネルプリミティブに収束する。
VUDAは、開発者が共スケジューリング可能なCUDAストリームに注釈を付けるための薄いAPIを公開するとともに、Vulkanのスケジューリングドメインへのチャネルリダイレクトと、アドレス空間を統一するためのページテーブルグラフトによる空間共有を実現し、クリティカルパスにコピーするすべてのデータを排除している。
代表的な組込みAIワークロードの実験では、VUDAは時間共有ベースラインよりも最大85%高いスループットを提供すると同時に、GPU使用率の改善とエンドツーエンドのレイテンシの低減を実現している。
関連論文リスト
- cuNNQS-SCI: A Fully GPU-Accelerated Framework for High-Performance Configuration Interaction Selection with Neural Network Quantum States [12.436495225801863]
cuNNQS-SCIは、これらのボトルネックを克服するために設計された、完全にGPUアクセラレーションされたSCIフレームワークである。
64GPUのNVIDIA A100クラスタでは、cuNNQS-SCIは最大2.32倍のエンドツーエンドのスピードアップを達成する。
優れた分散パフォーマンスを示し、強力なスケーリングテストで90%以上の並列効率を維持する。
論文 参考訳(メタデータ) (2026-04-17T07:15:18Z) - Fold-CP: A Context Parallelism Framework for Biomolecular Modeling [11.44600151695527]
本稿では,文脈並列化フレームワークであるNVIDIA BioNeMo Fold-CPを提案する。
私たちはBoltzモデルをオープンソースリファレンスアーキテクチャとして使用しています。
我々は、密接な三角形の更新と、ウィンドウバッチされた局所的な注意の、不規則でデータに依存しないパターンの両方を効率的に並列化するカスタム多次元プリミティブを実装した。
論文 参考訳(メタデータ) (2026-03-16T04:20:01Z) - Spava: Accelerating Long-Video Understanding via Sequence-Parallelism-aware Approximate Attention [63.69228529380251]
Spavaはシーケンス並列フレームワークで、ロングビデオ推論に最適化されている。
Spavaは、FlashAttn、ZigZagRing、APBで12.72x、1.70x、1.18xのスピードアップを提供する。
論文 参考訳(メタデータ) (2026-01-29T09:23:13Z) - StreamDiffusionV2: A Streaming System for Dynamic and Interactive Video Generation [65.90400162290057]
生成モデルは、コンテンツの作り方、スタイル、配信方法を再定義することで、ライブストリーミング業界を変革している。
ビデオ拡散の最近の進歩は、オフライン生成のための時間的一貫性とサンプリング効率を著しく改善した。
ライブオンラインストリーミングは厳しいサービスレベル(SLO)の下で動作します。 タイム・ツー・ファーストフレームは最小限でなければなりません。
論文 参考訳(メタデータ) (2025-11-10T18:51:28Z) - Eliminating Multi-GPU Performance Taxes: A Systems Approach to Efficient Distributed LLMs [61.953548065938385]
分析フレームワークとして'3つの税'(バルク同期、カーネル間データローカリティ、カーネルローンチオーバーヘッド)を紹介した。
我々は、分散GPU実行におけるキー非効率に対処するために、厳密なBSPモデルを超えて移動することを提案する。
BSPベースのアプローチによるエンドツーエンドのレイテンシの10-20%の高速化を観察する。
論文 参考訳(メタデータ) (2025-11-04T01:15:44Z) - End-to-end RL Improves Dexterous Grasping Policies [64.8476328230578]
本研究は,画像に基づくエンドツーエンド学習のスケールアップ手法について,腕+手システムによる器用な把握について検討する。
我々は、深度と状態に基づく政策の両方をステレオRGBネットワークに訓練・蒸留し、深度蒸留がシミュレーションと現実の両方においてより良い結果をもたらすことを示す。
論文 参考訳(メタデータ) (2025-09-19T21:21:29Z) - Minute-Long Videos with Dual Parallelisms [57.22737565366549]
Diffusion Transformer (DiT)ベースのビデオ拡散モデルは、大規模に高品質なビデオを生成するが、長いビデオの処理遅延とメモリコストは禁じられている。
我々はDualParalと呼ばれる新しい分散推論戦略を提案する。
1つのGPUでビデオ全体を生成する代わりに、時間フレームとモデルレイヤの両方をGPU間で並列化します。
論文 参考訳(メタデータ) (2025-05-27T11:55:22Z) - SPEED: Streaming Partition and Parallel Acceleration for Temporal
Interaction Graph Embedding [22.68416593780539]
本稿では,時間的相互作用グラフ埋め込みのためのストリームエッジ分割と並列高速化という,新たなトレーニング手法を提案する。
提案手法は,計算資源,計算時間,下流タスク性能のバランスが良好である。
7つの実世界のデータセットにまたがる実証的な検証は、トレーニング速度を最大19.29倍に向上させる可能性を実証している。
論文 参考訳(メタデータ) (2023-08-27T15:11:44Z) - PARTIME: Scalable and Parallel Processing Over Time with Deep Neural
Networks [68.96484488899901]
PartIMEは、データが継続的にストリーミングされるたびにニューラルネットワークを高速化するように設計されたライブラリです。
PartIMEは、ストリームから利用可能になった時点で、各データサンプルの処理を開始する。
オンライン学習において、PartialIMEと古典的な非並列ニューラル計算を経験的に比較するために実験が行われる。
論文 参考訳(メタデータ) (2022-10-17T14:49:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。