論文の概要: PyGraph: Robust Compiler Support for CUDA Graphs in PyTorch
- arxiv url: http://arxiv.org/abs/2503.19779v1
- Date: Tue, 25 Mar 2025 15:47:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-26 16:54:28.440237
- Title: PyGraph: Robust Compiler Support for CUDA Graphs in PyTorch
- Title(参考訳): PyGraph: PyTorchでのCUDAグラフのロバストコンパイラサポート
- Authors: Abhishek Ghosh, Ajay Nayak, Ashish Panwar, Arkaprava Basu,
- Abstract要約: 我々はPyTorch2内でNVIDIA Graphのパワーを自動で活用する新しいアプローチであるPyGraphを紹介する。
我々はPyGraphをさまざまな機械学習ベンチマークで評価し、PyTorch2よりも大幅に性能を向上した。
- 参考スコア(独自算出の注目度): 1.2334708058524546
- License:
- Abstract: CUDA Graphs -- a recent hardware feature introduced for NVIDIA GPUs -- aim to reduce CPU launch overhead by capturing and launching a series of GPU tasks (kernels) as a DAG. However, deploying CUDA Graphs faces several challenges today due to the static structure of a graph. It also incurs performance overhead due to data copy. In fact, we show a counter-intuitive result -- deploying CUDA Graphs hurts performance in many cases. We introduce PyGraph, a novel approach to automatically harness the power of CUDA Graphs within PyTorch2. Driven by three key observations, PyGraph embodies three novel optimizations: it enables wider deployment of CUDA Graphs, reduces GPU kernel parameter copy overheads, and selectively deploys CUDA Graphs based on a cost-benefit analysis. PyGraph seamlessly integrates with PyTorch2's compilation toolchain, enabling efficient use of CUDA Graphs without manual modifications to the code. We evaluate PyGraph across various machine learning benchmarks, demonstrating substantial performance improvements over PyTorch2.
- Abstract(参考訳): NVIDIA GPUに導入された最近のハードウェア機能であるCUDA Graphsは、DAGとして一連のGPUタスク(カーネル)をキャプチャして起動することで、CPUの起動オーバーヘッドを削減することを目指している。
しかし、CUDA Graphsのデプロイは今日、グラフの静的構造のためにいくつかの課題に直面している。
データコピーによるパフォーマンスのオーバーヘッドも発生します。
実際、CUDA Graphsのデプロイは多くのケースでパフォーマンスが損なわれます。
我々はPyTorch2内でCUDA Graphのパワーを自動的に活用する新しいアプローチであるPyGraphを紹介する。
CUDA Graphのより広範なデプロイを可能にし、GPUカーネルパラメータのコピーオーバヘッドを低減し、コストメリットの分析に基づいてCUDA Graphを選択的にデプロイする。
PyGraphはPyTorch2のコンパイルツールチェーンとシームレスに統合され、手動でコードを変更することなくCUDA Graphを効率的に使用することができる。
我々はPyGraphをさまざまな機械学習ベンチマークで評価し、PyTorch2よりも大幅に性能を向上した。
関連論文リスト
- A User's Guide to $\texttt{KSig}$: GPU-Accelerated Computation of the Signature Kernel [12.111848705677138]
シグネチャカーネルは、シーケンシャルおよびテンポラルデータのための正定カーネルである。
この章では、署名カーネルを演算するためのGPUアクセラレーションアルゴリズムを実装した、$textttKSig$、$textttScikit-Learn$互換Pythonパッケージについて短い紹介を行う。
論文 参考訳(メタデータ) (2025-01-13T09:11:13Z) - GraphStorm: all-in-one graph machine learning framework for industry applications [75.23076561638348]
GraphStormはスケーラブルなグラフ構築、グラフモデルのトレーニング、推論のためのエンドツーエンドソリューションである。
GraphStormのすべてのコンポーネントは数十億のノードを持つグラフ上で動作でき、コードを変更することなく、モデルのトレーニングと推論を異なるハードウェアにスケールすることができる。
GraphStormは、2023年5月にリリースされて以来、数十億以上の業界アプリケーションで使われ、デプロイされてきた。
論文 参考訳(メタデータ) (2024-06-10T04:56:16Z) - iSpLib: A Library for Accelerating Graph Neural Networks using Auto-tuned Sparse Operations [1.3030767447016454]
iSpLibは、自動調整されたスパース操作を備えたPyTorchベースのC++ライブラリである。
iSpLibは、CPU上のPyTorch 2.1.0とPyTorch Geometric 2.4.0と同等のPyTorch 2.1.0と比較して、最大27倍のトレーニングスピードアップが得られることを示した。
論文 参考訳(メタデータ) (2024-03-21T21:56:44Z) - PockEngine: Sparse and Efficient Fine-tuning in a Pocket [62.955793932377524]
さまざまなエッジデバイスで微調整が可能な,小型でスパースで効率的なエンジンであるPockEngineを紹介します。
PockEngineはスパースバックプロパゲーションをサポートし、測定メモリの節約とレイテンシの削減でモデルをスパース更新する。
注目すべきなのは、PockEngineはNVIDIA Jetson AGX OrinのLLaMav2-7Bを550トークン/秒で微調整できることだ。
論文 参考訳(メタデータ) (2023-10-26T19:46:11Z) - TpuGraphs: A Performance Prediction Dataset on Large Tensor
Computational Graphs [24.790481918123103]
本稿では,フルテンソルプログラムの性能予測データセットであるTpuGraphsを紹介する。
データセットの各グラフは、機械学習のワークロードの主計算を表します。
TpuGraphsは、最大のグラフプロパティ予測データセットよりも25倍のグラフを提供する。
論文 参考訳(メタデータ) (2023-08-25T17:04:35Z) - Scaling R-GCN Training with Graph Summarization [71.06855946732296]
リレーショナルグラフ畳み込みネットワーク(R-GCN)のトレーニングは、グラフのサイズに合わない。
本研究では,グラフの要約手法を用いてグラフを圧縮する実験を行った。
AIFB, MUTAG, AMデータセットについて妥当な結果を得た。
論文 参考訳(メタデータ) (2022-03-05T00:28:43Z) - Boosting Graph Embedding on a Single GPU [3.093890460224435]
大規模グラフを最小限のハードウェア制約で埋め込むためのGPUベースのツールであるGOSHを提案する。
更新の影響を高め、埋め込み作業を最小限にするため、新しいグラフ粗化アルゴリズムを採用している。
また、任意の任意の大きなグラフを単一のGPUで埋め込むことができる分解スキーマも組み込まれている。
論文 参考訳(メタデータ) (2021-10-19T15:25:04Z) - GNNAutoScale: Scalable and Expressive Graph Neural Networks via
Historical Embeddings [51.82434518719011]
GNNAutoScale(GAS)は、任意のメッセージパスGNNを大規模グラフにスケールするためのフレームワークである。
ガスは、前回のトレーニングの繰り返しから過去の埋め込みを利用して計算グラフのサブツリー全体を掘り起こします。
ガスは大規模グラフ上で最先端のパフォーマンスに達する。
論文 参考訳(メタデータ) (2021-06-10T09:26:56Z) - Efficient Graph Deep Learning in TensorFlow with tf_geometric [53.237754811019464]
グラフ深層学習のための効率的でフレンドリなライブラリであるtf_geometricを導入する。
tf_geometricは、人気のあるGNNの実装と同様に、グラフニューラルネットワーク(GNN)を構築するためのカーネルライブラリを提供する。
カーネルライブラリは、グラフデータ構造、グラフマップ-リデュースフレームワーク、グラフミニバッチ戦略など、効率的なGNNを構築するためのインフラストラクチャで構成されている。
論文 参考訳(メタデータ) (2021-01-27T17:16:36Z) - FeatGraph: A Flexible and Efficient Backend for Graph Neural Network
Systems [23.258185277825888]
FeatGraphは多様なGNNモデルを表現するためのフレキシブルなプログラミングインターフェースを提供する。
FeatGraphは、エンドツーエンドのGNNトレーニングと推論をCPUで最大32倍、GPUで最大7倍高速化する。
論文 参考訳(メタデータ) (2020-08-26T03:17:05Z) - Scaling Graph Neural Networks with Approximate PageRank [64.92311737049054]
GNNにおける情報拡散の効率的な近似を利用したPPRGoモデルを提案する。
高速であることに加えて、PPRGoは本質的にスケーラブルであり、業界設定で見られるような大規模なデータセットに対して、自明に並列化することができる。
このグラフのすべてのノードに対するPPRGoのトレーニングとラベルの予測には1台のマシンで2分未満で、同じグラフ上の他のベースラインをはるかに上回ります。
論文 参考訳(メタデータ) (2020-07-03T09:30:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。