論文の概要: PyTorch-based Geometric Learning with Non-CUDA Processing Units: Experiences from Intel Gaudi-v2 HPUs
- arxiv url: http://arxiv.org/abs/2507.01031v1
- Date: Fri, 20 Jun 2025 04:10:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-07 02:47:44.424281
- Title: PyTorch-based Geometric Learning with Non-CUDA Processing Units: Experiences from Intel Gaudi-v2 HPUs
- Title(参考訳): 非CUDA処理ユニットを用いたPyTorchに基づく幾何学的学習:Intel Gaudi-v2 HPUsによる経験
- Authors: Fanchen Bu, Kijung Shin,
- Abstract要約: 我々はPyTorchベースの幾何学習フレームワークをGaudi-v2 HPUに移植した経験を紹介する。
16のガイド付きチュートリアルと11の実例を統合し,故障の診断と詳細な回避策について検討した。
- 参考スコア(独自算出の注目度): 25.69187509653635
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Geometric learning has emerged as a powerful paradigm for modeling non-Euclidean data, especially graph-structured ones, with applications spanning social networks, molecular structures, knowledge graphs, and recommender systems. While Nvidia's CUDA-enabled graphics processing units (GPUs) largely dominate the hardware landscape, emerging accelerators such as Intel's Gaudi Habana Processing Units (HPUs) offer competitive performance and energy efficiency. However, the usage of such non-CUDA processing units requires significant engineering effort and novel software adaptations. In this work, we present our experiences porting PyTorch-based geometric learning frameworks to Gaudi-v2 HPUs. We introduce a collection of core utilities that restore essential operations (e.g., scatter, sparse indexing, k-nearest neighbors) on Gaudi-v2 HPUs, and we consolidate sixteen guided tutorials and eleven real-world examples with diagnostic analyses of encountered failures and detailed workarounds. We collect all our experiences into a publicly accessible GitHub repository. Our contributions lower the barrier for researchers to experiment with geometric-learning algorithms and models on non-CUDA hardware, providing a foundation for further optimization and cross-platform portability.
- Abstract(参考訳): 幾何学学習は、非ユークリッドデータ、特にグラフ構造化データをモデリングするための強力なパラダイムとして、ソーシャルネットワーク、分子構造、知識グラフ、レコメンダシステムにまたがる応用として登場した。
NvidiaのCUDA対応グラフィックス処理ユニット(GPU)がハードウェアの世界を支配しているのに対して、IntelのGaudi Habana Processing Units(HPU)のような新興アクセラレーターは、競争力のあるパフォーマンスとエネルギー効率を提供している。
しかし、そのような非CUDA処理ユニットの使用には、かなりのエンジニアリング努力と新しいソフトウェア適応が必要である。
本稿では,PyTorchをベースとした幾何学習フレームワークをGaudi-v2 HPUsに移植した経験を紹介する。
我々は,Gaudi-v2 HPUs上での本質的な操作(例えば,散布,スパースインデックス,k-アネレス)を復元するコアユーティリティのコレクションを導入し,16のガイド付きチュートリアルと11の実世界の実例を統合し,故障の診断と回避策の詳細な分析を行った。
私たちはすべての経験をGitHubリポジトリに公開しています。
我々のコントリビューションは、幾何学習アルゴリズムと非CUDAハードウェアのモデルを試すための障壁を低くし、さらなる最適化とクロスプラットフォームのポータビリティの基盤を提供します。
関連論文リスト
- PICT -- A Differentiable, GPU-Accelerated Multi-Block PISO Solver for Simulation-Coupled Learning Tasks in Fluid Dynamics [59.38498811984876]
我々はPyTorchで符号化された可変圧単純化解器であるPICTをGPU(Graphics-Processing-unit)をサポートした流体シミュレータとして提案する。
まず,様々なベンチマークにおいて,フォワードシミュレーションと導出した勾配の精度を検証した。
2次元, 3次元の複雑な乱流モデルの学習には, 解法によって得られる勾配が有効であることを示す。
論文 参考訳(メタデータ) (2025-05-22T17:55:10Z) - Real-Time Semantic Segmentation of Aerial Images Using an Embedded U-Net: A Comparison of CPU, GPU, and FPGA Workflows [0.0]
本研究では,航空画像のリアルタイムセマンティックセグメンテーションに最適化された軽量なU-Netモデルを提案する。
実世界のデータセット上でのU-Netの精度を維持しながら、モデルのパラメータと乗算(MAC)操作を16。
論文 参考訳(メタデータ) (2025-03-07T08:33:28Z) - NNsight and NDIF: Democratizing Access to Open-Weight Foundation Model Internals [58.83169560132308]
NNsightとNDIFを導入し、非常に大きなニューラルネットワークによって学習された表現と計算の科学的研究を可能にする。
論文 参考訳(メタデータ) (2024-07-18T17:59:01Z) - Benchmarking Predictive Coding Networks -- Made Simple [48.652114040426625]
機械学習における予測符号化ネットワーク(PCN)の効率性とスケーラビリティの問題に取り組む。
そこで我々は,PCXと呼ばれる,パフォーマンスと簡易性を重視したライブラリを提案する。
我々は,PCNの既存アルゴリズムと,生物工学的な深層学習コミュニティで普及している他の手法を併用して,このようなベンチマークを広範囲に実施する。
論文 参考訳(メタデータ) (2024-07-01T10:33:44Z) - Performance Tuning for GPU-Embedded Systems: Machine-Learning-based and
Analytical Model-driven Tuning Methodologies [0.0]
本研究は,分析モデル駆動型チューニング手法と機械学習(ML)に基づくチューニング手法を紹介する。
NVIDIA JetsonシステムにおけるBPLGライブラリの異なる並列プレフィックス実装のための2つのチューニング手法の性能評価を行った。
論文 参考訳(メタデータ) (2023-10-24T22:09:03Z) - Accelerating Machine Learning Primitives on Commodity Hardware [0.0]
本稿では,Deep Neural Networks (DNN) における一般行列乗算 (GEMM) に基づく畳み込みよりも効率的な代替手段として,スライディングウィンドウ畳み込み手法について広範な研究を行う。
この結果から,Sliding Window 計算カーネルは CPU 上でも専用ハードウェアアクセラレータ上でも GEMM ベースの畳み込みよりも優れていることが示唆された。
これにより、特別なハードウェアを必要とせずに、低消費電力および低メモリデバイスにAIが広く採用される可能性がある。
論文 参考訳(メタデータ) (2023-10-08T16:26:18Z) - Harnessing Deep Learning and HPC Kernels via High-Level Loop and Tensor Abstractions on CPU Architectures [67.47328776279204]
この研究は、効率的でポータブルなDeep LearningとHigh Performance Computingカーネルを開発するためのフレームワークを導入している。
1)プロセッシングプリミティブ(TPP)を用いた計算コアの表現と,2)高レベルな宣言的手法でTPPのまわりの論理ループの表現の2つのステップでカーネルの開発を分解する。
我々は、スタンドアロンカーネルと、さまざまなCPUプラットフォームにおける最先端実装よりも優れたエンドツーエンドワークロードを使用して、このアプローチの有効性を実証する。
論文 参考訳(メタデータ) (2023-04-25T05:04:44Z) - Operation-Level Performance Benchmarking of Graph Neural Networks for
Scientific Applications [0.15469452301122172]
我々は、Pytorch Geometric Softwareフレームワークで実装された科学計算のために、グラフニューラルネットワーク(GNN)に関連する低レベルの演算をプロファイルし、選択する。
次にこれらをNVIDIA A100 GPU上で厳格にベンチマークし、テンソル間隔を含むいくつかの入力値の組み合わせを行う。
1) メモリの非効率性のようなボトルネックを解消することは、データ空間のみよりも実行時コストを優先することが多い。
これらの結果は、特殊なハードウェア上でこれらの操作を開発する人々のベースラインとして役立ち、その後の分析が将来のソフトウェアおよびハードウェアベースの最適化を促進するのに役立つことを願っています。
論文 参考訳(メタデータ) (2022-07-20T15:01:12Z) - Kernel methods through the roof: handling billions of points efficiently [94.31450736250918]
カーネル法は、非パラメトリック学習に対するエレガントで原則化されたアプローチを提供するが、今のところ大規模な問題ではほとんど利用できない。
最近の進歩は、最適化、数値線形代数、ランダム射影など、多くのアルゴリズム的アイデアの利点を示している。
ここでは、これらの取り組みをさらに進めて、GPUハードウェアを最大限に活用する解決器を開発し、テストする。
論文 参考訳(メタデータ) (2020-06-18T08:16:25Z) - PolyScientist: Automatic Loop Transformations Combined with Microkernels
for Optimization of Deep Learning Primitives [55.79741270235602]
深層学習カーネル開発のためのハイブリッドソリューションを開発する。
我々は、高度な多面体技術を用いて、パフォーマンスのために外部ループを自動的に調整する。
論文 参考訳(メタデータ) (2020-02-06T08:02:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。