論文の概要: GPRat: Gaussian Process Regression with Asynchronous Tasks
- arxiv url: http://arxiv.org/abs/2505.00136v1
- Date: Wed, 30 Apr 2025 19:08:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-02 19:15:55.160235
- Title: GPRat: Gaussian Process Regression with Asynchronous Tasks
- Title(参考訳): GPRat: 非同期タスクによるガウス的プロセス回帰
- Authors: Maksim Helmann, Alexander Strack, Dirk Pflüger,
- Abstract要約: 我々は、非同期ランタイムモデルHPX上に構築されたタスクベースのC++コードをpybind11を使用したハイレベルPython APIにバインディングする新しい方法を提案する。
GPRatはGPyTorchやGPflowと比較して、AMD EPYC 7742 CPU上で64コアまでのスケーリングが優れている。
- 参考スコア(独自算出の注目度): 45.53402807796089
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Python is the de-facto language for software development in artificial intelligence (AI). Commonly used libraries, such as PyTorch and TensorFlow, rely on parallelization built into their BLAS backends to achieve speedup on CPUs. However, only applying parallelization in a low-level backend can lead to performance and scaling degradation. In this work, we present a novel way of binding task-based C++ code built on the asynchronous runtime model HPX to a high-level Python API using pybind11. We develop a parallel Gaussian process (GP) li- brary as an application. The resulting Python library GPRat combines the ease of use of commonly available GP libraries with the performance and scalability of asynchronous runtime systems. We evaluate the per- formance on a mass-spring-damper system, a standard benchmark from control theory, for varying numbers of regressors (features). The results show almost no binding overhead when binding the asynchronous HPX code using pybind11. Compared to GPyTorch and GPflow, GPRat shows superior scaling on up to 64 cores on an AMD EPYC 7742 CPU for train- ing. Furthermore, our library achieves a prediction speedup of 7.63 over GPyTorch and 25.25 over GPflow. If we increase the number of features from eight to 128, we observe speedups of 29.62 and 21.19, respectively. These results showcase the potential of using asynchronous tasks within Python-based AI applications.
- Abstract(参考訳): Pythonは人工知能(AI)におけるソフトウェア開発のためのデファクト言語である。
PyTorchやTensorFlowといった一般的なライブラリは、CPUの高速化を実現するために、BLASバックエンドに組み込まれた並列化に依存している。
しかし、低レベルのバックエンドで並列化を適用するだけで、パフォーマンスとスケールの低下につながる可能性がある。
本稿では,非同期ランタイムモデルHPX上に構築されたタスクベースのC++コードを,pybind11を用いたハイレベルPython APIにバインドする方法を提案する。
並列ガウス過程(GP)Li-braryを応用として開発する。
結果として生まれたPythonライブラリのGPRatは、一般的に利用可能なGPライブラリと非同期ランタイムシステムのパフォーマンスとスケーラビリティを組み合わせている。
制御理論の標準ベンチマークであるマス・スプリング・ダンパー・システムにおいて, 各種回帰器(機能)の定式化について検討した。
その結果、pybind11を使って非同期HPXコードをバインドする際のバインディングオーバーヘッドはほとんどなかった。
GPyTorch と GPflow と比較すると,GPyTorch では AMD EPYC 7742 CPU で 64 コアのスケーリングに優れており,GPyTorch では 7.63 ,GPflow では 25.25 の高速化を実現している。
特徴数を8から128に増やせば、それぞれ29.62と21.19のスピードアップが観測される。
これらの結果は、PythonベースのAIアプリケーションで非同期タスクを使用する可能性を示している。
関連論文リスト
- No Saved Kaleidosope: an 100% Jitted Neural Network Coding Language with Pythonic Syntax [0.8408735228878615]
我々は,C++,LLVM,Cudaを用いてニューラルネットワークを学習するためのjittedコンパイラを開発した。
オブジェクト指向の特徴、強い型付け、データ前処理のための並列ワーカー、式のためのピソニック構文、PyTorchのようなモデル宣言、自動微分などが特徴である。
論文 参考訳(メタデータ) (2024-09-17T23:15:39Z) - iSpLib: A Library for Accelerating Graph Neural Networks using Auto-tuned Sparse Operations [1.3030767447016454]
iSpLibは、自動調整されたスパース操作を備えたPyTorchベースのC++ライブラリである。
iSpLibは、CPU上のPyTorch 2.1.0とPyTorch Geometric 2.4.0と同等のPyTorch 2.1.0と比較して、最大27倍のトレーニングスピードアップが得られることを示した。
論文 参考訳(メタデータ) (2024-03-21T21:56:44Z) - PyGim: An Efficient Graph Neural Network Library for Real Processing-In-Memory Architectures [10.047157906258196]
実PIMシステム上でグラフニューラルネットワークを高速化する,効率的なMLライブラリであるPyGimを紹介する。
我々は、計算集約型およびメモリ集約型カーネルをプロセッサ中心およびメモリ中心のシステムで実行するハイブリッドGNN実行を提供する。
我々は、1992年のPIMコアを持つ実世界のPIMシステム上で、新しいGNNモデルを用いてPyGimを広範囲に評価し、Intel Xeonの最先端CPUを平均3.04倍に上回っていることを示す。
論文 参考訳(メタデータ) (2024-02-26T16:52:35Z) - High Performance Computing Applied to Logistic Regression: A CPU and GPU
Implementation Comparison [0.0]
汎用GPUによるロジスティック回帰(LR)の並列バージョンを提案する。
我々の実装は、X. Zouらによって提案された並列なグラディエントDescent Logistic Regressionアルゴリズムの直接変換である。
本手法は,画像認識,スパム検出,不正検出などのリアルタイム予測に特に有用である。
論文 参考訳(メタデータ) (2023-08-19T14:49:37Z) - INR-Arch: A Dataflow Architecture and Compiler for Arbitrary-Order
Gradient Computations in Implicit Neural Representation Processing [66.00729477511219]
計算グラフとして表される関数を考えると、従来のアーキテクチャはn階勾配を効率的に計算する上で困難に直面している。
InR-Archは,n階勾配の計算グラフをハードウェア最適化データフローアーキテクチャに変換するフレームワークである。
1.8-4.8x と 1.5-3.6x の高速化を CPU と GPU のベースラインと比較した結果を示す。
論文 参考訳(メタデータ) (2023-08-11T04:24:39Z) - Enabling Multi-threading in Heterogeneous Quantum-Classical Programming
Models [53.937052213390736]
量子カーネルの並列実行を可能にするために,C++ベースの並列コンストラクトを導入する。
予備的な性能の結果は、カーネル毎に12スレッドのベルカーネルを2回実行し、カーネルを次々に実行する並列性能が向上したことを示している。
論文 参考訳(メタデータ) (2023-01-27T06:48:37Z) - PARTIME: Scalable and Parallel Processing Over Time with Deep Neural
Networks [68.96484488899901]
PartIMEは、データが継続的にストリーミングされるたびにニューラルネットワークを高速化するように設計されたライブラリです。
PartIMEは、ストリームから利用可能になった時点で、各データサンプルの処理を開始する。
オンライン学習において、PartialIMEと古典的な非並列ニューラル計算を経験的に比較するために実験が行われる。
論文 参考訳(メタデータ) (2022-10-17T14:49:14Z) - PyHHMM: A Python Library for Heterogeneous Hidden Markov Models [63.01207205641885]
PyHHMM は Heterogeneous-Hidden Markov Models (HHMM) のオブジェクト指向Python実装である。
PyHHMMは、異種観測モデル、データ推論の欠如、異なるモデルの順序選択基準、半教師付きトレーニングなど、同様のフレームワークではサポートされない機能を強調している。
PyHHMMは、numpy、scipy、scikit-learn、およびシーボーンPythonパッケージに依存しており、Apache-2.0ライセンスの下で配布されている。
論文 参考訳(メタデータ) (2022-01-12T07:32:36Z) - OMB-Py: Python Micro-Benchmarks for Evaluating Performance of MPI
Libraries on HPC Systems [1.066106854070245]
OMB-Pyは並列Pythonアプリケーションのための最初の通信ベンチマークスイートである。
OMB-Pyは様々なポイント・ツー・ポイントと集合的な通信ベンチマークテストから構成される。
逐次実行と比較して,224CPUコア上での最大106倍の高速化を報告した。
論文 参考訳(メタデータ) (2021-10-20T16:59:14Z) - MOGPTK: The Multi-Output Gaussian Process Toolkit [71.08576457371433]
ガウス過程(GP)を用いたマルチチャネルデータモデリングのためのPythonパッケージMOGPTKを提案する。
このツールキットの目的は、研究者、データサイエンティスト、実践者にもMOGP(multi-output GP)モデルを利用できるようにすることである。
論文 参考訳(メタデータ) (2020-02-09T23:34:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。