論文の概要: Lightweight Gaussian Process Inference in C++ on Metal and CUDA
- arxiv url: http://arxiv.org/abs/2605.17898v1
- Date: Mon, 18 May 2026 06:03:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-19 17:57:48.906142
- Title: Lightweight Gaussian Process Inference in C++ on Metal and CUDA
- Title(参考訳): 金属およびCUDA上のC++における軽量ガウス過程推論
- Authors: Yu-Hsueh Fang,
- Abstract要約: Pythonのガウスプロセス(GP)推論はGPyTorchやGPflowなどのライブラリが支配している。
我々は,Pythonバインディングを用いたGPレグレッションのための依存性のないC17ライブラリLightGPを紹介する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Gaussian process (GP) inference in Python is dominated by libraries such as GPyTorch and GPflow, which are built on deep-learning frameworks and inherit their dispatch overhead and dependency footprint. We present LightGP, a dependency-free C++17 library for GP regression with Python bindings, supporting Apple Metal and NVIDIA CUDA backends alongside tuned CPU paths via Apple Accelerate and OpenBLAS. LightGP provides four inference paths -- exact Cholesky, matrix-free conjugate gradients, sparse variational free energy, and structured kernel interpolation with FFT -- covering problems from $N{=}100$ to $N{=}500{,}000$. On an Apple M4, LightGP CPU is 2.6--8.7$\times$ faster than GPyTorch CPU for exact GP and ${\sim}1.5\times$ faster for sparse GP at every scale tested. On an NVIDIA RTX~3060, LightGP CUDA is 2.3--6.7$\times$ faster than GPyTorch CUDA for exact GP up to $N{=}2{,}048$, with GPyTorch closing the gap at $N{=}4{,}096$. A fused matrix-free kernel-vector product on Metal achieves 32$\times$ over the explicit path at $N{=}20{,}000$ with $O(N)$ memory, and an FFT-accelerated SKI matvec via Accelerate vDSP runs in sub-millisecond time at $N{=}200{,}000$. LightGP compiles as a single static library with zero external dependencies and is installable via \texttt{pip install lightgp
- Abstract(参考訳): Pythonのガウスプロセス(GP)推論は、ディープラーニングフレームワーク上に構築され、ディスパッチオーバーヘッドと依存性フットプリントを継承するGPyTorchやGPflowといったライブラリによって支配されている。
We present LightGP, a dependency-free C++17 library for GP regression with Python bindings, supporting Apple Metal and NVIDIA CUDA backends with tuned CPU paths via Apple Accelerate and OpenBLAS。
LightGPは4つの推論パス – 正確なCholesky、行列なし共役勾配、スパース変動自由エネルギー、FFTによる構造化カーネル補間 -- を提供し、N{=}100$から$N{=}500{,}000$までの問題をカバーする。
NVIDIA RTX~3060では、LightGP CUDAはGPyTorch CUDAよりも2.3--6.7$\times$で、正確なGPは$N{=}2{,}048$、GPyTorchは$N{=}4{,}096$である。
Metal上の融合行列フリーカーネルベクトル製品は、$N{=}20{,}000$と$O(N)$メモリの明示パスで32$\times$を達成し、Accelerate vDSPによるFFT加速SKI matvecは$N{=}200{,}000$でミリ秒以下の時間で実行される。
LightGPは、外部依存のない単一の静的ライブラリとしてコンパイルされ、 \texttt{pip install lightgpを介してインストールできる。
関連論文リスト
- A User's Guide to $\texttt{KSig}$: GPU-Accelerated Computation of the Signature Kernel [12.111848705677138]
シグネチャカーネルは、シーケンシャルおよびテンポラルデータのための正定カーネルである。
この章では、署名カーネルを演算するためのGPUアクセラレーションアルゴリズムを実装した、$textttKSig$、$textttScikit-Learn$互換Pythonパッケージについて短い紹介を行う。
論文 参考訳(メタデータ) (2025-01-13T09:11:13Z) - Log-Linear-Time Gaussian Processes Using Binary Tree Kernels [26.526204269075766]
我々は,$O((n+m)log(n+m))$ timeでガウス過程の回帰を可能にする新しいカーネルを提案する。
我々の"バイナリツリー"カーネルは、すべてのデータをバイナリツリーの葉に配置し、カーネルは最も深い共通の祖先の深さにのみ依存します。
大規模なデータセットでは、二分木GPはマタンGPよりも高速で、はるかに高速である。
論文 参考訳(メタデータ) (2022-10-04T14:30:06Z) - Optimal Gradient Sliding and its Application to Distributed Optimization
Under Similarity [121.83085611327654]
積 $r:=p + q$, ここで$r$は$mu$-strong convex類似性である。
エージェントの通信やローカルコールにマスターされた問題を解決する方法を提案する。
提案手法は$mathcalO(sqrtL_q/mu)$法よりもはるかにシャープである。
論文 参考訳(メタデータ) (2022-05-30T14:28:02Z) - Fast Graph Sampling for Short Video Summarization using Gershgorin Disc
Alignment [52.577757919003844]
高速グラフサンプリングの最近の進歩を利用して,短い動画を複数の段落に効率よく要約する問題について検討する。
実験結果から,本アルゴリズムは最先端の手法と同等の映像要約を実現し,複雑さを大幅に低減した。
論文 参考訳(メタデータ) (2021-10-21T18:43:00Z) - Accelerating Genetic Programming using GPUs [0.0]
遺伝的プログラミング(GP)は、曲線フィッティング、データモデリング、特徴選択、分類など、機械学習に複数の応用がある。
本稿では,代用GPアルゴリズムのGPUアクセラレーションスタックに基づく変種について述べる。
論文 参考訳(メタデータ) (2021-10-15T06:13:01Z) - Gaussian Process Bandit Optimization with Few Batches [49.896920704012395]
有限腕バンディットアルゴリズムにインスパイアされたバッチアルゴリズムを導入する。
O(log T)$ batches in time horizon $T$.sqrtTgamma_T)$ using $O(log T)$ batches in time horizon。
さらに,アルゴリズムの修正版を提案し,バッチ数によって後悔がどう影響するかを特徴付ける。
論文 参考訳(メタデータ) (2021-10-15T00:54:04Z) - Accelerated Gradient Tracking over Time-varying Graphs for Decentralized Optimization [59.65871549878937]
実用的な単一ループ加速勾配追跡には$O(fracgamma1-sigma_gamma)2sqrtfracLepsilon)$が必要であることを証明している。
我々の収束率は$O(frac1epsilon5/7)$と$O(fracLmu)5/7frac1(1-sigma)1.5logfrac1epsilon)$よりも大幅に改善した。
論文 参考訳(メタデータ) (2021-04-06T15:34:14Z) - Kernel Operations on the GPU, with Autodiff, without Memory Overflows [5.669790037378094]
KeOpsライブラリは、数学的公式によってエントリが与えられるテンソルに対して、高速でメモリ効率のよいGPUサポートを提供する。
KeOpsは、カーネルおよび幾何学的アプリケーションのためのテンソル中心ライブラリの大きなボトルネックであるメモリ消費を緩和する。
KeOpsは、最適化されたC++/CUDAスキームと、Python(NumpyとPyTorch)、Matlab、Rのバインダーを組み合わせる。
論文 参考訳(メタデータ) (2020-03-27T08:54:10Z) - MOGPTK: The Multi-Output Gaussian Process Toolkit [71.08576457371433]
ガウス過程(GP)を用いたマルチチャネルデータモデリングのためのPythonパッケージMOGPTKを提案する。
このツールキットの目的は、研究者、データサイエンティスト、実践者にもMOGP(multi-output GP)モデルを利用できるようにすることである。
論文 参考訳(メタデータ) (2020-02-09T23:34:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。