論文の概要: Flash-SD-KDE: Accelerating SD-KDE with Tensor Cores
- arxiv url: http://arxiv.org/abs/2602.10378v1
- Date: Tue, 10 Feb 2026 23:56:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-12 21:44:01.345022
- Title: Flash-SD-KDE: Accelerating SD-KDE with Tensor Cores
- Title(参考訳): Flash-SD-KDE: テンソルコアによるSD-KDEの高速化
- Authors: Elliot L. Epstein, Rajat Vadiraj Dwaraknath, John Winnicki,
- Abstract要約: SD-KDEを再順序付けして行列乗算構造を公開することで、CoresをGPU実装の高速化に利用できることを示す。
131kクエリで評価された1Mサンプル16次元タスクにおいて、Flash-SD-KDEは1つのGPU上で$ sで完了する。
- 参考スコア(独自算出の注目度): 2.421459418045937
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Score-debiased kernel density estimation (SD-KDE) achieves improved asymptotic convergence rates over classical KDE, but its use of an empirical score has made it significantly slower in practice. We show that by re-ordering the SD-KDE computation to expose matrix-multiplication structure, Tensor Cores can be used to accelerate the GPU implementation. On a 32k-sample 16-dimensional problem, our approach runs up to $47\times$ faster than a strong SD-KDE GPU baseline and $3{,}300\times$ faster than scikit-learn's KDE. On a larger 1M-sample 16-dimensional task evaluated on 131k queries, Flash-SD-KDE completes in $2.3$ s on a single GPU, making score-debiased density estimation practical at previously infeasible scales.
- Abstract(参考訳): スコアデバイアスドカーネル密度推定(SD-KDE)は、古典的KDEよりも漸近収束率の向上を実現するが、経験的スコアの使用により、実際は著しく遅くなっている。
行列乗算構造を公開するためにSD-KDE計算を再順序付けすることで、Tensor CoresをGPU実装の高速化に利用できることを示す。
32kサンプルの16次元問題では、当社のアプローチは強力なSD-KDE GPUベースラインよりも47-times$速く、Scikit-learnのKDEよりも3{,}300-times$速い。
131kクエリで評価された100万サンプルの16次元タスクにおいて、Flash-SD-KDEは1つのGPU上で2.3ドルsで完了する。
関連論文リスト
- SD-KDE: Score-Debiased Kernel Density Estimation [0.0]
本稿では,推定スコア関数をデバイアスカーネル密度推定に利用した新しい密度推定法を提案する。
1D, 2DおよびMNISTにおける合成タスクに関する実験により,提案手法は平均2乗誤差を著しく低減することを示した。
論文 参考訳(メタデータ) (2025-04-27T02:51:30Z) - Transolver++: An Accurate Neural Solver for PDEs on Million-Scale Geometries [67.63077028746191]
Transolver++は、百万のスケールでPDEを解くことができる、非常に並列で効率的なニューラルソルバである。
Transolver++は、シングルGPU入力能力を初めて100万ポイントに拡張する。
数百万スケールの高忠実度産業シミュレーションで20%以上の性能向上を実現している。
論文 参考訳(メタデータ) (2025-02-04T15:33:50Z) - Elucidating the solution space of extended reverse-time SDE for diffusion models [23.637881476921596]
サンプリングプロセスを拡張逆時間SDE(ER SDE)として定式化する。
SDE と VE SDE に対してそれぞれ正確な解と近似解を提供する。
我々は,ER-SDE-rsという効率的な高品質なサンプリング装置を考案した。
論文 参考訳(メタデータ) (2023-09-12T12:27:17Z) - Fast Private Kernel Density Estimation via Locality Sensitive
Quantization [10.227538355037554]
差分プライベートカーネル密度推定(DP-KDE)の効率的なメカニズムについて検討する。
カーネルを$d$の時間線形でプライベートに近似する方法を示し、高次元データに対して実現可能である。
論文 参考訳(メタデータ) (2023-07-04T18:48:04Z) - KDEformer: Accelerating Transformers via Kernel Density Estimation [30.860357184928407]
本稿では,Dot-product attention mechanismの正確な計算方法を提案する。
提案手法は, 精度, メモリ, 実行時間において, 他の注目度よりも優れていることを示す。
T2T-ViTを用いた画像分類では,精度低下が0.5%以下であるのに対して,18時間以上のスピードアップを示す。
論文 参考訳(メタデータ) (2023-02-05T18:23:49Z) - Efficient and Generic 1D Dilated Convolution Layer for Deep Learning [52.899995651639436]
幅広いパラメータをカバーする汎用的な1D畳み込み層の効率的な実装を紹介します。
特にIntel AVX-512とAVX-512 BFloat16命令を含むアーキテクチャ向けに最適化されている。
本稿では,最適化された1次元畳み込み層の性能を,実際のゲノミクスデータセットを用いたエンドツーエンドニューラルネットワークトレーニングで実証する。
論文 参考訳(メタデータ) (2021-04-16T09:54:30Z) - Kernel Stein Generative Modeling [68.03537693810972]
グラディエント・ランゲヴィン・ダイナミクス(SGLD)は高次元および複雑なデータ分布に関するエネルギーモデルによる印象的な結果を示す。
Stein Variational Gradient Descent (SVGD) は、与えられた分布を近似するために一組の粒子を反復的に輸送する決定論的サンプリングアルゴリズムである。
雑音条件付きカーネルSVGD(NCK-SVGD)を提案する。
論文 参考訳(メタデータ) (2020-07-06T21:26:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。