論文の概要: Scalable GPU-Accelerated Euler Characteristic Curves: Optimization and Differentiable Learning for PyTorch
- arxiv url: http://arxiv.org/abs/2510.20271v1
- Date: Thu, 23 Oct 2025 06:59:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-25 03:08:17.459814
- Title: Scalable GPU-Accelerated Euler Characteristic Curves: Optimization and Differentiable Learning for PyTorch
- Title(参考訳): スケーラブルGPU加速型オイラー特性曲線:PyTorchの最適化と微分学習
- Authors: Udit Saxena,
- Abstract要約: 我々は,Euler Characteristics Curve(ECC)向けに最適化されたGPUカーネルを提案し,合成グリッド上でのGPU実装よりも16-2000"Oの高速化を実現した。
エンドツーエンドの学習を可能にする差別化可能なPyTorch層を導入する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Topological features capture global geometric structure in imaging data, but practical adoption in deep learning requires both computational efficiency and differentiability. We present optimized GPU kernels for the Euler Characteristic Curve (ECC) computation achieving 16-2000\"O speedups over prior GPU implementations on synthetic grids, and introduce a differentiable PyTorch layer enabling end-to-end learning. Our CUDA kernels, optimized for Ampere GPUs use 128B-coalesced access and hierarchical shared-memory accumulation. Our PyTorch layer learns thresholds in a single direction via a Differentiable Euler Characteristic Transform-style sigmoid relaxation. We discuss downstream relevance, including applications highlighted by prior ECC work, and outline batching/multi-GPU extensions to broaden adoption.
- Abstract(参考訳): トポロジカルな特徴は画像データのグローバルな幾何学的構造を捉えるが、ディープラーニングの実践には計算効率と微分可能性の両方が必要である。
我々は,Euler Characteristics Curve(ECC)計算のために最適化されたGPUカーネルを合成グリッド上でのGPU実装よりも16-2000\"Oの高速化を実現し,エンド・ツー・エンドの学習を可能にするPyTorch層を導入している。
Ampere GPU向けに最適化されたCUDAカーネルは、128BのCoalescedアクセスと階層的な共有メモリ蓄積を使用する。
我々のPyTorch層は、微分可能なオイラー特性変換型シグモイド緩和により、一方向の閾値を学習する。
我々は、前回のECC作業で強調されたアプリケーションを含む下流の関連性について議論し、採用を広げるためにバッチ/マルチGPU拡張の概要を述べる。
関連論文リスト
- A User's Guide to $\texttt{KSig}$: GPU-Accelerated Computation of the Signature Kernel [12.111848705677138]
シグネチャカーネルは、シーケンシャルおよびテンポラルデータのための正定カーネルである。
この章では、署名カーネルを演算するためのGPUアクセラレーションアルゴリズムを実装した、$textttKSig$、$textttScikit-Learn$互換Pythonパッケージについて短い紹介を行う。
論文 参考訳(メタデータ) (2025-01-13T09:11:13Z) - Fully-fused Multi-Layer Perceptrons on Intel Data Center GPUs [3.7101665559244874]
本稿では,Intel Data Center GPU Max 1550用のMulti-formedLayer Perceptrons(MLP)の実装について述べる。
これにより算術強度が大幅に向上し,特に推論性能が向上することを示す。
論文 参考訳(メタデータ) (2024-03-26T11:38:39Z) - Accelerating Machine Learning Primitives on Commodity Hardware [0.0]
本稿では,Deep Neural Networks (DNN) における一般行列乗算 (GEMM) に基づく畳み込みよりも効率的な代替手段として,スライディングウィンドウ畳み込み手法について広範な研究を行う。
この結果から,Sliding Window 計算カーネルは CPU 上でも専用ハードウェアアクセラレータ上でも GEMM ベースの畳み込みよりも優れていることが示唆された。
これにより、特別なハードウェアを必要とせずに、低消費電力および低メモリデバイスにAIが広く採用される可能性がある。
論文 参考訳(メタデータ) (2023-10-08T16:26:18Z) - GloptiNets: Scalable Non-Convex Optimization with Certificates [61.50835040805378]
本稿では,ハイパーキューブやトーラス上のスムーズな関数を扱う証明書を用いた非キューブ最適化手法を提案する。
スペクトルの減衰に固有の対象関数の正則性を活用することにより、正確な証明を取得し、高度で強力なニューラルネットワークを活用することができる。
論文 参考訳(メタデータ) (2023-06-26T09:42:59Z) - ParaGraph: Weighted Graph Representation for Performance Optimization of
HPC Kernels [1.304892050913381]
抽象構文木を拡張した並列アプリケーションのためのグラフベースの新しいプログラム表現を提案する。
提案した表現は,OpenMPコード領域のランタイムを予測するために,グラフニューラルネットワーク(GNN)をトレーニングすることで評価する。
その結果,本手法は実効性があり,実行時予測では 0.004 から 0.01 に RMSE を正規化していることがわかった。
論文 参考訳(メタデータ) (2023-04-07T05:52:59Z) - Efficient Graph Field Integrators Meet Point Clouds [59.27295475120132]
点雲を符号化するグラフ上での効率的な場積分のためのアルゴリズムを2種類提案する。
第1のクラスであるSeparatorFactorization(SF)は、ポイントメッシュグラフの有界属を利用するが、第2のクラスであるRFDiffusion(RFD)は、ポイントクラウドの一般的なepsilon-nearest-neighborグラフ表現を使用する。
論文 参考訳(メタデータ) (2023-02-02T08:33:36Z) - Efficient Dataset Distillation Using Random Feature Approximation [109.07737733329019]
本稿では,ニューラルネットワークガウス過程(NNGP)カーネルのランダム特徴近似(RFA)を用いた新しいアルゴリズムを提案する。
我々のアルゴリズムは、KIP上で少なくとも100倍のスピードアップを提供し、1つのGPUで実行できる。
RFA蒸留 (RFAD) と呼ばれる本手法は, 大規模データセットの精度において, KIP や他のデータセット凝縮アルゴリズムと競合して動作する。
論文 参考訳(メタデータ) (2022-10-21T15:56:13Z) - Accelerating Genetic Programming using GPUs [0.0]
遺伝的プログラミング(GP)は、曲線フィッティング、データモデリング、特徴選択、分類など、機械学習に複数の応用がある。
本稿では,代用GPアルゴリズムのGPUアクセラレーションスタックに基づく変種について述べる。
論文 参考訳(メタデータ) (2021-10-15T06:13:01Z) - Adaptive Elastic Training for Sparse Deep Learning on Heterogeneous
Multi-GPU Servers [65.60007071024629]
本稿では,Adaptive SGDが4つの最先端ソリューションよりも精度が高いことを示す。
本稿では,Adaptive SGDが時間と精度で4つの最先端ソリューションより優れていることを示す。
論文 参考訳(メタデータ) (2021-10-13T20:58:15Z) - Efficient and Generic 1D Dilated Convolution Layer for Deep Learning [52.899995651639436]
幅広いパラメータをカバーする汎用的な1D畳み込み層の効率的な実装を紹介します。
特にIntel AVX-512とAVX-512 BFloat16命令を含むアーキテクチャ向けに最適化されている。
本稿では,最適化された1次元畳み込み層の性能を,実際のゲノミクスデータセットを用いたエンドツーエンドニューラルネットワークトレーニングで実証する。
論文 参考訳(メタデータ) (2021-04-16T09:54:30Z) - Kernel methods through the roof: handling billions of points efficiently [94.31450736250918]
カーネル法は、非パラメトリック学習に対するエレガントで原則化されたアプローチを提供するが、今のところ大規模な問題ではほとんど利用できない。
最近の進歩は、最適化、数値線形代数、ランダム射影など、多くのアルゴリズム的アイデアの利点を示している。
ここでは、これらの取り組みをさらに進めて、GPUハードウェアを最大限に活用する解決器を開発し、テストする。
論文 参考訳(メタデータ) (2020-06-18T08:16:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。