論文の概要: Minuet: Accelerating 3D Sparse Convolutions on GPUs
- arxiv url: http://arxiv.org/abs/2401.06145v1
- Date: Fri, 1 Dec 2023 05:09:02 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-22 13:05:20.582051
- Title: Minuet: Accelerating 3D Sparse Convolutions on GPUs
- Title(参考訳): Minuet: GPU上での3Dスパース変換の高速化
- Authors: Jiacheng Yang, Christina Giannoula, Jun Wu, Mostafa Elhoushi, James
Gleeson, Gennady Pekhimenko
- Abstract要約: スパース・コンボリューション(SC)は、本質的にスパースである3Dポイント・クラウドの処理に広く用いられている。
本研究では,従来の最先端のSCエンジンの欠点を分析し,最新のGPUに適した新しいメモリ効率のSCエンジンであるMinuetを提案する。
私たちの評価では、エンド・ツー・エンドのクラウド・ネットワークの実行に対して平均1.74時間(最大22.22時間)で、Minuetは以前のSCエンジンよりも大幅にパフォーマンスが向上している。
- 参考スコア(独自算出の注目度): 9.54287796030519
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Sparse Convolution (SC) is widely used for processing 3D point clouds that
are inherently sparse. Different from dense convolution, SC preserves the
sparsity of the input point cloud by only allowing outputs to specific
locations. To efficiently compute SC, prior SC engines first use hash tables to
build a kernel map that stores the necessary General Matrix Multiplication
(GEMM) operations to be executed (Map step), and then use a Gather-GEMM-Scatter
process to execute these GEMM operations (GMaS step). In this work, we analyze
the shortcomings of prior state-of-the-art SC engines, and propose Minuet, a
novel memory-efficient SC engine tailored for modern GPUs. Minuet proposes to
(i) replace the hash tables used in the Map step with a novel segmented sorting
double-traversed binary search algorithm that highly utilizes the on-chip
memory hierarchy of GPUs, (ii) use a lightweight scheme to autotune the tile
size in the Gather and Scatter operations of the GMaS step, such that to adapt
the execution to the particular characteristics of each SC layer, dataset, and
GPU architecture, and (iii) employ a padding-efficient GEMM grouping approach
that reduces both memory padding and kernel launching overheads. Our
evaluations show that Minuet significantly outperforms prior SC engines by on
average $1.74\times$ (up to $2.22\times$) for end-to-end point cloud network
executions. Our novel segmented sorting double-traversed binary search
algorithm achieves superior speedups by $15.8\times$ on average (up to
$26.8\times$) over prior SC engines in the Map step. The source code of Minuet
is publicly available at https://github.com/UofT-EcoSystem/Minuet.
- Abstract(参考訳): スパース畳み込み(sc)は、本質的にスパースである3dポイントクラウドを処理するために広く使われている。
密度の強い畳み込みとは異なり、SCは特定の場所への出力のみを許すことで入力点雲の間隔を保存する。
SCを効率的に計算するために、以前のSCエンジンはまずハッシュテーブルを使用して、実行すべきGEMM(General Matrix Multiplication)操作を格納するカーネルマップを構築し、その後、Gether-GEMM-Scatterプロセスを使用してこれらのGEMM操作を実行する(GMaSステップ)。
本研究では,従来の最先端のSCエンジンの欠点を分析し,最新のGPUに適した新しいメモリ効率のSCエンジンであるMinuetを提案する。
Minuetが提案する
i) Map ステップで使用されるハッシュテーブルを,GPU のオンチップメモリ階層を高い精度で活用する,新しいセグメント化ソート二重トラバース探索アルゴリズムに置き換える。
2) GMaS ステップの Gather および Scatter 操作において,各 SC 層,データセット,GPU アーキテクチャの特定の特性に実行を適応するように,タイルサイズを自動的に調整する軽量なスキームを使用すること。
(iii) メモリパディングとカーネル起動オーバーヘッドを削減できるパディング効率のよいGEMMグループ化方式を採用する。
当社の評価によると、minuetは、エンドツーエンドのクラウドネットワークの実行に対して平均1.74\times$(最大2.22\times$)で、以前のscエンジンを大きく上回っている。
本アルゴリズムでは,マップステップの以前のSCエンジンよりも平均15.8\times$(最大26.8\times$)の高速化を実現している。
minuetのソースコードはhttps://github.com/uoft-ecosystem/minuetで公開されている。
関連論文リスト
- Breaking the Memory Barrier: Near Infinite Batch Size Scaling for Contrastive Loss [59.835032408496545]
本稿では, コントラスト損失計算を任意の小ブロックに分割するタイルベースの戦略を提案する。
分散システムの階層構造を活用するためのマルチレベルタイリング戦略も導入する。
SOTAメモリ効率のソリューションと比較すると、同等の速度を維持しながら、メモリの2桁の削減を実現している。
論文 参考訳(メタデータ) (2024-10-22T17:59:30Z) - 3DGS-LM: Faster Gaussian-Splatting Optimization with Levenberg-Marquardt [65.25603275491544]
3DGS-LM, 3D Gaussian Splatting(3DGS)の再構築を高速化する新しい手法を提案する。
提案手法は元の3DGSよりも30%高速で, 再現品質の最適化が可能である。
論文 参考訳(メタデータ) (2024-09-19T16:31:44Z) - Quick Adaptive Ternary Segmentation: An Efficient Decoding Procedure For
Hidden Markov Models [70.26374282390401]
ノイズの多い観測から元の信号(すなわち隠れ鎖)を復号することは、ほぼすべてのHMMに基づくデータ分析の主要な目標の1つである。
本稿では,多対数計算複雑性において隠れた列を復号化するための分法であるQuick Adaptive Ternary(QATS)を提案する。
論文 参考訳(メタデータ) (2023-05-29T19:37:48Z) - Rapid Person Re-Identification via Sub-space Consistency Regularization [51.76876061721556]
Person Re-Identification (ReID) は、歩行者を分離したカメラで識別する。
実値特徴記述子を用いた既存のReID法は精度が高いが、ユークリッド距離計算が遅いため効率が低い。
本稿では,ReID 処理を 0.25 倍高速化するサブスペース一貫性規則化 (SCR) アルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-07-13T02:44:05Z) - Discrete Morse Sandwich: Fast Computation of Persistence Diagrams for
Scalar Data -- An Algorithm and A Benchmark [8.648433479399857]
本稿では,d-次元単純複素数 K 上で定義される入力片方向線形スカラー場 f を与えられた永続図計算の効率的なアルゴリズムを提案する。
我々はこのアルゴリズムを離散モース理論の設定内で表現し、考慮すべき入力単純さの数を著しく削減する。
また、この問題に対して「サンドウィッチ」と呼ばれる階層化アプローチを導入する。
論文 参考訳(メタデータ) (2022-06-27T10:54:24Z) - Distributed Out-of-Memory NMF on CPU/GPU Architectures [1.0051474951635875]
本稿では,HPCシステムに対する非負行列分解(NMF)アルゴリズムのメモリ外実装を提案する。
ベンチマークの結果、CPUベースのNMFkよりもGPUを使用した新しい実装により、32Xから76倍のスピードアップが大幅に改善された。
論文 参考訳(メタデータ) (2022-02-19T03:49:21Z) - GPU-accelerated Faster Mean Shift with euclidean distance metrics [1.3507758562554621]
平均シフトアルゴリズムはクラスタリング問題の解法として広く用いられている。
従来の研究では,GPUを高速化する高速平均シフトアルゴリズムが提案されている。
本研究では,ユークリッド距離測定値を扱うために,従来のアルゴリズムを拡張し改良する。
論文 参考訳(メタデータ) (2021-12-27T20:18:24Z) - ASH: A Modern Framework for Parallel Spatial Hashing in 3D Perception [91.24236600199542]
ASHは、GPU上の並列空間ハッシュのためのモダンで高性能なフレームワークである。
ASHはより高いパフォーマンスを実現し、よりリッチな機能をサポートし、より少ないコード行を必要とする。
ASHとそのサンプルアプリケーションはOpen3Dでオープンソース化されている。
論文 参考訳(メタデータ) (2021-10-01T16:25:40Z) - VersaGNN: a Versatile accelerator for Graph neural networks [81.1667080640009]
我々は,超効率的なサイストリックアレイベースの多用途ハードウェアアクセラレータである textitVersaGNN を提案する。
textitVersaGNNは平均3712$times$ speedup with 1301.25$times$ energy reduction on CPU、35.4$times$ speedup with 17.66$times$ energy reduction on GPUを達成している。
論文 参考訳(メタデータ) (2021-05-04T04:10:48Z) - Mind Mappings: Enabling Efficient Algorithm-Accelerator Mapping Space
Search [7.596028906226877]
本稿では,新しいマインドベースの検索空間を提案する。
微分可能な近似を非滑らかな$optimal 写像空間に導出する。
微分可能な近似により、高バウンド効率なアルゴリズムを比較してマインドベースの検索スキームを見つけることができます。
論文 参考訳(メタデータ) (2021-03-02T06:11:58Z) - Faster Mean-shift: GPU-accelerated clustering for cosine embedding-based
cell segmentation and tracking [12.60841328582138]
本稿では,埋め込み型セルセグメンテーションとトラッキングの計算ボトルネックに対処する,高速平均シフトアルゴリズムを提案する。
提案したFaster Mean-shiftアルゴリズムは、最先端の埋め込みベースのセルインスタンスのセグメンテーションとトラッキングアルゴリズムと比較して7~10倍の高速化を実現した。
我々の高速平均シフトアルゴリズムは、メモリ消費を最適化した他のGPUベンチマークと比較して計算速度も高い。
論文 参考訳(メタデータ) (2020-07-28T14:52:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。