Fugu-MT 論文翻訳(概要): Minuet: Accelerating 3D Sparse Convolutions on GPUs

論文の概要: Minuet: Accelerating 3D Sparse Convolutions on GPUs

arxiv url: http://arxiv.org/abs/2401.06145v1
Date: Fri, 1 Dec 2023 05:09:02 GMT
ステータス: 翻訳完了
システム内更新日: 2024-01-22 13:05:20.582051
Title: Minuet: Accelerating 3D Sparse Convolutions on GPUs
Title（参考訳）: Minuet: GPU上での3Dスパース変換の高速化
Authors: Jiacheng Yang, Christina Giannoula, Jun Wu, Mostafa Elhoushi, James Gleeson, Gennady Pekhimenko
Abstract要約: スパース・コンボリューション(SC)は、本質的にスパースである3Dポイント・クラウドの処理に広く用いられている。本研究では,従来の最先端のSCエンジンの欠点を分析し,最新のGPUに適した新しいメモリ効率のSCエンジンであるMinuetを提案する。私たちの評価では、エンド・ツー・エンドのクラウド・ネットワークの実行に対して平均1.74時間(最大22.22時間)で、Minuetは以前のSCエンジンよりも大幅にパフォーマンスが向上している。
参考スコア（独自算出の注目度）: 9.54287796030519
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Sparse Convolution (SC) is widely used for processing 3D point clouds that are inherently sparse. Different from dense convolution, SC preserves the sparsity of the input point cloud by only allowing outputs to specific locations. To efficiently compute SC, prior SC engines first use hash tables to build a kernel map that stores the necessary General Matrix Multiplication (GEMM) operations to be executed (Map step), and then use a Gather-GEMM-Scatter process to execute these GEMM operations (GMaS step). In this work, we analyze the shortcomings of prior state-of-the-art SC engines, and propose Minuet, a novel memory-efficient SC engine tailored for modern GPUs. Minuet proposes to (i) replace the hash tables used in the Map step with a novel segmented sorting double-traversed binary search algorithm that highly utilizes the on-chip memory hierarchy of GPUs, (ii) use a lightweight scheme to autotune the tile size in the Gather and Scatter operations of the GMaS step, such that to adapt the execution to the particular characteristics of each SC layer, dataset, and GPU architecture, and (iii) employ a padding-efficient GEMM grouping approach that reduces both memory padding and kernel launching overheads. Our evaluations show that Minuet significantly outperforms prior SC engines by on average $1.74\times$ (up to $2.22\times$) for end-to-end point cloud network executions. Our novel segmented sorting double-traversed binary search algorithm achieves superior speedups by $15.8\times$ on average (up to $26.8\times$) over prior SC engines in the Map step. The source code of Minuet is publicly available at https://github.com/UofT-EcoSystem/Minuet.
Abstract（参考訳）: スパース畳み込み(sc)は、本質的にスパースである3dポイントクラウドを処理するために広く使われている。密度の強い畳み込みとは異なり、SCは特定の場所への出力のみを許すことで入力点雲の間隔を保存する。 SCを効率的に計算するために、以前のSCエンジンはまずハッシュテーブルを使用して、実行すべきGEMM(General Matrix Multiplication)操作を格納するカーネルマップを構築し、その後、Gether-GEMM-Scatterプロセスを使用してこれらのGEMM操作を実行する(GMaSステップ)。本研究では,従来の最先端のSCエンジンの欠点を分析し,最新のGPUに適した新しいメモリ効率のSCエンジンであるMinuetを提案する。 Minuetが提案する i) Map ステップで使用されるハッシュテーブルを,GPU のオンチップメモリ階層を高い精度で活用する,新しいセグメント化ソート二重トラバース探索アルゴリズムに置き換える。 2) GMaS ステップの Gather および Scatter 操作において,各 SC 層,データセット,GPU アーキテクチャの特定の特性に実行を適応するように,タイルサイズを自動的に調整する軽量なスキームを使用すること。 (iii) メモリパディングとカーネル起動オーバーヘッドを削減できるパディング効率のよいGEMMグループ化方式を採用する。当社の評価によると、minuetは、エンドツーエンドのクラウドネットワークの実行に対して平均1.74\times$(最大2.22\times$)で、以前のscエンジンを大きく上回っている。本アルゴリズムでは,マップステップの以前のSCエンジンよりも平均15.8\times$(最大26.8\times$)の高速化を実現している。 minuetのソースコードはhttps://github.com/uoft-ecosystem/minuetで公開されている。

関連論文リスト

Lightweight 3D Gaussian Splatting Compression via Video Codec [14.735775059942709]
現在のビデオベースGS圧縮法は、3D GSを滑らかな2Dマップに変換するためにParallel Linear Assignment Sorting (PLAS)を使用する。ビデオ(LGSCV)に基づく3D Splatting (GS)圧縮手法を提案する。 MiniPLASは柔軟で高速で、特定のブロックサイズでプリミティブをパーミュレートするように設計されている。
論文参考訳（メタデータ） (2025-12-12T00:27:29Z)
Accelerating Sparse Convolutions in Voxel-Based Point Cloud Networks [0.34304285205574886]
Sparse Convolutionは、自動運転やAR/VRで広く使われている3Dポイントのクラウドネットワークを利用している。 SpCは入力されたボクセル座標、出力座標、ウェイトオフセット間のマッピングを格納するカーネルマップを構築し、次にこのマップを使用して特徴ベクトルを出力座標に計算する。我々の研究はボクセル座標の3つの重要な性質を同定する:それらは整数値であり、限られた空間範囲内で有界であり、同じ物体表面上の幾何学的に連続するボクセルは互いに小さな空間オフセットに存在する可能性が高い。私たちは最初のボクセルプロパタイアウェア、Spiraを設計しました
論文参考訳（メタデータ） (2025-11-25T20:34:37Z)
AIRES: Accelerating Out-of-Core GCNs via Algorithm-System Co-Design [6.554916179445241]
グラフ畳み込みネットワーク(GCN)は、バイオメディカルタンパク質とタンパク質の相互作用(PPI)から大規模レコメンデーションシステムまで、様々な科学的応用において基本的なものである。 GCNのグラフ構造をモデル化するための重要な要素はスパース一般行列行列乗法(SpGEMM)である。 SpGEMMは、リソースに制約のあるシステムにおいて、限られたGPUメモリスペースのために、アウトオブコアで実行されることが多い。本稿では,GCNのアウトオブコア SpGEMM 計算を高速化するアルゴリズム-システム共設計ソリューション AIRES を提案する。
論文参考訳（メタデータ） (2025-07-02T00:35:43Z)
FFT-based Dynamic Subspace Selection for Low-Rank Adaptive Optimization of Large Language Models [49.397861654088636]
低次元空間へのSVD/QRベースの勾配射影を近似する2段階の手順を提案する。当社の戦略はランタイムの高速化とメモリ使用量の削減を,さまざまなモデルサイズで最大25%削減できることが示されています。
論文参考訳（メタデータ） (2025-05-23T14:37:00Z)
Fused3S: Fast Sparse Attention on Tensor Cores [3.6068301267188]
本稿では,テンソルコア利用を最大化し,データ移動を最小化する最初の融合3SアルゴリズムであるFused3Sを紹介する。実世界のグラフデータセット全体にわたって、Fused3S $1.6-16.3times$と1.5-14times$H100とA30 GPUの最先端のスピードアップ。
論文参考訳（メタデータ） (2025-05-12T22:09:05Z)
Breaking the Memory Barrier: Near Infinite Batch Size Scaling for Contrastive Loss [59.835032408496545]
本稿では, コントラスト損失計算を任意の小ブロックに分割するタイルベースの戦略を提案する。分散システムの階層構造を活用するためのマルチレベルタイリング戦略も導入する。 SOTAメモリ効率のソリューションと比較すると、同等の速度を維持しながら、メモリの2桁の削減を実現している。
論文参考訳（メタデータ） (2024-10-22T17:59:30Z)
3DGS-LM: Faster Gaussian-Splatting Optimization with Levenberg-Marquardt [65.25603275491544]
3DGS-LM, 3D Gaussian Splatting(3DGS)の再構築を高速化する新しい手法を提案する。提案手法は元の3DGSよりも30%高速で, 再現品質の最適化が可能である。
論文参考訳（メタデータ） (2024-09-19T16:31:44Z)
Quick Adaptive Ternary Segmentation: An Efficient Decoding Procedure For Hidden Markov Models [70.26374282390401]
ノイズの多い観測から元の信号(すなわち隠れ鎖)を復号することは、ほぼすべてのHMMに基づくデータ分析の主要な目標の1つである。本稿では,多対数計算複雑性において隠れた列を復号化するための分法であるQuick Adaptive Ternary(QATS)を提案する。
論文参考訳（メタデータ） (2023-05-29T19:37:48Z)
Rapid Person Re-Identification via Sub-space Consistency Regularization [51.76876061721556]
Person Re-Identification (ReID) は、歩行者を分離したカメラで識別する。実値特徴記述子を用いた既存のReID法は精度が高いが、ユークリッド距離計算が遅いため効率が低い。本稿では,ReID 処理を 0.25 倍高速化するサブスペース一貫性規則化 (SCR) アルゴリズムを提案する。
論文参考訳（メタデータ） (2022-07-13T02:44:05Z)
Discrete Morse Sandwich: Fast Computation of Persistence Diagrams for Scalar Data -- An Algorithm and A Benchmark [8.648433479399857]
本稿では,d-次元単純複素数 K 上で定義される入力片方向線形スカラー場 f を与えられた永続図計算の効率的なアルゴリズムを提案する。我々はこのアルゴリズムを離散モース理論の設定内で表現し、考慮すべき入力単純さの数を著しく削減する。また、この問題に対して「サンドウィッチ」と呼ばれる階層化アプローチを導入する。
論文参考訳（メタデータ） (2022-06-27T10:54:24Z)
Distributed Out-of-Memory NMF on CPU/GPU Architectures [1.0051474951635875]
本稿では,HPCシステムに対する非負行列分解(NMF)アルゴリズムのメモリ外実装を提案する。ベンチマークの結果、CPUベースのNMFkよりもGPUを使用した新しい実装により、32Xから76倍のスピードアップが大幅に改善された。
論文参考訳（メタデータ） (2022-02-19T03:49:21Z)
GPU-accelerated Faster Mean Shift with euclidean distance metrics [1.3507758562554621]
平均シフトアルゴリズムはクラスタリング問題の解法として広く用いられている。従来の研究では,GPUを高速化する高速平均シフトアルゴリズムが提案されている。本研究では,ユークリッド距離測定値を扱うために,従来のアルゴリズムを拡張し改良する。
論文参考訳（メタデータ） (2021-12-27T20:18:24Z)
ASH: A Modern Framework for Parallel Spatial Hashing in 3D Perception [91.24236600199542]
ASHは、GPU上の並列空間ハッシュのためのモダンで高性能なフレームワークである。 ASHはより高いパフォーマンスを実現し、よりリッチな機能をサポートし、より少ないコード行を必要とする。 ASHとそのサンプルアプリケーションはOpen3Dでオープンソース化されている。
論文参考訳（メタデータ） (2021-10-01T16:25:40Z)
VersaGNN: a Versatile accelerator for Graph neural networks [81.1667080640009]
我々は,超効率的なサイストリックアレイベースの多用途ハードウェアアクセラレータである textitVersaGNN を提案する。 textitVersaGNNは平均3712$times$ speedup with 1301.25$times$ energy reduction on CPU、35.4$times$ speedup with 17.66$times$ energy reduction on GPUを達成している。
論文参考訳（メタデータ） (2021-05-04T04:10:48Z)
Mind Mappings: Enabling Efficient Algorithm-Accelerator Mapping Space Search [7.596028906226877]
本稿では,新しいマインドベースの検索空間を提案する。微分可能な近似を非滑らかな$optimal 写像空間に導出する。微分可能な近似により、高バウンド効率なアルゴリズムを比較してマインドベースの検索スキームを見つけることができます。
論文参考訳（メタデータ） (2021-03-02T06:11:58Z)
Faster Mean-shift: GPU-accelerated clustering for cosine embedding-based cell segmentation and tracking [12.60841328582138]
本稿では,埋め込み型セルセグメンテーションとトラッキングの計算ボトルネックに対処する,高速平均シフトアルゴリズムを提案する。提案したFaster Mean-shiftアルゴリズムは、最先端の埋め込みベースのセルインスタンスのセグメンテーションとトラッキングアルゴリズムと比較して7～10倍の高速化を実現した。我々の高速平均シフトアルゴリズムは、メモリ消費を最適化した他のGPUベンチマークと比較して計算速度も高い。
論文参考訳（メタデータ） (2020-07-28T14:52:51Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。