論文の概要: FastGeodis: Fast Generalised Geodesic Distance Transform
- arxiv url: http://arxiv.org/abs/2208.00001v1
- Date: Tue, 26 Jul 2022 15:01:37 GMT
- ステータス: 処理完了
- システム内更新日: 2022-08-07 14:22:23.284512
- Title: FastGeodis: Fast Generalised Geodesic Distance Transform
- Title(参考訳): FastGeodis: 高速汎用測地距離変換
- Authors: Muhammad Asad, Reuben Dorent, Tom Vercauteren
- Abstract要約: FastGeodisパッケージは、測地線とユークリッド距離変換を計算するための効率的な実装を提供する。
Criminisiらによる解析可能なスキャン手法を実装しており、行(2D)や平面(3D)の要素を並列スレッドで計算することができる。
このパッケージは2Dデータだけでなく、3Dデータも処理でき、CPUの最大15倍のスピードアップ、GPUの最大60倍のスピードアップを実現している。
- 参考スコア(独自算出の注目度): 5.157107268546362
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The FastGeodis package provides an efficient implementation for computing
Geodesic and Euclidean distance transforms (or a mixture of both) targeting
efficient utilisation of CPU and GPU hardwares. In particular, it implements
paralellisable raster scan method from Criminisi et al, where elements in row
(2D) or plane (3D) can be computed with parallel threads. This package is able
to handle 2D as well as 3D data where it achieves up to 15x speed-up on CPU and
up to 60x speed-up on GPU as compared to existing open-source libraries, which
uses non-parallelisable single-thread CPU implementation. The performance
speed-ups reported here were evaluated using 3D volume data on Nvidia GeForce
Titan X (12 GB) with 6-Core Intel Xeon E5-1650 CPU. This package is available
at: https://github.com/masadcv/FastGeodis
- Abstract(参考訳): FastGeodisパッケージは、GeodesicとEuclideanの距離変換(または両者の混合)を計算するための効率的な実装を提供する。
特に、criminisiらによるparalellisable raster scanメソッドを実装しており、行(2d)またはプレーン(3d)の要素を並列スレッドで計算することができる。
このパッケージは2Dデータだけでなく、CPU上で最大15倍のスピードアップ、GPU上で最大60倍のスピードアップを達成する3Dデータも処理できる。
6コアのIntel Xeon E5-1650 CPUを搭載したNvidia GeForce Titan X(12GB)の3Dボリュームデータを用いて、ここで報告したパフォーマンス速度を評価した。
このパッケージはhttps://github.com/masadcv/fastgeodisで入手できる。
関連論文リスト
- TorchSparse++: Efficient Training and Inference Framework for Sparse
Convolution on GPUs [20.4238781638402]
スパース畳み込みは、AR/VRにおけるポイントクラウド処理、自動運転、レコメンデーションシステムにおけるグラフ理解など、新興ワークロードにおいて重要な役割を果たす。
既存のGPUライブラリはスパース畳み込みのための2つのデータフロー型を提供する。
TorchSparse++は、両方の世界のベストを達成するための新しいGPUライブラリです。
論文 参考訳(メタデータ) (2023-10-25T21:02:38Z) - INR-Arch: A Dataflow Architecture and Compiler for Arbitrary-Order
Gradient Computations in Implicit Neural Representation Processing [66.00729477511219]
計算グラフとして表される関数を考えると、従来のアーキテクチャはn階勾配を効率的に計算する上で困難に直面している。
InR-Archは,n階勾配の計算グラフをハードウェア最適化データフローアーキテクチャに変換するフレームワークである。
1.8-4.8x と 1.5-3.6x の高速化を CPU と GPU のベースラインと比較した結果を示す。
論文 参考訳(メタデータ) (2023-08-11T04:24:39Z) - Accelerating Barnes-Hut t-SNE Algorithm by Efficient Parallelization on
Multi-Core CPUs [59.18990342943095]
t-SNEは高次元データを視覚化するための最も一般的な埋め込み技術の一つである。
BH t-SNEアルゴリズムは既存のCPU実装では非効率である。
Acc-t-SNEはScikit-learnよりも最大261倍、4倍高速で、daal4pyの最先端のBH t-SNE実装である。
論文 参考訳(メタデータ) (2022-12-22T06:38:40Z) - Large-displacement 3D Object Tracking with Hybrid Non-local Optimization [4.224729914215171]
高速で効率的な非局所的な3Dトラッキング手法を提案する。
大きな変位では精度が大幅に向上する。
提案手法は, 小型および大型の変位に対して, 従来手法よりも優れた性能を示す。
論文 参考訳(メタデータ) (2022-07-26T02:51:11Z) - Optimizing Data Collection in Deep Reinforcement Learning [4.9709347068704455]
GPUベクタライゼーションは、一般的に使用されるCPUシミュレータよりも最大1024タイムでスピードアップできる。
シミュレーションの複雑さがメモリ帯域幅の要求で増大するにつれて、シミュレーターカーネルの核融合の高速化は11.3Times$となり、最大1024times$に増加することを示す。
論文 参考訳(メタデータ) (2022-07-15T20:22:31Z) - PLSSVM: A (multi-)GPGPU-accelerated Least Squares Support Vector Machine [68.8204255655161]
Support Vector Machines (SVM) は機械学習で広く使われている。
しかし、現代的で最適化された実装でさえ、最先端ハードウェア上の大きな非自明な高密度データセットにはうまくスケールしない。
PLSSVMはLVMのドロップイン代替として使用できる。
論文 参考訳(メタデータ) (2022-02-25T13:24:23Z) - GPU optimization of the 3D Scale-invariant Feature Transform Algorithm
and a Novel BRIEF-inspired 3D Fast Descriptor [5.1537294207900715]
本研究は,大規模な医用画像データからの機械学習を目的として,SIFTアルゴリズムの高効率実装について述べる。
3D SIFTコードの主要な操作は、畳み込み、サブサンプリング、スケールスペースピラミッドからの4Dピーク検出を含むグラフィックス処理ユニット(GPU)上に実装されている。
パフォーマンス改善は、異なる人の3D MRI人間の脳量を用いて、キーポイント検出と画像と画像のマッチング実験で定量化される。
論文 参考訳(メタデータ) (2021-12-19T20:56:40Z) - Efficient and Generic 1D Dilated Convolution Layer for Deep Learning [52.899995651639436]
幅広いパラメータをカバーする汎用的な1D畳み込み層の効率的な実装を紹介します。
特にIntel AVX-512とAVX-512 BFloat16命令を含むアーキテクチャ向けに最適化されている。
本稿では,最適化された1次元畳み込み層の性能を,実際のゲノミクスデータセットを用いたエンドツーエンドニューラルネットワークトレーニングで実証する。
論文 参考訳(メタデータ) (2021-04-16T09:54:30Z) - DistGNN: Scalable Distributed Training for Large-Scale Graph Neural
Networks [58.48833325238537]
大規模グラフの構造を学ぶためにGNN(Graph Neural Networks)のフルバッチトレーニングは、実現可能な数百の計算ノードにスケールする必要がある重要な問題です。
本稿では,CPUクラスタ上でのフルバッチトレーニングのためのDGL(Deep Graph Library)を最適化したGNNについて述べる。
4つの一般的なGNNベンチマークデータセットの結果は、1つのCPUソケットを使用して最大3.7倍のスピードアップ、128のCPUソケットを使用して最大97倍のスピードアップを示す。
論文 参考訳(メタデータ) (2021-04-14T08:46:35Z) - TFApprox: Towards a Fast Emulation of DNN Approximate Hardware
Accelerators on GPU [0.4817429789586127]
近似演算回路を導入することにより、ディープニューラルネットワーク(DNN)のハードウェアアクセラレータのエネルギー効率を向上させることができる。
DNNアクセラレータのソフトウェアエミュレーションは通常、CPUまたはGPU上で実行される。
このエミュレーションは通常、ソフトウェアDNN実装のエミュレーションよりも2~3桁遅い。
論文 参考訳(メタデータ) (2020-02-21T08:22:56Z) - Efficient Video Semantic Segmentation with Labels Propagation and
Refinement [138.55845680523908]
本稿では,ハイブリッドGPU/CPUを用いた高精細ビデオのリアルタイムセマンティックセマンティックセマンティック化の問題に取り組む。
i) CPU上では、非常に高速な光フロー法であり、ビデオの時間的側面を利用して、あるフレームから次のフレームへ意味情報を伝達するために使用される。
高解像度フレーム(2048 x 1024)を持つ一般的なCityscapesデータセットでは、単一のGPUとCPU上で80から1000Hzの動作ポイントが提案されている。
論文 参考訳(メタデータ) (2019-12-26T11:45:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。