Fugu-MT 論文翻訳(概要): FastGeodis: Fast Generalised Geodesic Distance Transform

論文の概要: FastGeodis: Fast Generalised Geodesic Distance Transform

arxiv url: http://arxiv.org/abs/2208.00001v1
Date: Tue, 26 Jul 2022 15:01:37 GMT
ステータス: 翻訳完了
システム内更新日: 2022-08-07 14:22:23.284512
Title: FastGeodis: Fast Generalised Geodesic Distance Transform
Title（参考訳）: FastGeodis: 高速汎用測地距離変換
Authors: Muhammad Asad, Reuben Dorent, Tom Vercauteren
Abstract要約: FastGeodisパッケージは、測地線とユークリッド距離変換を計算するための効率的な実装を提供する。 Criminisiらによる解析可能なスキャン手法を実装しており、行(2D)や平面(3D)の要素を並列スレッドで計算することができる。このパッケージは2Dデータだけでなく、3Dデータも処理でき、CPUの最大15倍のスピードアップ、GPUの最大60倍のスピードアップを実現している。
参考スコア（独自算出の注目度）: 5.157107268546362
License: http://creativecommons.org/licenses/by/4.0/
Abstract: The FastGeodis package provides an efficient implementation for computing Geodesic and Euclidean distance transforms (or a mixture of both) targeting efficient utilisation of CPU and GPU hardwares. In particular, it implements paralellisable raster scan method from Criminisi et al, where elements in row (2D) or plane (3D) can be computed with parallel threads. This package is able to handle 2D as well as 3D data where it achieves up to 15x speed-up on CPU and up to 60x speed-up on GPU as compared to existing open-source libraries, which uses non-parallelisable single-thread CPU implementation. The performance speed-ups reported here were evaluated using 3D volume data on Nvidia GeForce Titan X (12 GB) with 6-Core Intel Xeon E5-1650 CPU. This package is available at: https://github.com/masadcv/FastGeodis
Abstract（参考訳）: FastGeodisパッケージは、GeodesicとEuclideanの距離変換(または両者の混合)を計算するための効率的な実装を提供する。特に、criminisiらによるparalellisable raster scanメソッドを実装しており、行(2d)またはプレーン(3d)の要素を並列スレッドで計算することができる。このパッケージは2Dデータだけでなく、CPU上で最大15倍のスピードアップ、GPU上で最大60倍のスピードアップを達成する3Dデータも処理できる。 6コアのIntel Xeon E5-1650 CPUを搭載したNvidia GeForce Titan X(12GB)の3Dボリュームデータを用いて、ここで報告したパフォーマンス速度を評価した。このパッケージはhttps://github.com/masadcv/fastgeodisで入手できる。

関連論文リスト

TSP3D: Text-guided Sparse Voxel Pruning for Efficient 3D Visual Grounding [74.033589504806]
視覚的グラウンド化のための効率的なマルチレベル畳み込みアーキテクチャを提案する。提案手法はトップ推論速度を達成し,従来の最速の手法を100% FPS で上回っている。
論文参考訳（メタデータ） (2025-02-14T18:59:59Z)
TorchSparse++: Efficient Training and Inference Framework for Sparse Convolution on GPUs [20.4238781638402]
スパース畳み込みは、AR/VRにおけるポイントクラウド処理、自動運転、レコメンデーションシステムにおけるグラフ理解など、新興ワークロードにおいて重要な役割を果たす。既存のGPUライブラリはスパース畳み込みのための2つのデータフロー型を提供する。 TorchSparse++は、両方の世界のベストを達成するための新しいGPUライブラリです。
論文参考訳（メタデータ） (2023-10-25T21:02:38Z)
INR-Arch: A Dataflow Architecture and Compiler for Arbitrary-Order Gradient Computations in Implicit Neural Representation Processing [66.00729477511219]
計算グラフとして表される関数を考えると、従来のアーキテクチャはn階勾配を効率的に計算する上で困難に直面している。 InR-Archは,n階勾配の計算グラフをハードウェア最適化データフローアーキテクチャに変換するフレームワークである。 1.8-4.8x と 1.5-3.6x の高速化を CPU と GPU のベースラインと比較した結果を示す。
論文参考訳（メタデータ） (2023-08-11T04:24:39Z)
Accelerating Barnes-Hut t-SNE Algorithm by Efficient Parallelization on Multi-Core CPUs [59.18990342943095]
t-SNEは高次元データを視覚化するための最も一般的な埋め込み技術の一つである。 BH t-SNEアルゴリズムは既存のCPU実装では非効率である。 Acc-t-SNEはScikit-learnよりも最大261倍、4倍高速で、daal4pyの最先端のBH t-SNE実装である。
論文参考訳（メタデータ） (2022-12-22T06:38:40Z)
Large-displacement 3D Object Tracking with Hybrid Non-local Optimization [4.224729914215171]
高速で効率的な非局所的な3Dトラッキング手法を提案する。大きな変位では精度が大幅に向上する。提案手法は, 小型および大型の変位に対して, 従来手法よりも優れた性能を示す。
論文参考訳（メタデータ） (2022-07-26T02:51:11Z)
Optimizing Data Collection in Deep Reinforcement Learning [4.9709347068704455]
GPUベクタライゼーションは、一般的に使用されるCPUシミュレータよりも最大1024タイムでスピードアップできる。シミュレーションの複雑さがメモリ帯域幅の要求で増大するにつれて、シミュレーターカーネルの核融合の高速化は11.3Times$となり、最大1024times$に増加することを示す。
論文参考訳（メタデータ） (2022-07-15T20:22:31Z)
PLSSVM: A (multi-)GPGPU-accelerated Least Squares Support Vector Machine [68.8204255655161]
Support Vector Machines (SVM) は機械学習で広く使われている。しかし、現代的で最適化された実装でさえ、最先端ハードウェア上の大きな非自明な高密度データセットにはうまくスケールしない。 PLSSVMはLVMのドロップイン代替として使用できる。
論文参考訳（メタデータ） (2022-02-25T13:24:23Z)
GPU optimization of the 3D Scale-invariant Feature Transform Algorithm and a Novel BRIEF-inspired 3D Fast Descriptor [5.1537294207900715]
本研究は,大規模な医用画像データからの機械学習を目的として,SIFTアルゴリズムの高効率実装について述べる。 3D SIFTコードの主要な操作は、畳み込み、サブサンプリング、スケールスペースピラミッドからの4Dピーク検出を含むグラフィックス処理ユニット(GPU)上に実装されている。パフォーマンス改善は、異なる人の3D MRI人間の脳量を用いて、キーポイント検出と画像と画像のマッチング実験で定量化される。
論文参考訳（メタデータ） (2021-12-19T20:56:40Z)
Efficient and Generic 1D Dilated Convolution Layer for Deep Learning [52.899995651639436]
幅広いパラメータをカバーする汎用的な1D畳み込み層の効率的な実装を紹介します。特にIntel AVX-512とAVX-512 BFloat16命令を含むアーキテクチャ向けに最適化されている。本稿では,最適化された1次元畳み込み層の性能を,実際のゲノミクスデータセットを用いたエンドツーエンドニューラルネットワークトレーニングで実証する。
論文参考訳（メタデータ） (2021-04-16T09:54:30Z)
DistGNN: Scalable Distributed Training for Large-Scale Graph Neural Networks [58.48833325238537]
大規模グラフの構造を学ぶためにGNN(Graph Neural Networks)のフルバッチトレーニングは、実現可能な数百の計算ノードにスケールする必要がある重要な問題です。本稿では,CPUクラスタ上でのフルバッチトレーニングのためのDGL(Deep Graph Library)を最適化したGNNについて述べる。 4つの一般的なGNNベンチマークデータセットの結果は、1つのCPUソケットを使用して最大3.7倍のスピードアップ、128のCPUソケットを使用して最大97倍のスピードアップを示す。
論文参考訳（メタデータ） (2021-04-14T08:46:35Z)
Accelerating Translational Image Registration for HDR Images on GPU [2.578242050187029]
シーンの複数の露出を用いてハイダイナミックレンジ画像を生成する。画像は、両方の次元で各イメージをグローバルにシフトすることで整列する必要がある。本研究では,GPUを用いた並列処理手法を用いて,これらの計算を最適化する。
論文参考訳（メタデータ） (2020-07-13T16:34:05Z)
TFApprox: Towards a Fast Emulation of DNN Approximate Hardware Accelerators on GPU [0.4817429789586127]
近似演算回路を導入することにより、ディープニューラルネットワーク(DNN)のハードウェアアクセラレータのエネルギー効率を向上させることができる。 DNNアクセラレータのソフトウェアエミュレーションは通常、CPUまたはGPU上で実行される。このエミュレーションは通常、ソフトウェアDNN実装のエミュレーションよりも2～3桁遅い。
論文参考訳（メタデータ） (2020-02-21T08:22:56Z)
Efficient Video Semantic Segmentation with Labels Propagation and Refinement [138.55845680523908]
本稿では,ハイブリッドGPU/CPUを用いた高精細ビデオのリアルタイムセマンティックセマンティックセマンティック化の問題に取り組む。 i) CPU上では、非常に高速な光フロー法であり、ビデオの時間的側面を利用して、あるフレームから次のフレームへ意味情報を伝達するために使用される。高解像度フレーム(2048 x 1024)を持つ一般的なCityscapesデータセットでは、単一のGPUとCPU上で80から1000Hzの動作ポイントが提案されている。
論文参考訳（メタデータ） (2019-12-26T11:45:15Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。