論文の概要: fVDB: A Deep-Learning Framework for Sparse, Large-Scale, and High-Performance Spatial Intelligence
- arxiv url: http://arxiv.org/abs/2407.01781v1
- Date: Mon, 1 Jul 2024 20:20:33 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-03 19:23:01.134251
- Title: fVDB: A Deep-Learning Framework for Sparse, Large-Scale, and High-Performance Spatial Intelligence
- Title(参考訳): fVDB: スパース、大規模、高性能な空間知能のためのディープラーニングフレームワーク
- Authors: Francis Williams, Jiahui Huang, Jonathan Swartz, Gergely Klár, Vijay Thakkar, Matthew Cong, Xuanchi Ren, Ruilong Li, Clement Fuji-Tsang, Sanja Fidler, Eftychios Sifakis, Ken Museth,
- Abstract要約: fVDBは、大規模な3Dデータのディープラーニングのための新しいフレームワークである。
私たちのフレームワークは、既存のパイプラインとの相互運用性を可能にするPyTorchと完全に統合されています。
- 参考スコア(独自算出の注目度): 50.417261057533786
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present fVDB, a novel GPU-optimized framework for deep learning on large-scale 3D data. fVDB provides a complete set of differentiable primitives to build deep learning architectures for common tasks in 3D learning such as convolution, pooling, attention, ray-tracing, meshing, etc. fVDB simultaneously provides a much larger feature set (primitives and operators) than established frameworks with no loss in efficiency: our operators match or exceed the performance of other frameworks with narrower scope. Furthermore, fVDB can process datasets with much larger footprint and spatial resolution than prior works, while providing a competitive memory footprint on small inputs. To achieve this combination of versatility and performance, fVDB relies on a single novel VDB index grid acceleration structure paired with several key innovations including GPU accelerated sparse grid construction, convolution using tensorcores, fast ray tracing kernels using a Hierarchical Digital Differential Analyzer algorithm (HDDA), and jagged tensors. Our framework is fully integrated with PyTorch enabling interoperability with existing pipelines, and we demonstrate its effectiveness on a number of representative tasks such as large-scale point-cloud segmentation, high resolution 3D generative modeling, unbounded scale Neural Radiance Fields, and large-scale point cloud reconstruction.
- Abstract(参考訳): 大規模3Dデータの深層学習のための新しいGPU最適化フレームワークfVDBを提案する。
fVDBは、畳み込み、プール、注意、レイトレーシング、メッシュなどの3D学習における共通タスクのためのディープラーニングアーキテクチャを構築するための、完全な差別化可能なプリミティブセットを提供する。
fVDBは、既存のフレームワークよりもはるかに大きな機能セット(プリミティブとオペレータ)を同時に提供します。
さらにfVDBは、以前の作業よりもはるかに大きなフットプリントと空間解像度を持つデータセットを処理でき、小さな入力に対して競合するメモリフットプリントを提供する。
この汎用性と性能の組み合わせを実現するため、fVDBはGPUアクセラレーションスパースグリッド構築、テンソルコアを用いた畳み込み、階層型デジタル微分解析アルゴリズム(HDDA)を用いた高速線トレースカーネル、ジャッジテンソルなど、いくつかの重要な革新と組み合わせた単一の新しいVDBインデックスグリッド加速度構造に依存している。
我々のフレームワークは,既存のパイプラインとの相互運用を可能にするPyTorchと完全に統合されており,大規模ポイントクラウドセグメンテーション,高分解能3D生成モデリング,非有界スケールニューラルレージアンスフィールド,大規模ポイントクラウド再構築などの代表的タスクにおいて,その効果を実証している。
関連論文リスト
- N-BVH: Neural ray queries with bounding volume hierarchies [51.430495562430565]
3Dコンピュータグラフィックスでは、シーンのメモリ使用量の大部分がポリゴンとテクスチャによるものである。
N-BVHは3次元の任意の光線クエリに応答するように設計されたニューラル圧縮アーキテクチャである。
本手法は, 視認性, 深度, 外観特性を忠実に近似する。
論文 参考訳(メタデータ) (2024-05-25T13:54:34Z) - Fast Sparse 3D Convolution Network with VDB [2.834312349049142]
スパース3次元データ推論に最適化された新しい畳み込みニューラルネットワークの実装を提案する。
この実装では、データ構造としてNanoVDBを使用してスパーステンソルを格納する。
このアーキテクチャは,高解像度3次元オブジェクト分類ネットワーク上での最先端の高密度CNNモデルよりも約20倍高速であることを示す。
論文 参考訳(メタデータ) (2023-11-05T20:43:46Z) - SpVOS: Efficient Video Object Segmentation with Triple Sparse
Convolution [18.332130780309797]
本研究は,ビデオオブジェクト分割フレームワーク全体の計算コストを削減するために,新しい3重スパース畳み込みを開発した。
DAVISとYoutube-VOSを含む2つの主流VOSデータセットで実験が行われる。
その結果,提案するSpVOSは,他の最先端スパース手法よりも優れた性能を示し,同等の性能を維持していることがわかった。
論文 参考訳(メタデータ) (2023-10-23T17:21:33Z) - BEV-IO: Enhancing Bird's-Eye-View 3D Detection with Instance Occupancy [58.92659367605442]
我々は,BEV表現をインスタンス占有情報で拡張する新しい3次元検出パラダイムであるBEV-IOを提案する。
BEV-IOは、パラメータや計算オーバーヘッドの無視できる増加しか加えず、最先端の手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2023-05-26T11:16:12Z) - HKNAS: Classification of Hyperspectral Imagery Based on Hyper Kernel
Neural Architecture Search [104.45426861115972]
設計したハイパーカーネルを利用して,構造パラメータを直接生成することを提案する。
我々は1次元または3次元の畳み込みを伴う画素レベルの分類と画像レベルの分類を別々に行う3種類のネットワークを得る。
6つの公開データセットに関する一連の実験は、提案手法が最先端の結果を得ることを示した。
論文 参考訳(メタデータ) (2023-04-23T17:27:40Z) - DSVT: Dynamic Sparse Voxel Transformer with Rotated Sets [95.84755169585492]
本研究では,屋外3次元知覚のためのシングルストライドウィンドウベースのボクセルトランスであるDynamic Sparse Voxel Transformer (DSVT)を提案する。
本モデルでは,3次元認識タスクを多岐にわたって行うことにより,最先端の性能を実現する。
論文 参考訳(メタデータ) (2023-01-15T09:31:58Z) - NIO: Lightweight neural operator-based architecture for video frame
interpolation [15.875579519177487]
NIOは、ビデオフレーム・バイ・フレーム学習を実行するための軽量で効率的なニューラル演算子ベースのアーキテクチャである。
我々は、NIOが視覚的に滑らかで正確な結果を生成でき、最先端のアプローチよりもエポックに収束することが示している。
論文 参考訳(メタデータ) (2022-11-19T20:30:47Z) - 3D Point Cloud Registration with Multi-Scale Architecture and
Self-supervised Fine-tuning [5.629161809575013]
MS-SVConvは、2つのシーン間の3D登録のためにポイントクラウドから機能を出力する高速マルチスケールディープニューラルネットワークです。
競合的かつよく知られた3DMatchベンチマークでは,最先端の手法と比較して,大幅な改善が見られた。
我々は,未知のデータセットを自己管理的に微調整し,ETHおよびTUMデータセットの最先端結果をもたらす戦略を提案する。
論文 参考訳(メタデータ) (2021-03-26T15:38:33Z) - Improving Point Cloud Semantic Segmentation by Learning 3D Object
Detection [102.62963605429508]
ポイントクラウドセマンティックセグメンテーションは、自動運転において重要な役割を果たす。
現在の3Dセマンティックセグメンテーションネットワークは、よく表現されたクラスに対して優れた性能を発揮する畳み込みアーキテクチャに焦点を当てている。
Aware 3D Semantic Detection (DASS) フレームワークを提案する。
論文 参考訳(メタデータ) (2020-09-22T14:17:40Z) - Generative Sparse Detection Networks for 3D Single-shot Object Detection [43.91336826079574]
3Dオブジェクト検出は、ロボット工学や拡張現実など多くの有望な分野に適用可能であるため、広く研究されている。
しかし、3Dデータのまばらな性質は、このタスクに固有の課題をもたらしている。
本稿では,完全畳み込み単一ショットスパース検出ネットワークであるGenerative Sparse Detection Network (GSDN)を提案する。
論文 参考訳(メタデータ) (2020-06-22T15:54:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。