論文の概要: FractalCloud: A Fractal-Inspired Architecture for Efficient Large-Scale Point Cloud Processing
- arxiv url: http://arxiv.org/abs/2511.07665v1
- Date: Wed, 12 Nov 2025 01:10:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-12 20:17:03.417102
- Title: FractalCloud: A Fractal-Inspired Architecture for Efficient Large-Scale Point Cloud Processing
- Title(参考訳): FractalCloud: 大規模クラウド処理を効率的にするためのフラクタルインスパイアされたアーキテクチャ
- Authors: Yuzhe Fu, Changchun Zhou, Hancheng Ye, Bowen Duan, Qiyu Huang, Chiyue Wei, Cong Guo, Hai "Helen'' Li, Yiran Chen,
- Abstract要約: 自律運転、ロボティクス、仮想現実(VR)などのアプリケーションでは、三次元(3D)ポイントクラウドがますます利用されている
ポイントベースニューラルネットワーク(PNN)は、ポイントクラウド分析において強力な性能を示しており、当初は小規模入力をターゲットとしていた。
FractalCloudはフラクタルにインスパイアされたハードウェアアーキテクチャで、大規模な3Dポイントのクラウド処理を効率的に行う。
- 参考スコア(独自算出の注目度): 13.217596969807062
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Three-dimensional (3D) point clouds are increasingly used in applications such as autonomous driving, robotics, and virtual reality (VR). Point-based neural networks (PNNs) have demonstrated strong performance in point cloud analysis, originally targeting small-scale inputs. However, as PNNs evolve to process large-scale point clouds with hundreds of thousands of points, all-to-all computation and global memory access in point cloud processing introduce substantial overhead, causing $O(n^2)$ computational complexity and memory traffic where n is the number of points}. Existing accelerators, primarily optimized for small-scale workloads, overlook this challenge and scale poorly due to inefficient partitioning and non-parallel architectures. To address these issues, we propose FractalCloud, a fractal-inspired hardware architecture for efficient large-scale 3D point cloud processing. FractalCloud introduces two key optimizations: (1) a co-designed Fractal method for shape-aware and hardware-friendly partitioning, and (2) block-parallel point operations that decompose and parallelize all point operations. A dedicated hardware design with on-chip fractal and flexible parallelism further enables fully parallel processing within limited memory resources. Implemented in 28 nm technology as a chip layout with a core area of 1.5 $mm^2$, FractalCloud achieves 21.7x speedup and 27x energy reduction over state-of-the-art accelerators while maintaining network accuracy, demonstrating its scalability and efficiency for PNN inference.
- Abstract(参考訳): 3次元(3D)ポイントクラウドは、自律運転、ロボティクス、仮想現実(VR)などのアプリケーションでますます利用されている。
ポイントベースニューラルネットワーク(PNN)は、ポイントクラウド分析において強力な性能を示しており、当初は小規模入力をターゲットとしていた。
しかしながら、PNNが数十万のポイントで大規模ポイントクラウドを処理するように進化するにつれて、ポイントクラウド処理におけるオール・ツー・オールの計算とグローバルメモリアクセスがかなりのオーバーヘッドをもたらし、nがポイント数である場合の計算複雑性とメモリトラフィックが$O(n^2)$になる。
既存のアクセラレータは、主に小規模ワークロードに最適化されているが、非効率なパーティショニングと非並列アーキテクチャのために、この課題を見落とし、スケールが不十分である。
これらの問題に対処するために,フラクタルにインスパイアされたハードウェアアーキテクチャであるFractalCloudを提案する。
FractalCloudは、(1)形状認識とハードウェアフレンドリーなパーティショニングのためのFractalメソッドを共同設計し、(2)全てのポイント操作を分解・並列化するブロック並列ポイント操作を導入している。
オンチップフラクタルとフレキシブル並列性を備えた専用ハードウェア設計により、メモリリソースの制限内で完全に並列処理が可能になる。
コア面積1.5$mm^2$のチップレイアウトとして28nm技術で実装され、ネットワークの精度を維持しつつ、PNN推論のスケーラビリティと効率を実証しながら、FractalCloudは21.7倍のスピードアップと27倍のエネルギー削減を実現している。
関連論文リスト
- FAMOUS: Flexible Accelerator for the Attention Mechanism of Transformer on UltraScale+ FPGAs [0.0]
Transformer Neural Network(TNN)は、自然言語処理(NLP)、機械翻訳、コンピュータビジョン(CV)など、幅広いアプリケーション領域に応用されている。
本稿では、フィールドプログラマブルゲートアレイ(FPGA)上でのTNNの重み付きマルチヘッドアテンション計算のためのフレキシブルハードウェアアクセラレータである textitFamous を提案する。
並列性を改善し、レイテンシを低減するために、処理要素とオンチップメモリの高利用に最適化されている。
論文 参考訳(メタデータ) (2024-09-21T05:25:46Z) - Flash-LLM: Enabling Cost-Effective and Highly-Efficient Large Generative
Model Inference with Unstructured Sparsity [12.663030430488922]
高速コア上での低コストかつ高効率な大規模生成モデル推論を実現するためのFlash-LLMを提案する。
SpMMカーネルレベルでは、Flash-LLMは最先端のライブラリであるSputnikとSparTAをそれぞれ平均2.9倍、1.5倍で上回っている。
論文 参考訳(メタデータ) (2023-09-19T03:20:02Z) - DSVT: Dynamic Sparse Voxel Transformer with Rotated Sets [95.84755169585492]
本研究では,屋外3次元知覚のためのシングルストライドウィンドウベースのボクセルトランスであるDynamic Sparse Voxel Transformer (DSVT)を提案する。
本モデルでは,3次元認識タスクを多岐にわたって行うことにより,最先端の性能を実現する。
論文 参考訳(メタデータ) (2023-01-15T09:31:58Z) - CloudAttention: Efficient Multi-Scale Attention Scheme For 3D Point
Cloud Learning [81.85951026033787]
この作業にトランスフォーマーをセットし、それらを形状分類と部分およびシーンセグメンテーションのための階層的なフレームワークに組み込む。
また、各イテレーションにおけるサンプリングとグループ化を活用して、効率的でダイナミックなグローバルなクロスアテンションを計算します。
提案した階層モデルは,最先端の形状分類を平均精度で達成し,従来のセグメンテーション法と同等の結果を得る。
論文 参考訳(メタデータ) (2022-07-31T21:39:15Z) - POEM: 1-bit Point-wise Operations based on Expectation-Maximization for
Efficient Point Cloud Processing [53.74076015905961]
我々は,効率的なポイントクラウド処理のために,期待最大化に基づくポイントワイズ処理をBNNに導入する。
私たちのPOEMは、最先端のバイナリポイントクラウドネットワークを6.7%まで大きく上回っている。
論文 参考訳(メタデータ) (2021-11-26T09:45:01Z) - Phantom: A High-Performance Computational Core for Sparse Convolutional
Neural Networks [3.198144010381572]
スパース畳み込みニューラルネットワーク(CNN)はここ数年で大きな注目を集めている。
モデルのサイズや計算を、密度の高いモデルに比べて大幅に削減することができる。
最近提案されたSCNN、Eyeriss v2、SparTenのようなスパースアクセラレーターは、パフォーマンス向上のために、重みとアクティベーションの両方の間隔という、両側または完全な間隔を積極的に活用している。
これらのアクセラレーターは非効率なマイクロアーキテクチャを持ち、パフォーマンスを制限し、非ユニットストライドの畳み込みと完全に接続された層をサポートしないか、または苦しむかのいずれかである。
論文 参考訳(メタデータ) (2021-11-09T08:43:03Z) - Dynamic Convolution for 3D Point Cloud Instance Segmentation [146.7971476424351]
動的畳み込みに基づく3次元点雲からのインスタンスセグメンテーション手法を提案する。
我々は、同じ意味圏と閉投票を持つ等質点を幾何学的遠近点に対して収集する。
提案手法は提案不要であり、代わりに各インスタンスの空間的および意味的特性に適応する畳み込みプロセスを利用する。
論文 参考訳(メタデータ) (2021-07-18T09:05:16Z) - Learning Semantic Segmentation of Large-Scale Point Clouds with Random
Sampling [52.464516118826765]
我々はRandLA-Netを紹介した。RandLA-Netは、大規模ポイントクラウドのポイントごとの意味を推論する、効率的で軽量なニューラルネットワークアーキテクチャである。
我々のアプローチの鍵は、より複雑な点選択アプローチではなく、ランダムな点サンプリングを使用することである。
我々のRandLA-Netは、既存のアプローチよりも最大200倍高速な1回のパスで100万ポイントを処理できます。
論文 参考訳(メタデータ) (2021-07-06T05:08:34Z) - DeepCompress: Efficient Point Cloud Geometry Compression [1.808877001896346]
本稿では,ポイントクラウド圧縮のためのより効率的なディープラーニングベースのエンコーダアーキテクチャを提案する。
CENIC(Efficient Neural Image Compression)から学習した活性化関数を組み込むことで,効率と性能が劇的に向上することを示す。
提案手法は,BjontegardデルタレートとPSNR値において,ベースラインアプローチよりも小さなマージンで優れていた。
論文 参考訳(メタデータ) (2021-06-02T23:18:11Z) - Efficient and Generic 1D Dilated Convolution Layer for Deep Learning [52.899995651639436]
幅広いパラメータをカバーする汎用的な1D畳み込み層の効率的な実装を紹介します。
特にIntel AVX-512とAVX-512 BFloat16命令を含むアーキテクチャ向けに最適化されている。
本稿では,最適化された1次元畳み込み層の性能を,実際のゲノミクスデータセットを用いたエンドツーエンドニューラルネットワークトレーニングで実証する。
論文 参考訳(メタデータ) (2021-04-16T09:54:30Z) - SparsePipe: Parallel Deep Learning for 3D Point Clouds [7.181267620981419]
SparsePipeは、ポイントクラウドなどの3Dスパースデータをサポートする。
入力データを複数のプロセッサに分割するバッチ内並列処理を利用する。
我々は、SparsePipeが効果的に並列化でき、現在のクラウドベンチマークでより良いパフォーマンスを得ることができることを示す。
論文 参考訳(メタデータ) (2020-12-27T01:47:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。