論文の概要: FlashFPS: Efficient Farthest Point Sampling for Large-Scale Point Clouds via Pruning and Caching
- arxiv url: http://arxiv.org/abs/2604.17720v1
- Date: Mon, 20 Apr 2026 02:03:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-21 21:52:52.660472
- Title: FlashFPS: Efficient Farthest Point Sampling for Large-Scale Point Clouds via Pruning and Caching
- Title(参考訳): FlashFPS: プルーニングとキャッシュによる大規模クラウドのための効率的な極端サンプリング
- Authors: Yuzhe Fu, Hancheng Ye, Cong Guo, Junyao Zhang, Qinsi Wang, Yueqian Lin, Changchun Zhou, Hai, Li, Yiran Chen,
- Abstract要約: ポイントベースニューラルネットワーク(PNN)は,ポイントクラウド処理において重要なアプローチとなっている。
Farthest Point Sampling (FPS)は、しばしば大きなレイテンシをもたらす。
FPSは、PNN内の複数のネットワーク層にまたがる網羅的な計算のために、依然として大きなボトルネックとなっている。
- 参考スコア(独自算出の注目度): 10.428491193699374
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Point-based Neural Networks (PNNs) have become a key approach for point cloud processing. However, a core operation in these models, Farthest Point Sampling (FPS), often introduces significant inference latency, especially for large-scale processing. Despite existing CUDA- and hardware-level optimizations, FPS remains a major bottleneck due to exhaustive computations across multiple network layers in PNNs, which hinders scalability. Through systematic analysis, we identify three substantial redundancies in FPS, including unnecessary full-cloud computations, redundant late-stage iterations, and predictable inter-layer outputs that make later FPS computations avoidable. To address these, we propose \textbf{\textit{FlashFPS}}, a hardware-agnostic, plug-and-play framework for FPS acceleration, composed of \textit{FPS-Prune} and \textit{FPS-Cache}. \textit{FPS-Prune} introduces candidate pruning and iteration pruning to reduce redundant computations in FPS while preserving sampling quality, and \textit{FPS-Cache} eliminates layer-wise redundancy via cache-and-reuse. Integrated into existing CUDA libraries and state-of-the-art PNN accelerators, \textit{FlashFPS} achieves 5.16$\times$ speedup over the standard CUDA baseline on GPU and 2.69$\times$ on PNN accelerators, with negligible accuracy loss, enabling efficient and scalable PNN inference. Codes are released at https://github.com/Yuzhe-Fu/FlashFPS.
- Abstract(参考訳): ポイントベースニューラルネットワーク(PNN)は,ポイントクラウド処理において重要なアプローチとなっている。
しかし、Farthest Point Smpling (FPS) と呼ばれるこれらのモデルの中核的な操作は、特に大規模処理において、大きな推論遅延をもたらすことが多い。
既存のCUDAおよびハードウェアレベルの最適化にもかかわらず、FPSはPNN内の複数のネットワーク層にまたがる網羅的な計算がスケーラビリティを妨げているため、大きなボトルネックとなっている。
系統解析により、不必要なフルクラウド計算、冗長なレイトステージ反復、後のFPS計算を回避できる予測可能な層間出力を含む、FPSの実質的な冗長性3つを同定する。
これらの問題に対処するために、ハードウェアに依存しないFPSアクセラレーション用プラグイン・アンド・プレイフレームワークである \textbf{\textit{FlashFPS}} と \textit{FPS-Prune} と \textit{FPS-Cache} を提案する。
\textit{FPS-Prune}は、サンプリング品質を維持しながらFPSの冗長な計算を減らすために、候補プルーニングと反復プルーニングを導入している。
既存のCUDAライブラリと最先端のPNNアクセラレータに統合された \textit{FlashFPS} は、GPU上の標準CUDAベースラインの5.16$\times$スピードアップ、PNNアクセラレータの2.69$\times$スピードアップを実現し、無視できる精度の損失を発生し、効率的でスケーラブルなPNN推論を可能にする。
コードはhttps://github.com/Yuzhe-Fu/FlashFPSで公開されている。
関連論文リスト
- Spava: Accelerating Long-Video Understanding via Sequence-Parallelism-aware Approximate Attention [63.69228529380251]
Spavaはシーケンス並列フレームワークで、ロングビデオ推論に最適化されている。
Spavaは、FlashAttn、ZigZagRing、APBで12.72x、1.70x、1.18xのスピードアップを提供する。
論文 参考訳(メタデータ) (2026-01-29T09:23:13Z) - HLS4PC: A Parametrizable Framework For Accelerating Point-Based 3D Point Cloud Models on FPGA [2.762332196350206]
3Dポイントクラウドモデルは、分類/分離のためのNN層と共に計算とメモリ集約マッピング機能を実行する。
PointMLP-Liteは、ModelNet40の精度がわずか2%の4倍の複雑なバージョンである。
実装はGPUとCPUと比較して2.3倍,22倍高いスループットを実現している。
論文 参考訳(メタデータ) (2025-12-11T17:09:12Z) - FractalCloud: A Fractal-Inspired Architecture for Efficient Large-Scale Point Cloud Processing [13.217596969807062]
自律運転、ロボティクス、仮想現実(VR)などのアプリケーションでは、三次元(3D)ポイントクラウドがますます利用されている
ポイントベースニューラルネットワーク(PNN)は、ポイントクラウド分析において強力な性能を示しており、当初は小規模入力をターゲットとしていた。
FractalCloudはフラクタルにインスパイアされたハードウェアアーキテクチャで、大規模な3Dポイントのクラウド処理を効率的に行う。
論文 参考訳(メタデータ) (2025-11-10T22:19:37Z) - ReTiDe: Real-Time Denoising for Energy-Efficient Motion Picture Processing with FPGAs [0.39146761527401425]
本稿では,データ中心FPGAの推論を行うハードウェアアクセラレーションデノケーションシステムReTiDeについて述べる。
コンパクトな畳み込みモデルをINT8に量子化し、AMDディープラーニングプロセッサユニット(DPU)ベースのFPGAにコンパイルする。
クライアントサーバの統合は、CPU/GPUからネットワークFPGAサービスにオフロードされるが、既存のホスト(例えばNUKE)から呼び出し可能でありながら、アーティストツールを中断することはない。
論文 参考訳(メタデータ) (2025-10-04T13:43:43Z) - H2PIPE: High throughput CNN Inference on FPGAs with High-Bandwidth Memory [1.0056445773367833]
畳み込みニューラルネットワーク(CNN)は、大量の並列化可能な計算と頻繁なメモリアクセスを組み合わせる。
この作業は最先端のデータフローアクセラレータを拡張して、HBM(High-Bandwidth Memory)とオンチップストレージの両方を活用する。
最高の先行研究と比較して、ResNet-18、ResNet-50、VGG-16で、少なくとも19.4x、5.1x、10.5xのスピードアップが得られる。
論文 参考訳(メタデータ) (2024-08-17T14:25:32Z) - Adaptable Butterfly Accelerator for Attention-based NNs via Hardware and
Algorithm Co-design [66.39546326221176]
多くのAIタスクにおいて、注意に基づくニューラルネットワークが普及している。
注意機構とフィードフォワードネットワーク(FFN)の使用は、過剰な計算とメモリ資源を必要とする。
本稿では,注目機構とFFNの両方を近似するために,バタフライの分散パターンを統一したハードウェアフレンドリーな変種を提案する。
論文 参考訳(メタデータ) (2022-09-20T09:28:26Z) - Sparse Periodic Systolic Dataflow for Lowering Latency and Power
Dissipation of Convolutional Neural Network Accelerators [3.043665249713003]
本稿では,SPS(Sparse periodic systolic)データフローについて紹介する。
PPSの規則性を活用することで、スパシティ対応コンパイラは重みを最適に並べ替え、ハードウェアの単純なインデックス化ユニットを使用して重みとアクティベーションの一致を生成する。
論文 参考訳(メタデータ) (2022-06-30T19:16:46Z) - Instant Neural Graphics Primitives with a Multiresolution Hash Encoding [67.33850633281803]
品質を犠牲にすることなく、より小さなネットワークを使用できる汎用的な新しい入力符号化を提案する。
小さなニューラルネットワークは、勾配降下によって値が最適化された訓練可能な特徴ベクトルの多分解能ハッシュテーブルによって拡張される。
数桁の高速化を実現し、高品質なニューラルネットワークプリミティブを数秒でトレーニングすることができる。
論文 参考訳(メタデータ) (2022-01-16T07:22:47Z) - An Adaptive Device-Edge Co-Inference Framework Based on Soft
Actor-Critic [72.35307086274912]
高次元パラメータモデルと大規模数学的計算は、特にIoT(Internet of Things)デバイスにおける実行効率を制限する。
本稿では,ソフトポリシーの繰り返しによるエフェキシット点,エフェキシット点,エンフェキシット点を生成する離散的(SAC-d)のための新しい深層強化学習(DRL)-ソフトアクタ批判法を提案する。
レイテンシと精度を意識した報酬設計に基づいて、そのような計算は動的無線チャンネルや任意の処理のような複雑な環境によく適応でき、5G URLをサポートすることができる。
論文 参考訳(メタデータ) (2022-01-09T09:31:50Z) - FastFlowNet: A Lightweight Network for Fast Optical Flow Estimation [81.76975488010213]
ディセンス光学フロー推定は、多くのロボットビジョンタスクで重要な役割を果たしています。
現在のネットワークはしばしば多くのパラメータを占有し、計算コストがかかる。
提案したFastFlowNetは、周知の粗大なやり方で、以下のイノベーションで機能する。
論文 参考訳(メタデータ) (2021-03-08T03:09:37Z) - EdgeBERT: Sentence-Level Energy Optimizations for Latency-Aware
Multi-Task NLP Inference [82.1584439276834]
BERTのようなトランスフォーマーベースの言語モデルでは、自然言語処理(NLP)タスクの精度が大幅に向上する。
We present EdgeBERT, a in-deepth algorithm- hardware co-design for latency-aware energy optimization for multi-task NLP。
論文 参考訳(メタデータ) (2020-11-28T19:21:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。