論文の概要: EZ-SP: Fast and Lightweight Superpoint-Based 3D Segmentation
- arxiv url: http://arxiv.org/abs/2512.00385v1
- Date: Sat, 29 Nov 2025 08:21:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-02 19:46:34.212628
- Title: EZ-SP: Fast and Lightweight Superpoint-Based 3D Segmentation
- Title(参考訳): EZ-SP:高速軽量スーパーポイントベース3Dセグメンテーション
- Authors: Louis Geist, Loic Landrieu, Damien Robert,
- Abstract要約: 本稿では,幾何学的および意味論的にコヒーレントなスーパーポイントを13$times$で生成する,学習可能な完全GPUパーティショニングアルゴリズムを提案する。
私たちのモジュールはコンパクト(60kパラメータ以下)で、20分以内の列車で、異なるサロゲート損失を発生させ、手作りの特徴を必要としない。
72$times$高速な推論と120$times$少ないパラメータで、EZ-SPは3つの領域にわたるポイントベースSOTAモデルの精度と一致する。
- 参考スコア(独自算出の注目度): 14.136068396056869
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Superpoint-based pipelines provide an efficient alternative to point- or voxel-based 3D semantic segmentation, but are often bottlenecked by their CPU-bound partition step. We propose a learnable, fully GPU partitioning algorithm that generates geometrically and semantically coherent superpoints 13$\times$ faster than prior methods. Our module is compact (under 60k parameters), trains in under 20 minutes with a differentiable surrogate loss, and requires no handcrafted features. Combine with a lightweight superpoint classifier, the full pipeline fits in $<$2 MB of VRAM, scales to multi-million-point scenes, and supports real-time inference. With 72$\times$ faster inference and 120$\times$ fewer parameters, EZ-SP matches the accuracy of point-based SOTA models across three domains: indoor scans (S3DIS), autonomous driving (KITTI-360), and aerial LiDAR (DALES). Code and pretrained models are accessible at github.com/drprojects/superpoint_transformer.
- Abstract(参考訳): スーパーポイントベースのパイプラインは、ポイントまたはボクセルベースのセマンティックセマンティックセグメンテーションに代わる効率的な代替手段を提供するが、CPUバウンドパーティションステップによってボトルネックとなることが多い。
本稿では,幾何学的および意味論的にコヒーレントなスーパーポイントを13$\times$で生成する,学習可能な完全GPUパーティショニングアルゴリズムを提案する。
私たちのモジュールはコンパクト(60kパラメータ以下)で、20分以内の列車で、異なるサロゲート損失を発生させ、手作りの特徴を必要としない。
軽量なスーパーポイント分類器と組み合わせることで、パイプライン全体が$2MBのVRAMに収まり、数百万ポイントのシーンにスケールし、リアルタイム推論をサポートする。
72$\times$高速推論と120$\times$少ないパラメータで、EZ-SPは屋内スキャン(S3DIS)、自律運転(KITTI-360)、空中LiDAR(DALES)の3つの領域にわたるポイントベースSOTAモデルの精度と一致する。
コードと事前訓練されたモデルはgithub.com/drprojects/superpoint_transformerで利用できる。
関連論文リスト
- TSP3D: Text-guided Sparse Voxel Pruning for Efficient 3D Visual Grounding [74.033589504806]
視覚的グラウンド化のための効率的なマルチレベル畳み込みアーキテクチャを提案する。
提案手法はトップ推論速度を達成し,従来の最速の手法を100% FPS で上回っている。
論文 参考訳(メタデータ) (2025-02-14T18:59:59Z) - ViG: Linear-complexity Visual Sequence Learning with Gated Linear Attention [33.00435765051738]
我々は、Gated Linear Attention (GLA) を視覚に導入し、その優れたハードウェア認識と効率を活用している。
提案するモデルであるViGは、ImageNetおよび下流タスクにおける精度、パラメータ、FLOPの良好なトレードオフを提供する。
ViG-Tは5.2$times$より少ないFLOPを使用し、90%のGPUメモリを節約し、4.8$times$高速に動作し、DeiT-Tよりも20.7%高いトップ1精度を達成する。
論文 参考訳(メタデータ) (2024-05-28T17:59:21Z) - Scalable 3D Panoptic Segmentation As Superpoint Graph Clustering [7.680851067579922]
大規模3次元点雲のパノプティカルセグメンテーションを高効率に行う手法を提案する。
私たちのモデルは、最高の競合方法よりも30ドル以上小さく、最大15ドル以上の速度でトレーニングします。
論文 参考訳(メタデータ) (2024-01-12T17:10:52Z) - Fully $1\times1$ Convolutional Network for Lightweight Image
Super-Resolution [79.04007257606862]
ディープモデルは、シングルイメージ超解像(SISR)タスク、特に大きなカーネルを持つ大きなモデル(3時間3ドル以上)において重要なプロセスを持つ。
$1times1$の畳み込みは計算効率を大幅に向上させるが、局所的な空間表現の集約に苦労する。
我々は、Shift-Conv-based Network (SCNet) という、シンプルで効果的な1時間1ドルの畳み込みネットワークを提案する。
論文 参考訳(メタデータ) (2023-07-30T06:24:03Z) - Efficient 3D Semantic Segmentation with Superpoint Transformer [7.680851067579922]
大規模3次元シーンの効率的なセマンティックセマンティックセグメンテーションのための新しいスーパーポイントベースのトランスフォーマーアーキテクチャを提案する。
提案手法では,高速アルゴリズムを用いて点雲を階層的なスーパーポイント構造に分割し,前処理を既存手法の7倍高速にする。
我々のモデルは、S3DISデータセットの折りたたみに3時間で1つのGPUでトレーニングできます。
論文 参考訳(メタデータ) (2023-06-13T18:03:05Z) - DSVT: Dynamic Sparse Voxel Transformer with Rotated Sets [95.84755169585492]
本研究では,屋外3次元知覚のためのシングルストライドウィンドウベースのボクセルトランスであるDynamic Sparse Voxel Transformer (DSVT)を提案する。
本モデルでは,3次元認識タスクを多岐にわたって行うことにより,最先端の性能を実現する。
論文 参考訳(メタデータ) (2023-01-15T09:31:58Z) - Dynamic Convolution for 3D Point Cloud Instance Segmentation [146.7971476424351]
動的畳み込みに基づく3次元点雲からのインスタンスセグメンテーション手法を提案する。
我々は、同じ意味圏と閉投票を持つ等質点を幾何学的遠近点に対して収集する。
提案手法は提案不要であり、代わりに各インスタンスの空間的および意味的特性に適応する畳み込みプロセスを利用する。
論文 参考訳(メタデータ) (2021-07-18T09:05:16Z) - Learning Semantic Segmentation of Large-Scale Point Clouds with Random
Sampling [52.464516118826765]
我々はRandLA-Netを紹介した。RandLA-Netは、大規模ポイントクラウドのポイントごとの意味を推論する、効率的で軽量なニューラルネットワークアーキテクチャである。
我々のアプローチの鍵は、より複雑な点選択アプローチではなく、ランダムな点サンプリングを使用することである。
我々のRandLA-Netは、既存のアプローチよりも最大200倍高速な1回のパスで100万ポイントを処理できます。
論文 参考訳(メタデータ) (2021-07-06T05:08:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。