論文の概要: HARP-NeXt: High-Speed and Accurate Range-Point Fusion Network for 3D LiDAR Semantic Segmentation
- arxiv url: http://arxiv.org/abs/2510.06876v1
- Date: Wed, 08 Oct 2025 10:46:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-09 16:41:20.442196
- Title: HARP-NeXt: High-Speed and Accurate Range-Point Fusion Network for 3D LiDAR Semantic Segmentation
- Title(参考訳): HARP-NeXt:3次元LiDARセマンティックセマンティックセグメンテーションのための高速かつ高精度レンジポイント核融合ネットワーク
- Authors: Samir Abou Haidar, Alexandre Chariot, Mehdi Darouich, Cyril Joly, Jean-Emmanuel Deschaud,
- Abstract要約: LiDARセマンティックセグメンテーションは、自動運転車や移動ロボットにとって不可欠である。
従来の最先端の手法は、精度とスピードのトレードオフに直面していることが多い。
本稿では,高速かつ高精度なLiDARセマンティックセグメンテーションネットワークであるHARP-NeXtを紹介する。
- 参考スコア(独自算出の注目度): 39.58684038370709
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: LiDAR semantic segmentation is crucial for autonomous vehicles and mobile robots, requiring high accuracy and real-time processing, especially on resource-constrained embedded systems. Previous state-of-the-art methods often face a trade-off between accuracy and speed. Point-based and sparse convolution-based methods are accurate but slow due to the complexity of neighbor searching and 3D convolutions. Projection-based methods are faster but lose critical geometric information during the 2D projection. Additionally, many recent methods rely on test-time augmentation (TTA) to improve performance, which further slows the inference. Moreover, the pre-processing phase across all methods increases execution time and is demanding on embedded platforms. Therefore, we introduce HARP-NeXt, a high-speed and accurate LiDAR semantic segmentation network. We first propose a novel pre-processing methodology that significantly reduces computational overhead. Then, we design the Conv-SE-NeXt feature extraction block to efficiently capture representations without deep layer stacking per network stage. We also employ a multi-scale range-point fusion backbone that leverages information at multiple abstraction levels to preserve essential geometric details, thereby enhancing accuracy. Experiments on the nuScenes and SemanticKITTI benchmarks show that HARP-NeXt achieves a superior speed-accuracy trade-off compared to all state-of-the-art methods, and, without relying on ensemble models or TTA, is comparable to the top-ranked PTv3, while running 24$\times$ faster. The code is available at https://github.com/SamirAbouHaidar/HARP-NeXt
- Abstract(参考訳): LiDARセマンティックセグメンテーションは、特に資源に制約のある組込みシステムにおいて、高精度でリアルタイムな処理を必要とする自動運転車や移動ロボットにとって不可欠である。
従来の最先端の手法は、精度とスピードのトレードオフに直面していることが多い。
点ベースおよびスパース畳み込みに基づく手法は、近隣の探索と3次元畳み込みの複雑さのため正確だが遅い。
投影法は高速だが、2次元投影において重要な幾何学的情報を失う。
さらに、最近の多くのメソッドは、パフォーマンスを改善するためにテスト時間拡張(TTA)に依存しており、推論をさらに遅くしている。
さらに、すべてのメソッドにまたがる前処理フェーズは実行時間を増やし、組み込みプラットフォームで要求される。
そこで本稿では,高速かつ高精度なLiDARセマンティックセグメンテーションネットワークであるHARP-NeXtを紹介する。
まず,計算オーバーヘッドを大幅に削減する新しい前処理手法を提案する。
次に,ネットワークステージ毎に深い層を積み重ねることなく効率よく表現をキャプチャするConv-SE-NeXt特徴抽出ブロックを設計する。
また,複数の抽象化レベルの情報を活用して重要な幾何学的詳細を保存し,精度を向上させるマルチスケールレンジポイント融合バックボーンも採用している。
nuScenes と SemanticKITTI ベンチマークの実験では、HARP-NeXt はすべての最先端手法よりも高速なトレードオフを実現しており、アンサンブルモデルや TTA に依存せず、最高ランクのPTv3 に匹敵し、24$\times$ の高速動作を実現している。
コードはhttps://github.com/SamirAbouHaidar/HARP-NeXtで公開されている。
関連論文リスト
- FLARES: Fast and Accurate LiDAR Multi-Range Semantic Segmentation [52.89847760590189]
3Dシーンの理解は、自動運転における重要な課題である。
近年の手法では、レンジビュー表現を利用して処理効率を向上している。
範囲ビューに基づくLiDARセマンティックセマンティックセグメンテーションのためのワークフローを再設計する。
論文 参考訳(メタデータ) (2025-02-13T12:39:26Z) - CPGNet: Cascade Point-Grid Fusion Network for Real-Time LiDAR Semantic
Segmentation [8.944151935020992]
本稿では,有効性と効率を両立するカスケードポイントグリッド融合ネットワーク(CPGNet)を提案する。
アンサンブルモデルやTTAのないCPGNetは最先端のRPVNetと同等だが、4.7倍高速である。
論文 参考訳(メタデータ) (2022-04-21T06:56:30Z) - BEVDetNet: Bird's Eye View LiDAR Point Cloud based Real-time 3D Object
Detection for Autonomous Driving [6.389322215324224]
キーポイント,ボックス予測,方向予測を用いたオブジェクト中心検出のための単一統一モデルとして,新しいセマンティックセマンティックセマンティクスアーキテクチャを提案する。
提案されたアーキテクチャは簡単に拡張でき、追加の計算なしで Road のようなセマンティックセグメンテーションクラスを含めることができる。
モデルは、KITTIデータセット上のIoU=0.5の平均精度で2%の最小精度の劣化で、他のトップ精度モデルよりも5倍高速です。
論文 参考訳(メタデータ) (2021-04-21T22:06:39Z) - Multi-view Depth Estimation using Epipolar Spatio-Temporal Networks [87.50632573601283]
一つのビデオから多視点深度を推定する新しい手法を提案する。
提案手法は,新しいEpipolar Spatio-Temporal Transformer(EST)を用いて時間的コヒーレントな深度推定を行う。
最近のMixture-of-Expertsモデルにインスパイアされた計算コストを削減するため、我々はコンパクトなハイブリッドネットワークを設計する。
論文 参考訳(メタデータ) (2020-11-26T04:04:21Z) - Multi Projection Fusion for Real-time Semantic Segmentation of 3D LiDAR
Point Clouds [2.924868086534434]
本稿では,ポイントクラウドの複数のプロジェクションを利用する3次元ポイントクラウドセマンティックセマンティックセマンティクスの新しいアプローチを提案する。
我々のMulti-Projection Fusionフレームワークは、2つの異なる高効率2次元完全畳み込みモデルを用いて球面および鳥眼の視射影を解析する。
論文 参考訳(メタデータ) (2020-11-03T19:40:43Z) - A Real-time Action Representation with Temporal Encoding and Deep
Compression [115.3739774920845]
動作表現のための時間畳み込み3Dネットワーク(T-C3D)と呼ばれる新しいリアルタイム畳み込みアーキテクチャを提案する。
T-C3Dは、高プロセス速度を得ながら、階層的な多粒度でビデオアクション表現を学習する。
提案手法は,5MB未満のストレージモデルを用いて,提案手法の精度5.4%,推論速度2倍の高速化を実現した。
論文 参考訳(メタデータ) (2020-06-17T06:30:43Z) - Real-Time High-Performance Semantic Image Segmentation of Urban Street
Scenes [98.65457534223539]
都市景観のロバストなセマンティックセマンティックセグメンテーションのためのリアルタイムDCNNに基づく高速DCNN手法を提案する。
提案手法は, 51.0 fps と 39.3 fps の推論速度で, 平均 73.6% と平均 68.0% (mIoU) の精度を実現する。
論文 参考訳(メタデータ) (2020-03-11T08:45:53Z) - FarSee-Net: Real-Time Semantic Segmentation by Efficient Multi-scale
Context Aggregation and Feature Space Super-resolution [14.226301825772174]
Cascaded Factorized Atrous Space Pyramid Pooling (CF-ASPP) と呼ばれる新しい効率的なモジュールについて紹介する。
これは畳み込みニューラルネットワーク(CNN)のための軽量なカスケード構造であり、コンテキスト情報を効率的に活用する。
我々は1枚のNivida Titan X (Maxwell) GPUカードでCityscapesテストセットの84fpsで68.4% mIoUを達成した。
論文 参考訳(メタデータ) (2020-03-09T03:53:57Z) - 3DSSD: Point-based 3D Single Stage Object Detector [61.67928229961813]
本稿では,3DSSDと命名された点ベース3次元単段物体検出器を提案し,精度と効率のバランスが良好であることを示す。
提案手法は,最先端のボクセルをベースとした一段法を大差で上回り,二段法に匹敵する性能を有する。
論文 参考訳(メタデータ) (2020-02-24T12:01:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。