論文の概要: RPVNet: A Deep and Efficient Range-Point-Voxel Fusion Network for LiDAR
Point Cloud Segmentation
- arxiv url: http://arxiv.org/abs/2103.12978v1
- Date: Wed, 24 Mar 2021 04:24:12 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-25 14:02:55.542453
- Title: RPVNet: A Deep and Efficient Range-Point-Voxel Fusion Network for LiDAR
Point Cloud Segmentation
- Title(参考訳): RPVNet:LiDARポイントクラウドセグメンテーションのための深部および高効率レンジポイント-ボクセル核融合ネットワーク
- Authors: Jianyun Xu, Ruixiang Zhang, Jian Dou, Yushi Zhu, Jie Sun, Shiliang Pu
- Abstract要約: RPVNetと呼ばれる、新しいレンジポイント・ボクセル融合ネットワークを提案する。
このネットワークでは,これら3つの視点を相互に相互に相互作用する深層融合フレームワークを考案する。
この効率的な相互作用と比較的低いボクセル解像度を利用することで、より効率的であることが証明された。
- 参考スコア(独自算出の注目度): 28.494690309193068
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Point clouds can be represented in many forms (views), typically, point-based
sets, voxel-based cells or range-based images(i.e., panoramic view). The
point-based view is geometrically accurate, but it is disordered, which makes
it difficult to find local neighbors efficiently. The voxel-based view is
regular, but sparse, and computation grows cubically when voxel resolution
increases. The range-based view is regular and generally dense, however
spherical projection makes physical dimensions distorted. Both voxel- and
range-based views suffer from quantization loss, especially for voxels when
facing large-scale scenes. In order to utilize different view's advantages and
alleviate their own shortcomings in fine-grained segmentation task, we propose
a novel range-point-voxel fusion network, namely RPVNet. In this network, we
devise a deep fusion framework with multiple and mutual information
interactions among these three views and propose a gated fusion module (termed
as GFM), which can adaptively merge the three features based on concurrent
inputs. Moreover, the proposed RPV interaction mechanism is highly efficient,
and we summarize it into a more general formulation. By leveraging this
efficient interaction and relatively lower voxel resolution, our method is also
proved to be more efficient. Finally, we evaluated the proposed model on two
large-scale datasets, i.e., SemanticKITTI and nuScenes, and it shows
state-of-the-art performance on both of them. Note that, our method currently
ranks 1st on SemanticKITTI leaderboard without any extra tricks.
- Abstract(参考訳): 点雲は、多くの形式(ビュー)、典型的には点ベースの集合、ボクセルベースのセル、範囲ベースのイメージ(パノラマビュー)で表現できる。
点ベースビューは幾何学的に正確であるが、乱れているため、近隣住民を効率的に見つけることは困難である。
voxelベースのビューはレギュラーだがスパースであり、voxelの解像度が上がると計算はキュービック的に増加する。
射程に基づくビューは規則的で一般に密度が高いが、球面射影は物理的次元を歪ませる。
ボクセルとレンジベースの両方のビューは量子化損失に悩まされる。
異なるビューの利点を生かし、細粒度のセグメンテーションタスクにおける欠点を緩和するために、新しいレンジポイント-ボクセル融合ネットワーク、すなわちRPVNetを提案する。
本ネットワークでは,これら3つのビュー間での相互・複数情報相互作用を持つ深層融合フレームワークを考案し,同時入力に基づいて3つの特徴を適応的にマージ可能なゲート融合モジュール(GFM)を提案する。
さらに,提案するRPV相互作用機構は非常に効率的であり,より一般的な定式化にまとめる。
この効率的な相互作用と比較的低いボクセル解像度を利用することで、より効率的であることが証明された。
最後に、提案したモデルをSemanticKITTIとnuScenesという2つの大規模データセット上で評価し、両者の最先端性能を示す。
なお,本手法はSemanticKITTIのリーダーボードにおいて,余分なトリックを伴わずに第1位にランクされている。
関連論文リスト
- Self-Supervised Scene Flow Estimation with Point-Voxel Fusion and Surface Representation [30.355128117680444]
シーンフロー推定は、点雲の2つの連続するフレーム間の点の3次元運動場を生成することを目的としている。
既存の点ベースの手法は点雲の不規則性を無視し、長距離依存を捉えるのが困難である。
本稿では,分散グリッドアテンションとシフトウインドウ戦略に基づくボクセルブランチを用いて,長距離依存性を捕捉するポイントボクセル融合法を提案する。
論文 参考訳(メタデータ) (2024-10-17T09:05:15Z) - PVAFN: Point-Voxel Attention Fusion Network with Multi-Pooling Enhancing for 3D Object Detection [59.355022416218624]
点とボクセルの表現の統合は、LiDARベースの3Dオブジェクト検出においてより一般的になりつつある。
PVAFN(Point-Voxel Attention Fusion Network)と呼ばれる新しい2段3次元物体検出器を提案する。
PVAFNはマルチプール戦略を使用して、マルチスケールとリージョン固有の情報を効果的に統合する。
論文 参考訳(メタデータ) (2024-08-26T19:43:01Z) - Multi-view Aggregation Network for Dichotomous Image Segmentation [76.75904424539543]
Dichotomous Image (DIS) は近年,高解像度自然画像からの高精度物体分割に向けて出現している。
既存の手法は、グローバルなローカライゼーションと局所的な洗練を徐々に完了させるために、退屈な複数のエンコーダ・デコーダストリームとステージに依存している。
これに触発されて、我々は多視点オブジェクト認識問題としてdisをモデル化し、擬似多視点アグリゲーションネットワーク(MVANet)を提供する。
一般的なdis-5Kデータセットの実験では、我々のMVANetは精度と速度の両方で最先端の手法を大きく上回っている。
論文 参考訳(メタデータ) (2024-04-11T03:00:00Z) - Voxel or Pillar: Exploring Efficient Point Cloud Representation for 3D
Object Detection [49.324070632356296]
我々は3次元および2次元のスパース畳み込みにより点雲をボクセルと柱の特徴に符号化するスパース・ボクセル・ピラーエンコーダを開発した。
我々の効率的で完全なスパース法は、密度検出器とスパース検出器の両方にシームレスに統合できる。
論文 参考訳(メタデータ) (2023-04-06T05:00:58Z) - Rethinking Range View Representation for LiDAR Segmentation [66.73116059734788]
「多対一」マッピング、意味的不整合、形状変形は、射程射影からの効果的な学習に対する障害となる可能性がある。
RangeFormerは、ネットワークアーキテクチャ、データ拡張、後処理を含む新しい設計を含む、フルサイクルのフレームワークである。
比較対象のLiDARセマンティックスとパノプティックスセグメンテーションのベンチマークにおいて,初めてレンジビュー法が点,ボクセル,マルチビューフュージョンを越えられることを示す。
論文 参考訳(メタデータ) (2023-03-09T16:13:27Z) - GFNet: Geometric Flow Network for 3D Point Cloud Semantic Segmentation [91.15865862160088]
本稿では,異なるビュー間の幾何対応性を検討するための幾何フローネットワーク (GFNet) を提案する。
具体的には、異なる視点にまたがって補完情報を双方向に整列し、伝播する新しい幾何フローモジュール(GFM)を考案する。
論文 参考訳(メタデータ) (2022-07-06T11:48:08Z) - Panoptic-PHNet: Towards Real-Time and High-Precision LiDAR Panoptic
Segmentation via Clustering Pseudo Heatmap [9.770808277353128]
本稿では,Panoptic-PHNetと呼ばれる高速かつ高性能なLiDARベースのフレームワークを提案する。
我々は、クラスタリング擬似ヒートマップを新しいパラダイムとして導入し、それに続いて、集中型グループ化モジュールが、効率的なクラスタリングのためにインスタンスセンタを生成する。
バックボーンデザインでは、細粒度のボクセル機能と2D Bird's Eye View (BEV)機能を異なる受容領域に融合し、詳細情報とグローバル情報の両方を利用する。
論文 参考訳(メタデータ) (2022-05-14T08:16:13Z) - Voxel Set Transformer: A Set-to-Set Approach to 3D Object Detection from
Point Clouds [16.69887974230884]
Transformerは多くの2次元視覚タスクで有望なパフォーマンスを示した。
ポイントクラウドは長いシーケンスであり、3D空間に不均一に分散しているため、大規模なポイントクラウドデータの自己アテンションを計算するのは困難である。
既存の方法は、通常、ポイントを同じ大きさのクラスタにグループ化したり、離散化された表現に対して畳み込み的な自己アテンションを実行することによって、自己アテンションを局所的に計算する。
本稿では,Voxel Set Transformer (VoxSeT) と呼ばれる新しいボクセルベースアーキテクチャを提案する。
論文 参考訳(メタデータ) (2022-03-19T12:31:46Z) - UniFuse: Unidirectional Fusion for 360$^{\circ}$ Panorama Depth
Estimation [11.680475784102308]
本稿では,2つのプロジェクションから特徴を融合する新しいフレームワークを提案する。
提案した融合戦略とモジュールの有効性を実験により検証し、4つの一般的なデータセット上で最先端の性能を達成する。
論文 参考訳(メタデータ) (2021-02-06T10:01:09Z) - LiDAR-based Panoptic Segmentation via Dynamic Shifting Network [56.71765153629892]
LiDARベースのパノプティカルセグメンテーションは、オブジェクトとシーンを統一的に解析することを目的としている。
本稿では,ポイントクラウド領域における効果的な単視分割フレームワークとして機能する動的シフトネットワーク(DS-Net)を提案する。
提案するDS-Netは,現在の最先端手法よりも優れた精度を実現する。
論文 参考訳(メタデータ) (2020-11-24T08:44:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。