論文の概要: GeoAuxNet: Towards Universal 3D Representation Learning for Multi-sensor Point Clouds
- arxiv url: http://arxiv.org/abs/2403.19220v1
- Date: Thu, 28 Mar 2024 08:34:04 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-29 17:03:08.528367
- Title: GeoAuxNet: Towards Universal 3D Representation Learning for Multi-sensor Point Clouds
- Title(参考訳): GeoAuxNet:マルチセンサポイントクラウドのためのユニバーサル3D表現学習を目指して
- Authors: Shengjun Zhang, Xin Fei, Yueqi Duan,
- Abstract要約: 本稿では,ボクセル表現が点レベルの幾何学情報にアクセスできるようにするために,幾何学とボクセルの補助学習を提案する。
具体的には、ボクセル誘導動的点ネットワークによって生成される階層的幾何プールを構築する。
提案手法は,マルチセンサデータセットで学習した他のモデルよりも優れる。
- 参考スコア(独自算出の注目度): 13.020221102833471
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Point clouds captured by different sensors such as RGB-D cameras and LiDAR possess non-negligible domain gaps. Most existing methods design different network architectures and train separately on point clouds from various sensors. Typically, point-based methods achieve outstanding performances on even-distributed dense point clouds from RGB-D cameras, while voxel-based methods are more efficient for large-range sparse LiDAR point clouds. In this paper, we propose geometry-to-voxel auxiliary learning to enable voxel representations to access point-level geometric information, which supports better generalisation of the voxel-based backbone with additional interpretations of multi-sensor point clouds. Specifically, we construct hierarchical geometry pools generated by a voxel-guided dynamic point network, which efficiently provide auxiliary fine-grained geometric information adapted to different stages of voxel features. We conduct experiments on joint multi-sensor datasets to demonstrate the effectiveness of GeoAuxNet. Enjoying elaborate geometric information, our method outperforms other models collectively trained on multi-sensor datasets, and achieve competitive results with the-state-of-art experts on each single dataset.
- Abstract(参考訳): RGB-DカメラやLiDARのような異なるセンサーが捉えた点雲は、無視できない領域ギャップを持つ。
既存のほとんどの手法は異なるネットワークアーキテクチャを設計し、様々なセンサーから点雲で個別に訓練する。
通常、点ベース法は、RGB-Dカメラから均等に分散した高密度点雲に対して優れた性能を達成するが、voxel-based法は大規模スパースLiDAR点雲に対してより効率的である。
本稿では,複数センサ点雲の解釈を付加したボクセルベースバックボーンの一般化を支援するために,ボクセル表現がポイントレベルの幾何情報にアクセスできるような幾何-ボクセル補助学習を提案する。
具体的には、ボクセル誘導動的点ネットワークによって生成される階層的な幾何学プールを構築し、ボクセル特徴の異なる段階に適応した補助的な微細な幾何学情報を効率的に提供する。
我々はGeoAuxNetの有効性を実証するために,共同マルチセンサデータセットの実験を行った。
精巧な幾何学的情報を楽しみながら、本手法は、マルチセンサーデータセットで総合的に訓練された他のモデルよりも優れており、各データセットの最先端の専門家と競合する結果が得られる。
関連論文リスト
- Self-Supervised Scene Flow Estimation with Point-Voxel Fusion and Surface Representation [30.355128117680444]
シーンフロー推定は、点雲の2つの連続するフレーム間の点の3次元運動場を生成することを目的としている。
既存の点ベースの手法は点雲の不規則性を無視し、長距離依存を捉えるのが困難である。
本稿では,分散グリッドアテンションとシフトウインドウ戦略に基づくボクセルブランチを用いて,長距離依存性を捕捉するポイントボクセル融合法を提案する。
論文 参考訳(メタデータ) (2024-10-17T09:05:15Z) - PVAFN: Point-Voxel Attention Fusion Network with Multi-Pooling Enhancing for 3D Object Detection [59.355022416218624]
点とボクセルの表現の統合は、LiDARベースの3Dオブジェクト検出においてより一般的になりつつある。
PVAFN(Point-Voxel Attention Fusion Network)と呼ばれる新しい2段3次元物体検出器を提案する。
PVAFNはマルチプール戦略を使用して、マルチスケールとリージョン固有の情報を効果的に統合する。
論文 参考訳(メタデータ) (2024-08-26T19:43:01Z) - Point Cloud Compression with Implicit Neural Representations: A Unified Framework [54.119415852585306]
我々は幾何学と属性の両方を扱える先駆的なクラウド圧縮フレームワークを提案する。
本フレームワークでは,2つの座標ベースニューラルネットワークを用いて,voxelized point cloudを暗黙的に表現する。
本手法は,既存の学習手法と比較して,高い普遍性を示す。
論文 参考訳(メタデータ) (2024-05-19T09:19:40Z) - ParaPoint: Learning Global Free-Boundary Surface Parameterization of 3D Point Clouds [52.03819676074455]
ParaPointは、グローバルな自由境界面パラメータ化を実現するための教師なしのニューラルネットワークパイプラインである。
この研究は、グローバルマッピングと自由境界の両方を追求するニューラルポイントクラウドパラメータ化を調査する最初の試みである。
論文 参考訳(メタデータ) (2024-03-15T14:35:05Z) - PointeNet: A Lightweight Framework for Effective and Efficient Point
Cloud Analysis [28.54939134635978]
PointeNetは、ポイントクラウド分析に特化したネットワークである。
本手法は,分類/分割ヘッドとシームレスに統合したり,市販の3Dオブジェクト検出ネットワークに埋め込んだりすることで,柔軟性を示す。
ModelNet40、ScanObjectNN、ShapeNet KITTI、およびシーンレベルのデータセットKITTIを含むオブジェクトレベルのデータセットの実験は、ポイントクラウド分析における最先端メソッドよりもPointeNetの方が優れたパフォーマンスを示している。
論文 参考訳(メタデータ) (2023-12-20T03:34:48Z) - Voxel or Pillar: Exploring Efficient Point Cloud Representation for 3D
Object Detection [49.324070632356296]
我々は3次元および2次元のスパース畳み込みにより点雲をボクセルと柱の特徴に符号化するスパース・ボクセル・ピラーエンコーダを開発した。
我々の効率的で完全なスパース法は、密度検出器とスパース検出器の両方にシームレスに統合できる。
論文 参考訳(メタデータ) (2023-04-06T05:00:58Z) - Fusing Visual Appearance and Geometry for Multi-modality 6DoF Object
Tracking [21.74515335906769]
視覚的な外観や形状から情報を融合してオブジェクトのポーズを推定する多モードトラッカーを開発した。
このアルゴリズムは、幾何学的手法であるICGを拡張し、表面の外観をさらに考慮する。
論文 参考訳(メタデータ) (2023-02-22T15:53:00Z) - PolarMix: A General Data Augmentation Technique for LiDAR Point Clouds [100.03877236181546]
PolarMixは、シンプルで汎用的なポイントクラウド拡張技術である。
様々な3Dディープアーキテクチャのプラグイン・アンド・プレイとして機能し、教師なしのドメイン適応にも適しています。
論文 参考訳(メタデータ) (2022-07-30T13:52:19Z) - Semantic Segmentation on Swiss3DCities: A Benchmark Study on Aerial
Photogrammetric 3D Pointcloud Dataset [67.44497676652173]
スイスの3つの都市から採取された総面積2.7 km2$の屋外3Dポイントクラウドデータセットを紹介した。
データセットは、ポイントごとのラベルによるセマンティックセグメンテーションのために手動でアノテートされ、高解像度カメラを備えたマルチローターによって取得された画像のフォトグラムを用いて構築される。
論文 参考訳(メタデータ) (2020-12-23T21:48:47Z) - Stereo RGB and Deeper LIDAR Based Network for 3D Object Detection [40.34710686994996]
3Dオブジェクト検出は、自動運転のシナリオにおいて新たな課題となっている。
以前の作業では、プロジェクションベースまたはボクセルベースのモデルを使用して3Dポイントクラウドを処理していた。
本稿では,意味情報と空間情報の同時利用が可能なStereo RGBおよびDeeper LIDARフレームワークを提案する。
論文 参考訳(メタデータ) (2020-06-09T11:19:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。