論文の概要: Learning Spatial and Temporal Variations for 4D Point Cloud Segmentation
- arxiv url: http://arxiv.org/abs/2207.04673v1
- Date: Mon, 11 Jul 2022 07:36:26 GMT
- ステータス: 処理完了
- システム内更新日: 2022-07-12 14:55:00.484770
- Title: Learning Spatial and Temporal Variations for 4D Point Cloud Segmentation
- Title(参考訳): 4次元点雲分割のための空間的・時間的変動の学習
- Authors: Shi Hanyu, Wei Jiacheng, Wang Hao, Liu Fayao and Lin Guosheng
- Abstract要約: フレーム間の時間的情報は3次元シーンの知覚に重要な知識をもたらすと我々は主張する。
本研究では,4次元点雲の時間変動を捉えるために,時間変動対応モジュールと時間変化対応のボクセル点精製器を設計する。
- 参考スコア(独自算出の注目度): 0.39373541926236766
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: LiDAR-based 3D scene perception is a fundamental and important task for
autonomous driving. Most state-of-the-art methods on LiDAR-based 3D recognition
tasks focus on single frame 3D point cloud data, and the temporal information
is ignored in those methods. We argue that the temporal information across the
frames provides crucial knowledge for 3D scene perceptions, especially in the
driving scenario. In this paper, we focus on spatial and temporal variations to
better explore the temporal information across the 3D frames. We design a
temporal variation-aware interpolation module and a temporal voxel-point
refiner to capture the temporal variation in the 4D point cloud. The temporal
variation-aware interpolation generates local features from the previous and
current frames by capturing spatial coherence and temporal variation
information. The temporal voxel-point refiner builds a temporal graph on the 3D
point cloud sequences and captures the temporal variation with a graph
convolution module. The temporal voxel-point refiner also transforms the coarse
voxel-level predictions into fine point-level predictions. With our proposed
modules, the new network TVSN achieves state-of-the-art performance on
SemanticKITTI and SemantiPOSS. Specifically, our method achieves 52.5\% in mIoU
(+5.5% against previous best approaches) on the multiple scan segmentation task
on SemanticKITTI, and 63.0% on SemanticPOSS (+2.8% against previous best
approaches).
- Abstract(参考訳): LiDARベースの3Dシーン認識は、自動運転の基本的で重要なタスクである。
LiDARに基づく3D認識タスクの最先端手法のほとんどは、単一のフレーム3Dポイントクラウドデータに焦点をあてており、これらの手法では時間情報は無視される。
フレーム間の時間情報は,特に運転シナリオにおいて,3次元シーンの知覚に重要な知識を提供する。
本稿では,空間的および時間的変動に着目し,3次元フレーム間の時間的情報の探索を行う。
時間変動を考慮した補間モジュールと時相ボクセル点修正器を設計し, 4次元点雲の時間変動を捉える。
時間変化認識補間は、時間的コヒーレンスおよび時間的変動情報をキャプチャすることにより、前および現在のフレームから局所的な特徴を生成する。
時間ボクセル点精製器は3次元点雲列上に時間グラフを構築し、時間変動をグラフ畳み込みモジュールでキャプチャする。
時間的ボクセル点積分器は粗いボクセル準位予測を微妙な点準位予測に変換する。
提案するモジュールにより,新しいネットワークTVSNは,SemanticKITTIとSemantiPOSSの最先端性能を実現する。
具体的には,semantickittiのマルチスキャンセグメンテーションタスクにおけるmiou(以前のベストアプローチに対して+5.5%)の52.5\%,semanticposs(以前のベストアプローチに対して+2.8%)の63.0%を達成した。
関連論文リスト
- 3D Single-object Tracking in Point Clouds with High Temporal Variation [79.5863632942935]
点雲の高時間変動は3次元単一物体追跡の鍵となる課題である(3D SOT)
既存のアプローチは、点雲の形状変化と、隣接するフレームを横切る物体の運動が滑らかであるという仮定に依存している。
HVTrackと呼ばれる高時間変動の点群における3次元SOTのための新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2024-08-04T14:57:28Z) - Hierarchical Temporal Context Learning for Camera-based Semantic Scene Completion [57.232688209606515]
カメラによるセマンティックシーンの補完を改善するための,新たな時間的文脈学習パラダイムであるHTCLを提案する。
提案手法は,Semantic KITTIベンチマークで1st$をランク付けし,mIoUの点でLiDARベースの手法を超えている。
論文 参考訳(メタデータ) (2024-07-02T09:11:17Z) - SUIT: Learning Significance-guided Information for 3D Temporal Detection [15.237488449422008]
フレーム間の情報融合のためのスパース機能として時間的情報を単純化するSUIT(Significance-gUided Information for 3D Temporal Detection)を学習する。
大規模なnuScenesとデータセットにおいて、SUITは時間融合のメモリとコストを大幅に削減するだけでなく、最先端のベースラインよりも優れた性能を発揮する。
論文 参考訳(メタデータ) (2023-07-04T16:22:10Z) - PSTNet: Point Spatio-Temporal Convolution on Point Cloud Sequences [51.53563462897779]
本稿では,ポイントクラウドシーケンスの情報表現を実現するために,PST畳み込みを提案する。
PSTは3次元空間における局所的構造点を捉えるために空間畳み込みを用い、時間次元に沿った空間領域のダイナミクスをモデル化するために時間畳み込みを用いる。
提案したPST畳み込みを深層ネットワーク,すなわちPSTNetに組み込んで,階層的に点群列の特徴を抽出する。
論文 参考訳(メタデータ) (2022-05-27T02:14:43Z) - IDEA-Net: Dynamic 3D Point Cloud Interpolation via Deep Embedding
Alignment [58.8330387551499]
我々は、点方向軌跡(すなわち滑らかな曲線)の推定として問題を定式化する。
本稿では,学習した時間的一貫性の助けを借りて問題を解消する,エンドツーエンドのディープラーニングフレームワークであるIDEA-Netを提案する。
各種点群における本手法の有効性を実証し, 定量的かつ視覚的に, 最先端の手法に対する大幅な改善を観察する。
論文 参考訳(メタデータ) (2022-03-22T10:14:08Z) - Exploring Optical-Flow-Guided Motion and Detection-Based Appearance for
Temporal Sentence Grounding [61.57847727651068]
テンポラルな文グラウンドディングは、与えられた文クエリに従って、意図しないビデオのターゲットセグメントをセマンティックにローカライズすることを目的としている。
これまでのほとんどの研究は、ビデオ全体のフレーム全体のフレームレベルの特徴を学習することに集中しており、それらをテキスト情報と直接一致させる。
我々は,光フロー誘導型モーションアウェア,検出ベース外観アウェア,3D認識オブジェクトレベル機能を備えた,動き誘導型3Dセマンティック推論ネットワーク(MA3SRN)を提案する。
論文 参考訳(メタデータ) (2022-03-06T13:57:09Z) - Anchor-Based Spatial-Temporal Attention Convolutional Networks for
Dynamic 3D Point Cloud Sequences [20.697745449159097]
動的3次元点雲列を処理するために,アンカー型時空間注意畳み込み演算(astaconv)を提案する。
提案する畳み込み操作は、各点の周囲に複数の仮想アンカーを設定することにより、各点の周囲にレギュラーレセプティブフィールドを構築する。
提案手法は,局所領域内の構造化情報をよりよく活用し,動的3次元点雲列から空間-時間埋め込み特徴を学習する。
論文 参考訳(メタデータ) (2020-12-20T07:35:37Z) - Multi Projection Fusion for Real-time Semantic Segmentation of 3D LiDAR
Point Clouds [2.924868086534434]
本稿では,ポイントクラウドの複数のプロジェクションを利用する3次元ポイントクラウドセマンティックセマンティックセマンティクスの新しいアプローチを提案する。
我々のMulti-Projection Fusionフレームワークは、2つの異なる高効率2次元完全畳み込みモデルを用いて球面および鳥眼の視射影を解析する。
論文 参考訳(メタデータ) (2020-11-03T19:40:43Z) - 3DMotion-Net: Learning Continuous Flow Function for 3D Motion Prediction [12.323767993152968]
本研究では,従来の2つの連続したフレームから3次元物体の3次元運動を予測する問題に対処する。
本稿では,ディープニューラルネットワークのパワーを活用して3次元点雲の連続流れ関数を学習する自己教師型アプローチを提案する。
D-FAUST,SCAPE,TOSCAベンチマークデータセットについて広範な実験を行い,本手法が時間的に一貫性のない入力を処理可能であることを示す。
論文 参考訳(メタデータ) (2020-06-24T17:39:19Z) - Pseudo-LiDAR Point Cloud Interpolation Based on 3D Motion Representation
and Spatial Supervision [68.35777836993212]
我々はPseudo-LiDAR点雲ネットワークを提案し、時間的および空間的に高品質な点雲列を生成する。
点雲間のシーンフローを活用することにより,提案ネットワークは3次元空間運動関係のより正確な表現を学習することができる。
論文 参考訳(メタデータ) (2020-06-20T03:11:04Z) - A Graph Attention Spatio-temporal Convolutional Network for 3D Human
Pose Estimation in Video [7.647599484103065]
我々は,アテンション機構を用いた局所的グローバル空間情報のモデリングにより,人間の骨格における制約の学習を改善する。
提案手法は, 奥行きのあいまいさと自己閉塞性を効果的に軽減し, 半上半身推定を一般化し, 2次元から3次元映像のポーズ推定における競合性能を実現する。
論文 参考訳(メタデータ) (2020-03-11T14:54:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。