論文の概要: Spatial-Temporal Transformer for 3D Point Cloud Sequences
- arxiv url: http://arxiv.org/abs/2110.09783v1
- Date: Tue, 19 Oct 2021 07:55:47 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-20 22:06:19.044463
- Title: Spatial-Temporal Transformer for 3D Point Cloud Sequences
- Title(参考訳): 3次元点雲列に対する空間時間変換器
- Authors: Yimin Wei, Hao Liu, Tingting Xie, Qiuhong Ke, Yulan Guo
- Abstract要約: 本稿では,空間時間表現を学習するためのPST(Point Space-Temporal Transformer)という新しいフレームワークを提案する。
我々のPST2は2つの主要なモジュールからなる: 時空間自己認識(STSA)モジュールと分解能埋め込み(RE)モジュール。
PST2の有効性を、ポイントクラウドシーケンス上の2つの異なるタスク、すなわち4Dセマンティックセグメンテーションと3Dアクション認識で検証する。
- 参考スコア(独自算出の注目度): 23.000688043417913
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Effective learning of spatial-temporal information within a point cloud
sequence is highly important for many down-stream tasks such as 4D semantic
segmentation and 3D action recognition. In this paper, we propose a novel
framework named Point Spatial-Temporal Transformer (PST2) to learn
spatial-temporal representations from dynamic 3D point cloud sequences. Our
PST2 consists of two major modules: a Spatio-Temporal Self-Attention (STSA)
module and a Resolution Embedding (RE) module. Our STSA module is introduced to
capture the spatial-temporal context information across adjacent frames, while
the RE module is proposed to aggregate features across neighbors to enhance the
resolution of feature maps. We test the effectiveness our PST2 with two
different tasks on point cloud sequences, i.e., 4D semantic segmentation and 3D
action recognition. Extensive experiments on three benchmarks show that our
PST2 outperforms existing methods on all datasets. The effectiveness of our
STSA and RE modules have also been justified with ablation experiments.
- Abstract(参考訳): 4次元セマンティックセグメンテーションや3次元行動認識といった下流タスクにおいて,ポイントクラウドシーケンス内の時空間情報の効果的な学習は極めて重要である。
本稿では,動的3次元点雲列から時空間表現を学習するためのPST(Point Spatial-Temporal Transformer)という新しいフレームワークを提案する。
我々のPST2は2つの主要なモジュールからなる: 時空間自己認識(STSA)モジュールと分解能埋め込み(RE)モジュール。
我々のSTSAモジュールは隣接するフレーム間の空間的時間的文脈情報をキャプチャするために導入され、REモジュールは特徴マップの解像度を高めるために隣り合った特徴を集約するために提案されている。
PST2の有効性を、ポイントクラウドシーケンス上の2つの異なるタスク、すなわち4Dセマンティックセグメンテーションと3Dアクション認識で検証する。
3つのベンチマークに関する広範な実験では、すべてのデータセットで既存のメソッドよりもpst2の方が優れています。
また,STSAおよびREモジュールの有効性をアブレーション実験により検証した。
関連論文リスト
- FASTC: A Fast Attentional Framework for Semantic Traversability Classification Using Point Cloud [7.711666704468952]
点雲を用いたトラバーサビリティ評価の問題に対処する。
本稿では,垂直に配置された点雲から特徴を捉えるために PointNet を利用した柱状特徴抽出モジュールを提案する。
次に、LIDAR点雲の密度問題に適切に対応できる多フレーム情報を融合する新しい時間的アテンションモジュールを提案する。
論文 参考訳(メタデータ) (2024-06-24T12:01:55Z) - Dynamic 3D Point Cloud Sequences as 2D Videos [81.46246338686478]
3Dポイントクラウドシーケンスは、現実世界の環境における最も一般的で実用的な表現の1つとして機能する。
textitStructured Point Cloud Videos (SPCV) と呼ばれる新しい汎用表現を提案する。
SPCVは点雲列を空間的滑らかさと時間的一貫性を持つ2Dビデオとして再編成し、画素値は点の3D座標に対応する。
論文 参考訳(メタデータ) (2024-03-02T08:18:57Z) - PTT: Point-Trajectory Transformer for Efficient Temporal 3D Object Detection [66.94819989912823]
時間的3次元物体検出を効率的に行うために,長期記憶が可能な点トラジェクトリ変換器を提案する。
私たちは、メモリバンクのストレージ要件を最小限に抑えるために、現在のフレームオブジェクトのポイントクラウドとその履歴トラジェクトリを入力として使用します。
大規模データセットに対する広範な実験を行い、我々のアプローチが最先端の手法に対してうまく機能することを実証した。
論文 参考訳(メタデータ) (2023-12-13T18:59:13Z) - Ret3D: Rethinking Object Relations for Efficient 3D Object Detection in
Driving Scenes [82.4186966781934]
Ret3Dと呼ばれるシンプルで効率的で効果的な2段階検出器を導入する。
Ret3Dの中核は、新しいフレーム内およびフレーム間関係モジュールの利用である。
無視できる余分なオーバーヘッドにより、Ret3Dは最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2022-08-18T03:48:58Z) - PSTNet: Point Spatio-Temporal Convolution on Point Cloud Sequences [51.53563462897779]
本稿では,ポイントクラウドシーケンスの情報表現を実現するために,PST畳み込みを提案する。
PSTは3次元空間における局所的構造点を捉えるために空間畳み込みを用い、時間次元に沿った空間領域のダイナミクスをモデル化するために時間畳み込みを用いる。
提案したPST畳み込みを深層ネットワーク,すなわちPSTNetに組み込んで,階層的に点群列の特徴を抽出する。
論文 参考訳(メタデータ) (2022-05-27T02:14:43Z) - Cylindrical and Asymmetrical 3D Convolution Networks for LiDAR-based
Perception [122.53774221136193]
運転時のLiDARに基づく認識のための最先端の手法は、しばしば点雲を2D空間に投影し、2D畳み込みによって処理する。
自然な対策として、3Dボクセル化と3D畳み込みネットワークを利用する方法がある。
本研究では,3次元幾何学的パターンを探索するために,円筒状分割と非対称な3次元畳み込みネットワークを設計する,屋外LiDARセグメンテーションのための新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2021-09-12T06:25:11Z) - SIENet: Spatial Information Enhancement Network for 3D Object Detection
from Point Cloud [20.84329063509459]
LiDARベースの3Dオブジェクト検出は、自動運転車に大きな影響を与える。
LiDARの固有特性の制限により、センサーから遠く離れた物体において、より少ない点が収集される。
そこで本研究では,SIENetという2段階の3次元物体検出フレームワークを提案する。
論文 参考訳(メタデータ) (2021-03-29T07:45:09Z) - Anchor-Based Spatial-Temporal Attention Convolutional Networks for
Dynamic 3D Point Cloud Sequences [20.697745449159097]
動的3次元点雲列を処理するために,アンカー型時空間注意畳み込み演算(astaconv)を提案する。
提案する畳み込み操作は、各点の周囲に複数の仮想アンカーを設定することにより、各点の周囲にレギュラーレセプティブフィールドを構築する。
提案手法は,局所領域内の構造化情報をよりよく活用し,動的3次元点雲列から空間-時間埋め込み特徴を学習する。
論文 参考訳(メタデータ) (2020-12-20T07:35:37Z) - LiDAR-based Online 3D Video Object Detection with Graph-based Message
Passing and Spatiotemporal Transformer Attention [100.52873557168637]
3Dオブジェクト検出器は、通常は単一フレームの検出にフォーカスするが、連続する点のクラウドフレームでは情報を無視する。
本稿では,ポイントシーケンスで動作するエンドツーエンドのオンライン3Dビデオオブジェクト検出器を提案する。
論文 参考訳(メタデータ) (2020-04-03T06:06:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。