論文の概要: TASeg: Temporal Aggregation Network for LiDAR Semantic Segmentation
- arxiv url: http://arxiv.org/abs/2407.09751v1
- Date: Sat, 13 Jul 2024 03:00:16 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-16 20:58:50.150458
- Title: TASeg: Temporal Aggregation Network for LiDAR Semantic Segmentation
- Title(参考訳): TASeg:LiDARセマンティックセグメンテーションのためのテンポラルアグリゲーションネットワーク
- Authors: Xiaopei Wu, Yuenan Hou, Xiaoshui Huang, Binbin Lin, Tong He, Xinge Zhu, Yuexin Ma, Boxi Wu, Haifeng Liu, Deng Cai, Wanli Ouyang,
- Abstract要約: そこで本稿では, 時系列LiDARアグリゲーション・蒸留(TLAD)アルゴリズムを提案する。
時間画像のフル活用を目的として,カメラFOVを大幅に拡張できるTIAFモジュールを設計した。
また,静的移動スイッチ拡張(SMSA)アルゴリズムを開発し,時間的情報を利用してオブジェクトの動作状態を自由に切り替える。
- 参考スコア(独自算出の注目度): 80.13343299606146
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Training deep models for LiDAR semantic segmentation is challenging due to the inherent sparsity of point clouds. Utilizing temporal data is a natural remedy against the sparsity problem as it makes the input signal denser. However, previous multi-frame fusion algorithms fall short in utilizing sufficient temporal information due to the memory constraint, and they also ignore the informative temporal images. To fully exploit rich information hidden in long-term temporal point clouds and images, we present the Temporal Aggregation Network, termed TASeg. Specifically, we propose a Temporal LiDAR Aggregation and Distillation (TLAD) algorithm, which leverages historical priors to assign different aggregation steps for different classes. It can largely reduce memory and time overhead while achieving higher accuracy. Besides, TLAD trains a teacher injected with gt priors to distill the model, further boosting the performance. To make full use of temporal images, we design a Temporal Image Aggregation and Fusion (TIAF) module, which can greatly expand the camera FOV and enhance the present features. Temporal LiDAR points in the camera FOV are used as mediums to transform temporal image features to the present coordinate for temporal multi-modal fusion. Moreover, we develop a Static-Moving Switch Augmentation (SMSA) algorithm, which utilizes sufficient temporal information to enable objects to switch their motion states freely, thus greatly increasing static and moving training samples. Our TASeg ranks 1st on three challenging tracks, i.e., SemanticKITTI single-scan track, multi-scan track and nuScenes LiDAR segmentation track, strongly demonstrating the superiority of our method. Codes are available at https://github.com/LittlePey/TASeg.
- Abstract(参考訳): LiDARセマンティックセマンティックセグメンテーションのための深層モデルのトレーニングは、ポイントクラウドの本質的な分散性のために難しい。
時間的データを活用することは、入力信号をより密にするため、空間性問題に対する自然な対策である。
しかし,従来の多フレーム融合アルゴリズムではメモリ制約による時間的情報の利用が不十分であり,情報的時間的イメージも無視する。
長期の時間点雲や画像に隠されたリッチな情報をフル活用するために,TASegと呼ばれるテンポラルアグリゲーションネットワークを提示する。
具体的には,時間的LiDAR凝集蒸留(TLAD)アルゴリズムを提案する。
高い精度を実現しながら、メモリと時間のオーバーヘッドを大幅に減らすことができる。
さらに、TLADはモデルを蒸留するためにgtを注入した教師を訓練し、パフォーマンスをさらに向上させる。
時間画像のフル活用を目的として,時間画像集約・融合モジュールを設計し,カメラFOVを大幅に拡張し,現在の特徴を増強する。
カメラFOVにおける時間的LiDAR点は、時間的画像特徴を時間的マルチモーダル融合のための現在の座標に変換する媒体として使用される。
さらに,静的移動スイッチ拡張 (SMSA) アルゴリズムを開発し,時間的情報を利用してオブジェクトの動作状態を自由に切り替えることを可能にし,静的かつ移動的なトレーニングサンプルを大幅に増加させる。
我々のTASegは、SemanticKITTIシングルスキャントラック、マルチスキャントラック、nuScenes LiDARセグメンテーショントラックの3つの挑戦トラックで1位であり、この手法の優位性を強く示している。
コードはhttps://github.com/LittlePey/TASegで入手できる。
関連論文リスト
- Hierarchical Temporal Context Learning for Camera-based Semantic Scene Completion [57.232688209606515]
カメラによるセマンティックシーンの補完を改善するための,新たな時間的文脈学習パラダイムであるHTCLを提案する。
提案手法は,Semantic KITTIベンチマークで1st$をランク付けし,mIoUの点でLiDARベースの手法を超えている。
論文 参考訳(メタデータ) (2024-07-02T09:11:17Z) - Spatio-Temporal Bi-directional Cross-frame Memory for Distractor Filtering Point Cloud Single Object Tracking [2.487142846438629]
LIDARポイント内の1つのオブジェクトトラッキングは、コンピュータビジョンにおける重要なタスクである。
既存の手法は、ネットワーク経由の外観マッチングのみに依存するか、連続したフレームからの情報を利用するが、重大な課題に遭遇する。
我々は、これらの課題を緩和するために、STMD-Trackerという、革新的なクロスフレームバイテンポラルモーショントラッカーを設計する。
論文 参考訳(メタデータ) (2024-03-23T13:15:44Z) - T-MAE: Temporal Masked Autoencoders for Point Cloud Representation Learning [22.002220932086693]
本稿では,T-MAE (Temporal Masked Auto-Encoders) という,効果的な事前学習戦略を提案する。
T-MAEは、時間的隣接フレームとして入力を受け取り、時間的依存を学習する。
我々のT-MAE事前学習戦略は、注釈付きデータに対する需要を軽減する。
論文 参考訳(メタデータ) (2023-12-15T21:30:49Z) - PTT: Point-Trajectory Transformer for Efficient Temporal 3D Object Detection [66.94819989912823]
時間的3次元物体検出を効率的に行うために,長期記憶が可能な点トラジェクトリ変換器を提案する。
私たちは、メモリバンクのストレージ要件を最小限に抑えるために、現在のフレームオブジェクトのポイントクラウドとその履歴トラジェクトリを入力として使用します。
大規模データセットに対する広範な実験を行い、我々のアプローチが最先端の手法に対してうまく機能することを実証した。
論文 参考訳(メタデータ) (2023-12-13T18:59:13Z) - Disentangling Spatial and Temporal Learning for Efficient Image-to-Video
Transfer Learning [59.26623999209235]
ビデオの空間的側面と時間的側面の学習を両立させるDiSTを提案する。
DiSTの非絡み合い学習は、大量の事前学習パラメータのバックプロパゲーションを避けるため、非常に効率的である。
5つのベンチマークの大規模な実験は、DiSTが既存の最先端メソッドよりも優れたパフォーマンスを提供することを示す。
論文 参考訳(メタデータ) (2023-09-14T17:58:33Z) - SUIT: Learning Significance-guided Information for 3D Temporal Detection [15.237488449422008]
フレーム間の情報融合のためのスパース機能として時間的情報を単純化するSUIT(Significance-gUided Information for 3D Temporal Detection)を学習する。
大規模なnuScenesとデータセットにおいて、SUITは時間融合のメモリとコストを大幅に削減するだけでなく、最先端のベースラインよりも優れた性能を発揮する。
論文 参考訳(メタデータ) (2023-07-04T16:22:10Z) - Efficient Spatial-Temporal Information Fusion for LiDAR-Based 3D Moving
Object Segmentation [23.666607237164186]
本稿では,LiDAR-MOSの性能向上のために,空間時空間情報とLiDARスキャンの異なる表現モダリティを併用した新しいディープニューラルネットワークを提案する。
具体的には、まず、空間情報と時間情報とを別々に扱うために、レンジ画像に基づくデュアルブランチ構造を用いる。
また、3次元スパース畳み込みによるポイントリファインメントモジュールを使用して、LiDAR範囲の画像とポイントクラウド表現の両方からの情報を融合する。
論文 参考訳(メタデータ) (2022-07-05T17:59:17Z) - LiDARCap: Long-range Marker-less 3D Human Motion Capture with LiDAR
Point Clouds [58.402752909624716]
既存のモーションキャプチャデータセットはほとんどが短距離であり、まだ長距離アプリケーションのニーズに合わない。
我々は,この制限を克服するために,LiDARがより長い範囲で捉えた新しい人間のモーションキャプチャーデータセットLiDARHuman26Mを提案する。
我々のデータセットには、IMUシステムによって取得された人間の動きと同期RGB画像も含まれている。
論文 参考訳(メタデータ) (2022-03-28T12:52:45Z) - LiDAR-based Recurrent 3D Semantic Segmentation with Temporal Memory
Alignment [0.0]
本稿では,単一範囲の画像フレームを入力とする再帰セグメンテーションアーキテクチャ(RNN)を提案する。
私たちがテンポラルメモリアライメントと呼ぶアライメント戦略は、エゴモーションを使用して、フィーチャースペース内の連続フレーム間のメモリをテンポラリアライメントします。
2つの大規模データセットに対する提案手法の利点を実証し,いくつかの最先端手法と比較する。
論文 参考訳(メタデータ) (2021-03-03T09:01:45Z) - DS-Net: Dynamic Spatiotemporal Network for Video Salient Object
Detection [78.04869214450963]
時間情報と空間情報のより効果的な融合のための新しい動的時空間ネットワーク(DSNet)を提案する。
提案手法は最先端アルゴリズムよりも優れた性能が得られることを示す。
論文 参考訳(メタデータ) (2020-12-09T06:42:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。