論文の概要: 3D Learnable Supertoken Transformer for LiDAR Point Cloud Scene Segmentation
- arxiv url: http://arxiv.org/abs/2405.15826v1
- Date: Thu, 23 May 2024 20:41:15 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-29 02:39:33.900606
- Title: 3D Learnable Supertoken Transformer for LiDAR Point Cloud Scene Segmentation
- Title(参考訳): LiDARポイントクラウドシーンセグメンテーションのための3次元学習型スーパートーケン変換器
- Authors: Dening Lu, Jun Zhou, Kyle Gao, Linlin Xu, Jonathan Li,
- Abstract要約: 本稿では, 3D Learnable Supertoken Transformer (3DLST) という新しい3Dトランスフレームワークを提案する。
3DLSTは、一般的なU-net設計ではなく、新しいW-netアーキテクチャを備えている。
アルゴリズムの効率は従来の最高の性能の手法よりも最大5倍高速である。
- 参考スコア(独自算出の注目度): 19.94836580257577
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: 3D Transformers have achieved great success in point cloud understanding and representation. However, there is still considerable scope for further development in effective and efficient Transformers for large-scale LiDAR point cloud scene segmentation. This paper proposes a novel 3D Transformer framework, named 3D Learnable Supertoken Transformer (3DLST). The key contributions are summarized as follows. Firstly, we introduce the first Dynamic Supertoken Optimization (DSO) block for efficient token clustering and aggregating, where the learnable supertoken definition avoids the time-consuming pre-processing of traditional superpoint generation. Since the learnable supertokens can be dynamically optimized by multi-level deep features during network learning, they are tailored to the semantic homogeneity-aware token clustering. Secondly, an efficient Cross-Attention-guided Upsampling (CAU) block is proposed for token reconstruction from optimized supertokens. Thirdly, the 3DLST is equipped with a novel W-net architecture instead of the common U-net design, which is more suitable for Transformer-based feature learning. The SOTA performance on three challenging LiDAR datasets (airborne MultiSpectral LiDAR (MS-LiDAR) (89.3% of the average F1 score), DALES (80.2% of mIoU), and Toronto-3D dataset (80.4% of mIoU)) demonstrate the superiority of 3DLST and its strong adaptability to various LiDAR point cloud data (airborne MS-LiDAR, aerial LiDAR, and vehicle-mounted LiDAR data). Furthermore, 3DLST also achieves satisfactory results in terms of algorithm efficiency, which is up to 5x faster than previous best-performing methods.
- Abstract(参考訳): 3Dトランスフォーマーは、ポイントクラウドの理解と表現で大きな成功を収めています。
しかし、大規模なLiDARポイントクラウドシーンセグメンテーションのための効率的かつ効率的なトランスフォーマーの開発には、まだかなりの範囲がある。
本稿では,3D Learnable Supertoken Transformer (3DLST) という新しい3Dトランスフレームワークを提案する。
主な貢献は以下の通りである。
まず,高速なトークンクラスタリングとアグリゲーションのための動的スーパートークン最適化(DSO)ブロックを導入し,学習可能なスーパートークン定義は従来のスーパーポイント生成の処理に時間を要することを避ける。
学習可能なスーパートークンは、ネットワーク学習中に多段階の深い特徴によって動的に最適化できるため、セマンティック・ホモジニティ・アウェア・トークン・クラスタリングに適合する。
第2に、最適化されたスーパートークンからのトークン再構成のために、効率的なクロスアテンション誘導型アップサンプリング(CAU)ブロックを提案する。
第3に、3DLSTは共通のU-net設計ではなく、新しいW-netアーキテクチャを備えており、トランスフォーマーベースの特徴学習に適している。
3つの挑戦的LiDARデータセット(空中マルチスペクトルLiDAR(MS-LiDAR)、平均F1スコアの89.3%、DALES(80.2%、mIoU)、トロント3Dデータセット(80.4%、mIoU)のSOTAパフォーマンスは、3DLSTの優位性と様々なLiDARポイントクラウドデータ(空中MS-LiDAR、空中LiDAR、車載LiDARデータ)への強力な適応性を示している。
さらに、3DLSTはアルゴリズム効率の点で満足な結果を得ることができ、これは従来の最高の性能の手法よりも最大5倍高速である。
関連論文リスト
- Robin3D: Improving 3D Large Language Model via Robust Instruction Tuning [55.339257446600634]
大規模命令追従データに基づいて訓練された強力な3DLLMであるRobin3Dを紹介する。
我々は,344K の逆数サンプル,508K の逆数サンプル,および165K のベンチマーク・トレーニング・セットからなる100万の命令追従データを構築した。
Robin3Dは、広く使用されている5つのマルチモーダル学習ベンチマークにおいて、従来方法よりも一貫して優れています。
論文 参考訳(メタデータ) (2024-09-30T21:55:38Z) - Unleashing the Potential of Mamba: Boosting a LiDAR 3D Sparse Detector by Using Cross-Model Knowledge Distillation [22.653014803666668]
FASDと呼ばれる高速LiDAR3Dオブジェクト検出フレームワークを提案する。
高速シーケンスモデリングのための変換器のキャパシティをFLOPの低いMambaモデルに蒸留し,知識伝達による精度の向上を実現することを目的とする。
我々は,データセットとnuScenesのフレームワークを評価し,リソース消費の4倍の削減と,現在のSoTA手法よりも1-2%の性能向上を実現した。
論文 参考訳(メタデータ) (2024-09-17T09:30:43Z) - Efficient Point Transformer with Dynamic Token Aggregating for Point Cloud Processing [19.73918716354272]
ポイントクラウド表現と処理のための動的トークン集約(DTA-Former)を用いた効率的なポイントトランスフォーマーを提案する。
ModelNet40、ShapeNet、航空機搭載MultiSpectral LiDAR(MS-LiDAR)データセット上の前点変換器よりも最大30$times$高速でSOTAパフォーマンスを実現する。
論文 参考訳(メタデータ) (2024-05-23T20:50:50Z) - Multi-Modal Data-Efficient 3D Scene Understanding for Autonomous Driving [58.16024314532443]
我々は、異なるLiDARスキャンからレーザービーム操作を統合するフレームワークであるLaserMix++を導入し、データ効率の学習を支援するためにLiDAR-カメラ対応を組み込んだ。
結果は、LaserMix++が完全に教師付き代替よりも優れており、5倍のアノテーションで同等の精度を実現していることを示している。
この大幅な進歩は、LiDARベースの3Dシーン理解システムにおける広範囲なラベル付きデータへの依存を減らすための半教師付きアプローチの可能性を示している。
論文 参考訳(メタデータ) (2024-05-08T17:59:53Z) - Point Cloud Mamba: Point Cloud Learning via State Space Model [73.7454734756626]
我々は,マンバをベースとしたポイントクラウド法が,トランスフォーマや多層パーセプトロン(MLP)に基づく従来手法よりも優れていることを示す。
特に,マルチ層パーセプトロン(MLP)を用いて,マンバをベースとした点雲法が従来手法より優れていることを示す。
Point Cloud Mambaは、最先端(SOTA)のポイントベースメソッドであるPointNeXtを超え、ScanNN、ModelNet40、ShapeNetPart、S3DISデータセット上での新たなSOTAパフォーマンスを達成する。
論文 参考訳(メタデータ) (2024-03-01T18:59:03Z) - Hourglass Tokenizer for Efficient Transformer-Based 3D Human Pose Estimation [73.31524865643709]
本稿では,Hourglass Tokenizer (HoT) と呼ばれるプラグアンドプレイのプルーニング・アンド・リカバリフレームワークを提案する。
私たちのHoDTは、冗長なフレームのポーズトークンのプルーニングから始まり、フル長のトークンを復元することで終了します。
提案手法は,従来のVPTモデルと比較して高い効率性と推定精度を両立させることができる。
論文 参考訳(メタデータ) (2023-11-20T18:59:51Z) - LiDARFormer: A Unified Transformer-based Multi-task Network for LiDAR
Perception [15.919789515451615]
変換器に基づく新しいLiDARマルチタスク学習パラダイムを提案する。
LiDARFormerはクロスタスクのシナジーを利用して、LiDAR知覚タスクのパフォーマンスを向上させる。
LiDARFormerは3D検出とセマンティックセグメンテーションの両方のために、大規模なnuScenesとOpenデータセットで評価されている。
論文 参考訳(メタデータ) (2023-03-21T20:52:02Z) - Li3DeTr: A LiDAR based 3D Detection Transformer [0.0]
Li3DeTrは、自動運転のためのLiDARベースの3D検出トランスである。
Li3DeTrネットワークは61.3%のmAPと67.6%のNDSを達成した。
論文 参考訳(メタデータ) (2022-10-27T12:23:54Z) - CloudAttention: Efficient Multi-Scale Attention Scheme For 3D Point
Cloud Learning [81.85951026033787]
この作業にトランスフォーマーをセットし、それらを形状分類と部分およびシーンセグメンテーションのための階層的なフレームワークに組み込む。
また、各イテレーションにおけるサンプリングとグループ化を活用して、効率的でダイナミックなグローバルなクロスアテンションを計算します。
提案した階層モデルは,最先端の形状分類を平均精度で達成し,従来のセグメンテーション法と同等の結果を得る。
論文 参考訳(メタデータ) (2022-07-31T21:39:15Z) - LiDAR-based 4D Panoptic Segmentation via Dynamic Shifting Network [56.71765153629892]
本稿では,ポイントクラウド領域における効果的な単視分割フレームワークとして機能する動的シフトネットワーク(DS-Net)を提案する。
提案するDS-Netは,両タスクの現在の最先端手法よりも優れた精度を実現する。
DS-Netを4次元パノプティカルLiDARセグメンテーションに拡張し、一列のLiDARフレーム上で時間的に統一されたインスタンスクラスタリングを行う。
論文 参考訳(メタデータ) (2022-03-14T15:25:42Z) - 3DCTN: 3D Convolution-Transformer Network for Point Cloud Classification [23.0009969537045]
本稿では,ポイントクラウド分類のためのTransformerとの畳み込みを取り入れた,新しい階層型フレームワークを提案する。
本手法は精度と効率の両面で最先端の分類性能を実現する。
論文 参考訳(メタデータ) (2022-03-02T02:42:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。