論文の概要: Efficient Point Transformer with Dynamic Token Aggregating for Point Cloud Processing
- arxiv url: http://arxiv.org/abs/2405.15827v1
- Date: Thu, 23 May 2024 20:50:50 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-29 02:29:48.228131
- Title: Efficient Point Transformer with Dynamic Token Aggregating for Point Cloud Processing
- Title(参考訳): ポイントクラウド処理のための動的トークン集約による効率的な点変換器
- Authors: Dening Lu, Jun Zhou, Kyle, Gao, Linlin Xu, Jonathan Li,
- Abstract要約: ポイントクラウド表現と処理のための動的トークン集約(DTA-Former)を用いた効率的なポイントトランスフォーマーを提案する。
ModelNet40、ShapeNet、航空機搭載MultiSpectral LiDAR(MS-LiDAR)データセット上の前点変換器よりも最大30$times$高速でSOTAパフォーマンスを実現する。
- 参考スコア(独自算出の注目度): 19.73918716354272
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Recently, point cloud processing and analysis have made great progress due to the development of 3D Transformers. However, existing 3D Transformer methods usually are computationally expensive and inefficient due to their huge and redundant attention maps. They also tend to be slow due to requiring time-consuming point cloud sampling and grouping processes. To address these issues, we propose an efficient point TransFormer with Dynamic Token Aggregating (DTA-Former) for point cloud representation and processing. Firstly, we propose an efficient Learnable Token Sparsification (LTS) block, which considers both local and global semantic information for the adaptive selection of key tokens. Secondly, to achieve the feature aggregation for sparsified tokens, we present the first Dynamic Token Aggregating (DTA) block in the 3D Transformer paradigm, providing our model with strong aggregated features while preventing information loss. After that, a dual-attention Transformer-based Global Feature Enhancement (GFE) block is used to improve the representation capability of the model. Equipped with LTS, DTA, and GFE blocks, DTA-Former achieves excellent classification results via hierarchical feature learning. Lastly, a novel Iterative Token Reconstruction (ITR) block is introduced for dense prediction whereby the semantic features of tokens and their semantic relationships are gradually optimized during iterative reconstruction. Based on ITR, we propose a new W-net architecture, which is more suitable for Transformer-based feature learning than the common U-net design. Extensive experiments demonstrate the superiority of our method. It achieves SOTA performance with up to 30$\times$ faster than prior point Transformers on ModelNet40, ShapeNet, and airborne MultiSpectral LiDAR (MS-LiDAR) datasets.
- Abstract(参考訳): 近年,3Dトランスの開発により,ポイントクラウド処理と解析が大きな進歩を遂げている。
しかし、既存の3Dトランスフォーマー法は、大きくて冗長なアテンションマップのため、計算に高価で非効率であることが多い。
また、時間を要するポイントクラウドのサンプリングとグループ化のプロセスを必要とするため、遅い傾向にある。
これらの問題に対処するために,ポイントクラウド表現と処理のための動的トークン集約(DTA-Former)を用いた効率的なポイントトランスフォーマーを提案する。
まず,鍵トークンの適応選択のための局所的および大域的意味情報の両方を考慮した,効率的な学習可能なトークンスカラー化(LTS)ブロックを提案する。
第2に,スペーサー化トークンの特徴集約を実現するため,第1の動的トークン集約(DTA)ブロックを3Dトランスフォーマーパラダイムに提示し,情報損失を防止しつつ,強力な集約機能を実現する。
その後、デュアルアテンショントランスフォーマーベースのグローバル特徴拡張(GFE)ブロックを使用して、モデルの表現能力を向上する。
LTS, DTA, GFEブロックを備えたDTA-Formerは階層的特徴学習により優れた分類結果が得られる。
最後に、トークンの意味的特徴とそれらの意味的関係が、反復的再構成中に徐々に最適化されるように、新しい反復的トークン再構成(ITR)ブロックを導入している。
ITRに基づく新しいW-netアーキテクチャを提案する。これは一般的なU-net設計よりもTransformerベースの特徴学習に適している。
大規模な実験により,本手法の優位性を実証した。
ModelNet40、ShapeNet、航空機搭載MultiSpectral LiDAR(MS-LiDAR)データセットの事前ポイントトランスフォーマーよりも最大30$\times$高速なSOTAパフォーマンスを実現している。
関連論文リスト
- 3D Learnable Supertoken Transformer for LiDAR Point Cloud Scene Segmentation [19.94836580257577]
本稿では, 3D Learnable Supertoken Transformer (3DLST) という新しい3Dトランスフレームワークを提案する。
3DLSTは、一般的なU-net設計ではなく、新しいW-netアーキテクチャを備えている。
アルゴリズムの効率は従来の最高の性能の手法よりも最大5倍高速である。
論文 参考訳(メタデータ) (2024-05-23T20:41:15Z) - FormerTime: Hierarchical Multi-Scale Representations for Multivariate
Time Series Classification [53.55504611255664]
formerTimeは、多変量時系列分類タスクの分類能力を改善する階層的表現モデルである。
1)時系列データから階層的なマルチスケール表現を学習し、(2)トランスフォーマーと畳み込みネットワークの強さを継承し、(3)自己維持メカニズムによって引き起こされる効率の課題に取り組む。
論文 参考訳(メタデータ) (2023-02-20T07:46:14Z) - AdaPoinTr: Diverse Point Cloud Completion with Adaptive Geometry-Aware
Transformers [94.11915008006483]
本稿では,ポイントクラウドの完了をセット・ツー・セットの翻訳問題として再定義する手法を提案する。
我々は、ポイントクラウド補完のためにTransformerエンコーダデコーダアーキテクチャを採用したPoinTrと呼ばれる新しいモデルを設計する。
本手法は,PCNで6.53 CD,ShapeNet-55で0.81 CD,現実世界のKITTIで0.392 MMDを実現する。
論文 参考訳(メタデータ) (2023-01-11T16:14:12Z) - CloudAttention: Efficient Multi-Scale Attention Scheme For 3D Point
Cloud Learning [81.85951026033787]
この作業にトランスフォーマーをセットし、それらを形状分類と部分およびシーンセグメンテーションのための階層的なフレームワークに組み込む。
また、各イテレーションにおけるサンプリングとグループ化を活用して、効率的でダイナミックなグローバルなクロスアテンションを計算します。
提案した階層モデルは,最先端の形状分類を平均精度で達成し,従来のセグメンテーション法と同等の結果を得る。
論文 参考訳(メタデータ) (2022-07-31T21:39:15Z) - Dynamic Spatial Sparsification for Efficient Vision Transformers and
Convolutional Neural Networks [88.77951448313486]
視覚データにおける空間空間空間性を利用したモデルアクセラレーションのための新しい手法を提案する。
本稿では,冗長トークンを具現化する動的トークンスペーシフィケーションフレームワークを提案する。
提案手法は,CNNや階層型視覚変換器などの階層モデルに拡張する。
論文 参考訳(メタデータ) (2022-07-04T17:00:51Z) - Joint Spatial-Temporal and Appearance Modeling with Transformer for
Multiple Object Tracking [59.79252390626194]
本稿ではTransSTAMという新しい手法を提案する。Transformerを利用して各オブジェクトの外観特徴とオブジェクト間の空間的時間的関係の両方をモデル化する。
提案手法はMOT16, MOT17, MOT20を含む複数の公開ベンチマークで評価され, IDF1とHOTAの両方で明確な性能向上を実現している。
論文 参考訳(メタデータ) (2022-05-31T01:19:18Z) - 3DCTN: 3D Convolution-Transformer Network for Point Cloud Classification [23.0009969537045]
本稿では,ポイントクラウド分類のためのTransformerとの畳み込みを取り入れた,新しい階層型フレームワークを提案する。
本手法は精度と効率の両面で最先端の分類性能を実現する。
論文 参考訳(メタデータ) (2022-03-02T02:42:14Z) - CpT: Convolutional Point Transformer for 3D Point Cloud Processing [10.389972581905]
CpT: Convolutional Point Transformer - 3Dポイントクラウドデータの非構造化の性質を扱うための新しいディープラーニングアーキテクチャ。
CpTは、既存の注目ベースのConvolutions Neural Networksと、以前の3Dポイントクラウド処理トランスフォーマーの改善である。
我々のモデルは、既存の最先端のアプローチと比較して、様々なポイントクラウド処理タスクの効果的なバックボーンとして機能する。
論文 参考訳(メタデータ) (2021-11-21T17:45:55Z) - Dynamic Convolution for 3D Point Cloud Instance Segmentation [146.7971476424351]
動的畳み込みに基づく3次元点雲からのインスタンスセグメンテーション手法を提案する。
我々は、同じ意味圏と閉投票を持つ等質点を幾何学的遠近点に対して収集する。
提案手法は提案不要であり、代わりに各インスタンスの空間的および意味的特性に適応する畳み込みプロセスを利用する。
論文 参考訳(メタデータ) (2021-07-18T09:05:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。