論文の概要: Point Transformer V2: Grouped Vector Attention and Partition-based
Pooling
- arxiv url: http://arxiv.org/abs/2210.05666v2
- Date: Wed, 12 Oct 2022 17:44:57 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-13 14:30:24.727253
- Title: Point Transformer V2: Grouped Vector Attention and Partition-based
Pooling
- Title(参考訳): 点変換器v2:群ベクトル注意と分割型プーリング
- Authors: Xiaoyang Wu, Yixing Lao, Li Jiang, Xihui Liu, Hengshuang Zhao
- Abstract要約: 我々は、ポイント変換器の限界を分析し、強力で効率的なポイント変換器V2モデルを提案する。
特に,まず,従来のベクトル注意法よりも効果的である群ベクトル注意法を提案する。
我々のモデルは,先行モデルよりも優れた性能を達成し,いくつかの挑戦的な3Dポイントクラウド理解ベンチマークで最先端を達成している。
- 参考スコア(独自算出の注目度): 25.245254516317118
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: As a pioneering work exploring transformer architecture for 3D point cloud
understanding, Point Transformer achieves impressive results on multiple highly
competitive benchmarks. In this work, we analyze the limitations of the Point
Transformer and propose our powerful and efficient Point Transformer V2 model
with novel designs that overcome the limitations of previous work. In
particular, we first propose group vector attention, which is more effective
than the previous version of vector attention. Inheriting the advantages of
both learnable weight encoding and multi-head attention, we present a highly
effective implementation of grouped vector attention with a novel grouped
weight encoding layer. We also strengthen the position information for
attention by an additional position encoding multiplier. Furthermore, we design
novel and lightweight partition-based pooling methods which enable better
spatial alignment and more efficient sampling. Extensive experiments show that
our model achieves better performance than its predecessor and achieves
state-of-the-art on several challenging 3D point cloud understanding
benchmarks, including 3D point cloud segmentation on ScanNet v2 and S3DIS and
3D point cloud classification on ModelNet40. Our code will be available at
https://github.com/Gofinge/PointTransformerV2.
- Abstract(参考訳): 3Dポイントクラウド理解のためのトランスフォーマーアーキテクチャの先駆的な研究として、Point Transformerは、複数の高い競争力のあるベンチマークで印象的な結果を得た。
本稿では,ポイント変換器の限界を解析し,従来の作業の限界を克服する新しい設計による,パワフルで効率的なポイント変換器V2モデルを提案する。
特に,まず,従来のベクトル注意法よりも効果的である群ベクトル注意法を提案する。
学習可能なウェイトエンコーディングとマルチヘッドアテンションの両方の利点を継承し,新しいグループドウェイトエンコード層を用いて,グループドベクターアテンションを高度に効果的に実装する。
また、追加の位置符号化乗算器により注意のための位置情報を強化する。
さらに,空間的アライメントとより効率的なサンプリングを可能にする新規で軽量なパーティショニングベースのプーリング手法を設計した。
広範な実験により,前モデルよりも優れた性能を実現し,scannet v2 と s3dis の 3d point cloud segmentation や modelnet40 の 3d point cloud classification など,いくつかの挑戦的な 3d point cloud understanding ベンチマークで最先端の成果が得られた。
私たちのコードはhttps://github.com/gofinge/pointtransformerv2で利用できます。
関連論文リスト
- PVTransformer: Point-to-Voxel Transformer for Scalable 3D Object Detection [36.04323550267339]
点雲のための3Dオブジェクト検出器は、しばしば、スパースポイントをグリッドのようなボクセルや柱にエンコードするために、プールベースのPointNetに依存する。
本稿では,3次元検出のための変圧器を用いたポイント・ツー・ボクセルアーキテクチャであるPVTransformerを提案する。
論文 参考訳(メタデータ) (2024-05-05T04:44:41Z) - Hierarchical Point Attention for Indoor 3D Object Detection [111.04397308495618]
本研究は、点ベース変圧器検出器の汎用階層設計として、2つの新しい注意操作を提案する。
まず、よりきめ細かい特徴学習を可能にするために、シングルスケールの入力機能からマルチスケールトークンを構築するマルチスケール注意(MS-A)を提案する。
第2に,適応型アテンション領域を持つサイズ適応型ローカルアテンション(Local-A)を提案する。
論文 参考訳(メタデータ) (2023-01-06T18:52:12Z) - Pix4Point: Image Pretrained Standard Transformers for 3D Point Cloud
Understanding [62.502694656615496]
本稿では、プログレッシブ・ポイント・パッチ・エンベディングと、PViTと呼ばれる新しいポイント・クラウド・トランスフォーマーモデルを提案する。
PViTはTransformerと同じバックボーンを共有しているが、データに対して空腹が少ないことが示されており、Transformerは最先端技術に匹敵するパフォーマンスを実現することができる。
我々は、イメージ領域で事前訓練されたトランスフォーマーを活用して、下流のクラウド理解を強化する、シンプルで効果的なパイプライン「Pix4Point」を定式化します。
論文 参考訳(メタデータ) (2022-08-25T17:59:29Z) - CloudAttention: Efficient Multi-Scale Attention Scheme For 3D Point
Cloud Learning [81.85951026033787]
この作業にトランスフォーマーをセットし、それらを形状分類と部分およびシーンセグメンテーションのための階層的なフレームワークに組み込む。
また、各イテレーションにおけるサンプリングとグループ化を活用して、効率的でダイナミックなグローバルなクロスアテンションを計算します。
提案した階層モデルは,最先端の形状分類を平均精度で達成し,従来のセグメンテーション法と同等の結果を得る。
論文 参考訳(メタデータ) (2022-07-31T21:39:15Z) - Stratified Transformer for 3D Point Cloud Segmentation [89.9698499437732]
Stratified Transformerは、長距離コンテキストをキャプチャし、強力な一般化能力と高性能を示す。
不規則な点配置によって引き起こされる課題に対処するために,局所情報を集約する第1層点埋め込みを提案する。
S3DIS, ScanNetv2およびShapeNetPartデータセットにおける本手法の有効性と優位性を示す実験を行った。
論文 参考訳(メタデータ) (2022-03-28T05:35:16Z) - 3DCTN: 3D Convolution-Transformer Network for Point Cloud Classification [23.0009969537045]
本稿では,ポイントクラウド分類のためのTransformerとの畳み込みを取り入れた,新しい階層型フレームワークを提案する。
本手法は精度と効率の両面で最先端の分類性能を実現する。
論文 参考訳(メタデータ) (2022-03-02T02:42:14Z) - Deep Point Cloud Reconstruction [74.694733918351]
3Dスキャンから得られる点雲は、しばしばスパース、ノイズ、不規則である。
これらの問題に対処するため、最近の研究は別々に行われ、不正確な点雲を密度化、復調し、完全な不正確な点雲を観測している。
本研究では,1) 初期密度化とデノナイズのための3次元スパース集積時間ガラスネットワーク,2) 離散ボクセルを3Dポイントに変換するトランスフォーマーによる改良,の2段階からなる深部点雲再構成ネットワークを提案する。
論文 参考訳(メタデータ) (2021-11-23T07:53:28Z) - PV-RCNN++: Point-Voxel Feature Set Abstraction With Local Vector
Representation for 3D Object Detection [100.60209139039472]
点雲からの正確な3次元検出を行うために,PointVoxel Region based Convolution Neural Networks (PVRCNNs)を提案する。
提案するPV-RCNNは,Openデータセットと高競争性KITTIベンチマークの両方において,従来の最先端3D検出方法よりも大幅に優れていた。
論文 参考訳(メタデータ) (2021-01-31T14:51:49Z) - The Devils in the Point Clouds: Studying the Robustness of Point Cloud
Convolutions [15.997907568429177]
本稿では,点群上の畳み込みネットワークであるPointConvの異なる変種を調査し,入力スケールと回転変化に対する堅牢性を検討する。
3次元幾何学的性質をpointconvへの入力として利用し,新しい視点不変ディスクリプタを導出する。
2D MNIST & CIFAR-10データセットと3D Semantic KITTI & ScanNetデータセットで実験が行われた。
論文 参考訳(メタデータ) (2021-01-19T19:32:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。