論文の概要: Point-Voxel Transformer: An Efficient Approach To 3D Deep Learning
- arxiv url: http://arxiv.org/abs/2108.06076v1
- Date: Fri, 13 Aug 2021 06:07:57 GMT
- ステータス: 処理完了
- システム内更新日: 2021-08-16 19:35:29.280775
- Title: Point-Voxel Transformer: An Efficient Approach To 3D Deep Learning
- Title(参考訳): Point-Voxel Transformer:3Dディープラーニングへの効率的なアプローチ
- Authors: Cheng Zhang, Haocheng Wan, Shengqiang Liu, Xinyi Shen, Zizhao Wu
- Abstract要約: 本稿では,ポイント・ボクセル変換器 (PVT) と呼ばれる新しい3次元変換器を提案する。
提案手法はトランスフォーマーアーキテクチャの可能性を完全に活用し,効率よく正確な認識を行う。
- 参考スコア(独自算出の注目度): 5.236787242129767
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Due to the sparsity and irregularity of the 3D data, approaches that directly
process points have become popular. Among all point-based models,
Transformer-based models have achieved state-of-the-art performance by fully
preserving point interrelation. However, most of them spend high percentage of
total time on sparse data accessing (e.g., Farthest Point Sampling (FPS) and
neighbor points query), which becomes the computation burden. Therefore, we
present a novel 3D Transformer, called Point-Voxel Transformer (PVT) that
leverages self-attention computation in points to gather global context
features, while performing multi-head self-attention (MSA) computation in
voxels to capture local information and reduce the irregular data access.
Additionally, to further reduce the cost of MSA computation, we design a cyclic
shifted boxing scheme which brings greater efficiency by limiting the MSA
computation to non-overlapping local boxes while also preserving cross-box
connection. Our method fully exploits the potentials of Transformer
architecture, paving the road to efficient and accurate recognition results.
Evaluated on classification and segmentation benchmarks, our PVT not only
achieves strong accuracy but outperforms previous state-of-the-art
Transformer-based models with 9x measured speedup on average. For 3D object
detection task, we replace the primitives in Frustrum PointNet with PVT layer
and achieve the improvement of 8.6%.
- Abstract(参考訳): 3dデータのスパース性と不規則性のため、ポイントを直接処理するアプローチが普及している。
すべてのポイントベースモデルの中で、トランスフォーマーベースのモデルは、ポイント相互関係を完全に保存することで最先端のパフォーマンスを達成している。
しかし、そのほとんどはスパースデータアクセス(例えば、FPS(Farthest Point Sampling)や近隣点クエリ)に多くの時間を費やしており、計算の負担となっている。
そこで本稿では,voxelにおいてマルチヘッドセルフアテンション(msa)計算を行い,局所情報をキャプチャし,不規則なデータアクセスを低減しつつ,ポイントにおける自己アテンション計算を活用した,新しい3次元トランスであるpoint-voxel transformer(pvt)を提案する。
さらに, MSA 計算のコストをさらに削減するため, クロスボックス接続を保ちながら, オーバーラップしないローカルボックスに MSA 計算を制限することにより, より効率のよい巡回シフトボックス方式を設計する。
本手法はトランスフォーマーアーキテクチャのポテンシャルを十分に活用し,効率良く正確な認識に道を開く。
分類とセグメンテーションのベンチマークで評価したところ,pvtは精度が向上しただけでなく,従来のトランスフォーマーモデルと比較して平均9倍の速度アップを達成している。
3Dオブジェクト検出タスクでは、Frustrum PointNetのプリミティブをPVT層に置き換え、8.6%の改善を実現する。
関連論文リスト
- PointMT: Efficient Point Cloud Analysis with Hybrid MLP-Transformer Architecture [46.266960248570086]
本研究は,効率的な特徴集約のための複雑局所的注意機構を導入することで,自己注意機構の二次的複雑さに取り組む。
また,各チャネルの注目重量分布を適応的に調整するパラメータフリーチャネル温度適応機構を導入する。
我々は,PointMTが性能と精度の最適なバランスを維持しつつ,最先端手法に匹敵する性能を実現することを示す。
論文 参考訳(メタデータ) (2024-08-10T10:16:03Z) - Boosting Cross-Domain Point Classification via Distilling Relational Priors from 2D Transformers [59.0181939916084]
従来の3Dネットワークは主に局所幾何学的詳細に焦点を当て、局所幾何学間の位相構造を無視する。
そこで本稿では,大規模画像上においてよく訓練されたトランスフォーマーから前駆体を抽出する,新しい先駆体蒸留法を提案する。
PointDA-10とSim-to-Realデータセットの実験は、提案手法が点クラウド分類におけるUDAの最先端性能を一貫して達成していることを検証する。
論文 参考訳(メタデータ) (2024-07-26T06:29:09Z) - PVT-SSD: Single-Stage 3D Object Detector with Point-Voxel Transformer [75.2251801053839]
単段3次元検出用ポイント・ボクセル変換器(PVT-SSD)を提案する。
本稿では,voxel から長時間のコンテキストを安価に取得できる Point-Voxel Transformer (PVT) モジュールを提案する。
いくつかの自律走行ベンチマーク実験は,提案手法の有効性と有効性を検証する。
論文 参考訳(メタデータ) (2023-05-11T07:37:15Z) - CloudAttention: Efficient Multi-Scale Attention Scheme For 3D Point
Cloud Learning [81.85951026033787]
この作業にトランスフォーマーをセットし、それらを形状分類と部分およびシーンセグメンテーションのための階層的なフレームワークに組み込む。
また、各イテレーションにおけるサンプリングとグループ化を活用して、効率的でダイナミックなグローバルなクロスアテンションを計算します。
提案した階層モデルは,最先端の形状分類を平均精度で達成し,従来のセグメンテーション法と同等の結果を得る。
論文 参考訳(メタデータ) (2022-07-31T21:39:15Z) - Stratified Transformer for 3D Point Cloud Segmentation [89.9698499437732]
Stratified Transformerは、長距離コンテキストをキャプチャし、強力な一般化能力と高性能を示す。
不規則な点配置によって引き起こされる課題に対処するために,局所情報を集約する第1層点埋め込みを提案する。
S3DIS, ScanNetv2およびShapeNetPartデータセットにおける本手法の有効性と優位性を示す実験を行った。
論文 参考訳(メタデータ) (2022-03-28T05:35:16Z) - LocATe: End-to-end Localization of Actions in 3D with Transformers [91.28982770522329]
LocATeは、3Dシーケンスでアクションを共同でローカライズし認識するエンドツーエンドのアプローチである。
画像やパッチの特徴を入力として考えるトランスフォーマーベースのオブジェクト検出や分類モデルとは異なり、LocATeのトランスフォーマーモデルはシーケンス内のアクション間の長期的な相関をキャプチャすることができる。
BABEL-TAL-20 (BT20) という新しい,挑戦的で,より現実的なベンチマークデータセットを導入する。
論文 参考訳(メタデータ) (2022-03-21T03:35:32Z) - Fast Point Transformer [39.96609666253924]
本稿では,新しい軽量セルフアテンション層からなるFast Point Transformerを提案する。
提案手法は連続した3次元座標を符号化し,ボクセルハッシュに基づくアーキテクチャにより計算効率が向上する。
提案手法の精度は最良なボクセル法と競合し,提案手法は現状のPoint Transformerの136倍の高速化を実現している。
論文 参考訳(メタデータ) (2021-12-09T05:04:10Z) - CpT: Convolutional Point Transformer for 3D Point Cloud Processing [10.389972581905]
CpT: Convolutional Point Transformer - 3Dポイントクラウドデータの非構造化の性質を扱うための新しいディープラーニングアーキテクチャ。
CpTは、既存の注目ベースのConvolutions Neural Networksと、以前の3Dポイントクラウド処理トランスフォーマーの改善である。
我々のモデルは、既存の最先端のアプローチと比較して、様々なポイントクラウド処理タスクの効果的なバックボーンとして機能する。
論文 参考訳(メタデータ) (2021-11-21T17:45:55Z) - 3DSSD: Point-based 3D Single Stage Object Detector [61.67928229961813]
本稿では,3DSSDと命名された点ベース3次元単段物体検出器を提案し,精度と効率のバランスが良好であることを示す。
提案手法は,最先端のボクセルをベースとした一段法を大差で上回り,二段法に匹敵する性能を有する。
論文 参考訳(メタデータ) (2020-02-24T12:01:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。