論文の概要: PointTransformerX: Portable and Efficient 3D Point Cloud Processing without Sparse Algorithms
- arxiv url: http://arxiv.org/abs/2604.24169v2
- Date: Wed, 29 Apr 2026 07:44:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-30 13:51:54.056853
- Title: PointTransformerX: Portable and Efficient 3D Point Cloud Processing without Sparse Algorithms
- Title(参考訳): PointTransformerX:スパースアルゴリズムのないポータブルで効率的な3Dポイントクラウド処理
- Authors: Laurenz Reichardt, Nikolas Ebert, Oliver Wasenmüller,
- Abstract要約: PointTransformerX(PTX)は、3Dポイントクラウド用のPyTorchネイティブなビジョントランスフォーマーバックボーンである。
PTXは競合精度を維持しながら、すべてのカスタム演算子と外部ライブラリを削除する。
- 参考スコア(独自算出の注目度): 0.10705399532413612
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: 3D point cloud perception remains tightly coupled to custom CUDA operators for spatial operations, limiting portability and efficiency on non-NVIDIA, AMD, and embedded hardware. We introduce PointTransformerX (PTX), a fully PyTorch-native vision transformer backbone for 3D point clouds, removing all custom CUDA operators and external libraries while retaining competitive accuracy. PTX introduces 3D-GS-RoPE, a rotary positional embedding that encodes 3D spatial relationships directly in self-attention without neighborhood construction, and further replaces sparse convolutional patch embedding with a linear projection. PTX explores inference-time scaling of attention windows to improve accuracy without retraining. With a redesigned feed-forward network, PTX achieves 98.7\% of PointTransformer V3's accuracy on ScanNet with 79.2\% fewer parameters and executing 1.6\times faster while requiring just 253 MB memory. PTX runs natively on NVIDIA GPUs, AMD GPUs (ROCm), and CPUs, providing an efficient and portable foundation for point cloud perception.
- Abstract(参考訳): 3Dポイントクラウドの認識は、空間操作のためのカスタムCUDAオペレータと密結合であり、NVIDIA、AMD、組み込みハードウェアのポータビリティと効率を制限している。
我々は、PyTorchネイティブな3Dポイントクラウド用のバックボーンであるPointTransformerX(PTX)を導入し、競合精度を維持しながら、カスタムCUDA演算子と外部ライブラリをすべて削除した。
PTXは、3D-GS-RoPEという回転的な位置埋め込みを導入し、3D空間関係を直接、近傍構造なしでエンコードし、さらに細い畳み込みパッチを線形射影で置き換える。
PTXは、アテンションウィンドウの推測時間スケーリングを調査し、再トレーニングせずに精度を向上させる。
再設計されたフィードフォワードネットワークにより、PTXは、ScanNet上のPointTransformer V3の精度の98.7\%を79.2\%削減し、わずか253MBのメモリを必要とする1.6\timesを高速に実行する。
PTXはNVIDIA GPU、AMD GPU(ROCm)、CPUでネイティブに動作し、ポイントクラウド認識のための効率的でポータブルな基盤を提供する。
関連論文リスト
- PVTransformer: Point-to-Voxel Transformer for Scalable 3D Object Detection [36.04323550267339]
点雲のための3Dオブジェクト検出器は、しばしば、スパースポイントをグリッドのようなボクセルや柱にエンコードするために、プールベースのPointNetに依存する。
本稿では,3次元検出のための変圧器を用いたポイント・ツー・ボクセルアーキテクチャであるPVTransformerを提案する。
論文 参考訳(メタデータ) (2024-05-05T04:44:41Z) - FastPillars: A Deployment-friendly Pillar-based 3D Detector [63.0697065653061]
既存のBEVベースの(つまりバードアイビュー)検出器は、トレーニングと推論を高速化するためにスパース・コンボリューション(SPConv)を好む。
FastPillarsは、CenterPoint(SPConvベース)よりも1.8倍のスピードアップと3.8mAPH/L2の改善で、Openデータセットの最先端の精度を提供する
論文 参考訳(メタデータ) (2023-02-05T12:13:27Z) - FlatFormer: Flattened Window Attention for Efficient Point Cloud
Transformer [30.596658616831945]
トランスフォーマーはCNNに代わるものとして、多くのモダリティで有効であることが証明されている。
本稿では、FlatFormerを用いて、空間近接を交換することで、より優れた計算正則性を実現することにより、このレイテンシギャップを解消する。
論文 参考訳(メタデータ) (2023-01-20T18:59:57Z) - DSVT: Dynamic Sparse Voxel Transformer with Rotated Sets [95.84755169585492]
本研究では,屋外3次元知覚のためのシングルストライドウィンドウベースのボクセルトランスであるDynamic Sparse Voxel Transformer (DSVT)を提案する。
本モデルでは,3次元認識タスクを多岐にわたって行うことにより,最先端の性能を実現する。
論文 参考訳(メタデータ) (2023-01-15T09:31:58Z) - End-to-End Pseudo-LiDAR for Image-Based 3D Object Detection [62.34374949726333]
擬似LiDAR(PL)は、LiDARセンサに基づく手法と安価なステレオカメラに基づく手法の精度ギャップを劇的に減らした。
PLは最先端のディープニューラルネットワークと2D深度マップ出力を3Dポイントクラウド入力に変換することで3Dオブジェクト検出のための3D深度推定を組み合わせている。
我々は、PLパイプライン全体をエンドツーエンドにトレーニングできるように、差別化可能なRepresentation (CoR)モジュールに基づく新しいフレームワークを導入します。
論文 参考訳(メタデータ) (2020-04-07T02:18:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。