論文の概要: FlatFormer: Flattened Window Attention for Efficient Point Cloud
Transformer
- arxiv url: http://arxiv.org/abs/2301.08739v1
- Date: Fri, 20 Jan 2023 18:59:57 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-23 12:45:53.661237
- Title: FlatFormer: Flattened Window Attention for Efficient Point Cloud
Transformer
- Title(参考訳): FlatFormer: 効率的なポイントクラウドトランスのためのフラットなウィンドウアテンション
- Authors: Zhijian Liu, Xinyu Yang, Haotian Tang, Shang Yang, Song Han
- Abstract要約: トランスフォーマーはCNNに代わるものとして、多くのモダリティで有効であることが証明されている。
本稿では、FlatFormerを用いて、空間近接を交換することで、より優れた計算正則性を実現することにより、このレイテンシギャップを解消する。
- 参考スコア(独自算出の注目度): 30.596658616831945
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Transformer, as an alternative to CNN, has been proven effective in many
modalities (e.g., texts and images). For 3D point cloud transformers, existing
efforts focus primarily on pushing their accuracy to the state-of-the-art
level. However, their latency lags behind sparse convolution-based models (3x
slower), hindering their usage in resource-constrained, latency-sensitive
applications (such as autonomous driving). This inefficiency comes from point
clouds' sparse and irregular nature, whereas transformers are designed for
dense, regular workloads. This paper presents FlatFormer to close this latency
gap by trading spatial proximity for better computational regularity. We first
flatten the point cloud with window-based sorting and partition points into
groups of equal sizes rather than windows of equal shapes. This effectively
avoids expensive structuring and padding overheads. We then apply
self-attention within groups to extract local features, alternate sorting axis
to gather features from different directions, and shift windows to exchange
features across groups. FlatFormer delivers state-of-the-art accuracy on Waymo
Open Dataset with 4.6x speedup over (transformer-based) SST and 1.4x speedup
over (sparse convolutional) CenterPoint. This is the first point cloud
transformer that achieves real-time performance on edge GPUs and is faster than
sparse convolutional methods while achieving on-par or even superior accuracy
on large-scale benchmarks. Code to reproduce our results will be made publicly
available.
- Abstract(参考訳): cnnの代替としてtransformerは、多くのモダリティ(テキストや画像など)において有効であることが証明されている。
3dポイントクラウドトランスフォーマーでは、既存の取り組みは主に精度を最先端レベルに引き上げることに集中している。
しかし、彼らのレイテンシはスパース畳み込みベースのモデル(3倍遅い)に遅れており、リソース制約のあるレイテンシに敏感なアプリケーション(自動運転など)での使用を妨げる。
この非効率性は点雲のスパースと不規則な性質に由来するが、トランスフォーマーは密度の高い通常のワークロード用に設計されている。
本稿では,空間的近接を交換することで,このレイテンシギャップを閉じるフラットフォームを提案する。
まず、ウィンドウベースのソートと分割ポイントで点雲を平らにし、同じ形状のウィンドウではなく、同じサイズのグループに分割する。
これにより、コストのかかる構造やパッドのオーバーヘッドを効果的に回避できる。
次に、グループ内でセルフアテンションを適用して、ローカルな特徴を抽出し、異なる方向から機能を集め、ウィンドウをグループ間で機能交換にシフトします。
FlatFormerはWaymo Open Dataset上で4.6倍のスピードアップ(トランスフォーマーベース)SST、1.4倍のスピードアップ(小さな畳み込み)CenterPointを提供する。
これは、エッジgpuでリアルタイムパフォーマンスを実現する最初のポイントクラウドトランスフォーマーであり、大規模なベンチマークでほぼあるいはそれ以上の精度を達成しながら、疎畳み込みメソッドよりも高速である。
私たちの結果を再現するコードは公開されます。
関連論文リスト
- ConDaFormer: Disassembled Transformer with Local Structure Enhancement
for 3D Point Cloud Understanding [105.98609765389895]
トランスフォーマーは、最近3Dポイントクラウド理解のために研究されている。
0.1万を超える多数のポイントは、ポイントクラウドデータに対してグローバルな自己注意を可能にする。
本稿では,ConDaFormerという新しい変圧器ブロックを開発する。
論文 参考訳(メタデータ) (2023-12-18T11:19:45Z) - Point Cloud Classification Using Content-based Transformer via
Clustering in Feature Space [25.57569871876213]
本稿では,PointConTと呼ばれるポイントコンテントベースのトランスフォーマーアーキテクチャを提案する。
特徴空間内の点(コンテンツベース)の局所性を利用して、類似した特徴を持つサンプルポイントを同じクラスにクラスタし、各クラス内の自己アテンションを計算する。
また,各枝の高周波・低周波情報を並列構造を用いて個別に集約するインセプション機能アグリゲータも導入した。
論文 参考訳(メタデータ) (2023-03-08T14:11:05Z) - Using a Waffle Iron for Automotive Point Cloud Semantic Segmentation [66.6890991207065]
スパース3D畳み込みは、ディープニューラルネットワークを構築するためのデファクトツールとなっている。
本稿では,スパース畳み込みを必要とせず,最先端の手法に到達できる方法を提案する。
このような性能のレベルは、大規模かつ高性能な3D知覚に相応しいツールに依存して達成可能であることを示す。
論文 参考訳(メタデータ) (2023-01-24T16:10:08Z) - DSVT: Dynamic Sparse Voxel Transformer with Rotated Sets [95.84755169585492]
本研究では,屋外3次元知覚のためのシングルストライドウィンドウベースのボクセルトランスであるDynamic Sparse Voxel Transformer (DSVT)を提案する。
本モデルでは,3次元認識タスクを多岐にわたって行うことにより,最先端の性能を実現する。
論文 参考訳(メタデータ) (2023-01-15T09:31:58Z) - CloudAttention: Efficient Multi-Scale Attention Scheme For 3D Point
Cloud Learning [81.85951026033787]
この作業にトランスフォーマーをセットし、それらを形状分類と部分およびシーンセグメンテーションのための階層的なフレームワークに組み込む。
また、各イテレーションにおけるサンプリングとグループ化を活用して、効率的でダイナミックなグローバルなクロスアテンションを計算します。
提案した階層モデルは,最先端の形状分類を平均精度で達成し,従来のセグメンテーション法と同等の結果を得る。
論文 参考訳(メタデータ) (2022-07-31T21:39:15Z) - TorchSparse: Efficient Point Cloud Inference Engine [24.541195361633523]
本稿では,高性能なポイントクラウド推論エンジンであるTorchSparseを紹介する。
TorchSparseはスパース畳み込みの2つのボトルネック、すなわち不規則な計算とデータ移動を直接最適化する。
最先端のMinkowskiEngineとSpConvで、それぞれ1.6倍と1.5倍のエンドツーエンドのスピードアップを実現している。
論文 参考訳(メタデータ) (2022-04-21T17:58:30Z) - Stratified Transformer for 3D Point Cloud Segmentation [89.9698499437732]
Stratified Transformerは、長距離コンテキストをキャプチャし、強力な一般化能力と高性能を示す。
不規則な点配置によって引き起こされる課題に対処するために,局所情報を集約する第1層点埋め込みを提案する。
S3DIS, ScanNetv2およびShapeNetPartデータセットにおける本手法の有効性と優位性を示す実験を行った。
論文 参考訳(メタデータ) (2022-03-28T05:35:16Z) - Attention-based Transformation from Latent Features to Point Clouds [6.547680885781582]
AXformは、潜在機能をポイントクラウドに変換するための注意ベースの手法である。
パラメータ共有とデータフローの両方を考慮しており、アウトレーヤが減り、ネットワークパラメータが減り、コンバージェンス速度が速くなる。
AXformは強い2次元の制約を持たず、非滑らかな曲面の生成を改善する。
異なるデータセットに対する検討実験により,本手法が最先端の結果が得られることが示された。
論文 参考訳(メタデータ) (2021-12-10T03:59:04Z) - Dynamic Convolution for 3D Point Cloud Instance Segmentation [146.7971476424351]
動的畳み込みに基づく3次元点雲からのインスタンスセグメンテーション手法を提案する。
我々は、同じ意味圏と閉投票を持つ等質点を幾何学的遠近点に対して収集する。
提案手法は提案不要であり、代わりに各インスタンスの空間的および意味的特性に適応する畳み込みプロセスを利用する。
論文 参考訳(メタデータ) (2021-07-18T09:05:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。