論文の概要: OctFormer: Octree-based Transformers for 3D Point Clouds
- arxiv url: http://arxiv.org/abs/2305.03045v1
- Date: Thu, 4 May 2023 17:59:05 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-05 14:18:31.361967
- Title: OctFormer: Octree-based Transformers for 3D Point Clouds
- Title(参考訳): OctFormer: 3Dポイントクラウド用のOctreeベースのトランスフォーマー
- Authors: Peng-Shuai Wang
- Abstract要約: OctFormerは3Dポイントクラウドセグメンテーションとオブジェクト検出のための汎用的で効果的なバックボーンとして機能する。
私たちのオクツリーの注意は、オープンソースライブラリで10行のコードで実装することができ、ポイント数が200kを超えると、他のポイントクラウドの注意よりも17倍速く動作します。
- 参考スコア(独自算出の注目度): 7.007996517986921
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: OctFormer can not only serve as a general and effective backbone for 3D point
cloud segmentation and object detection but also have linear complexity and is
scalable for large-scale point clouds. The key challenge in applying
transformers to point clouds is reducing the quadratic, thus overwhelming,
computation complexity of attentions. To combat this issue, several works
divide point clouds into non-overlapping windows and constrain attentions in
each local window. However, the point number in each window varies greatly,
impeding the efficient execution on GPU. Observing that attentions are robust
to the shapes of local windows, we propose a novel octree attention, which
leverages sorted shuffled keys of octrees to partition point clouds into local
windows containing a fixed number of points while permitting shapes of windows
to change freely. And we also introduce dilated octree attention to expand the
receptive field further. Our octree attention can be implemented in 10 lines of
code with open-sourced libraries and runs 17 times faster than other point
cloud attentions when the point number exceeds 200k. Built upon the octree
attention, OctFormer can be easily scaled up and achieves state-of-the-art
performances on a series of 3D segmentation and detection benchmarks,
surpassing previous sparse-voxel-based CNNs and point cloud transformers in
terms of both efficiency and effectiveness. Notably, on the challenging
ScanNet200 dataset, OctFormer outperforms sparse-voxel-based CNNs by 7.3 in
mIoU. Our code and trained models are available at
https://wang-ps.github.io/octformer.
- Abstract(参考訳): OctFormerは3Dポイントクラウドセグメンテーションとオブジェクト検出のための汎用的で効果的なバックボーンとして機能するだけでなく、線形複雑性を持ち、大規模ポイントクラウドにもスケーラブルである。
ポイントクラウドにトランスフォーマーを適用する上で重要な課題は、注意の2次的、すなわち圧倒的な計算複雑性を減らすことである。
この問題に対処するため、いくつかの作業は点雲を重複しないウィンドウに分割し、各ローカルウィンドウで注意を拘束する。
しかし、各ウィンドウのポイント番号は大きく異なり、GPU上での効率的な実行を妨げる。
局所窓の形状に対して注意が頑健であることを確認するため,オクツリーのシャッフルキーをソートして,一定数の点を含む局所窓に分割し,窓の形状を自由に変化させることができる新しいオクツリーアテンションを提案する。
また,拡大したオクツリーの注意も導入し,受容野をさらに拡大する。
octreeの注目度は,オープンソースライブラリを使用した10行のコードで実装可能で,ポイント数が200kを越えると,他のポイントクラウドの注意度よりも17倍高速になります。
octreeの注意力に基づいて構築されたocformerは、簡単にスケールアップでき、一連の3dセグメンテーションと検出ベンチマークで最先端のパフォーマンスを達成でき、効率と効果の両面で従来のスパース・ボクセルベースのcnnとポイント・クラウドトランスフォーマーを上回っている。
特に、挑戦的なScanNet200データセットでは、OcctFormerは、mIoUでスパースボクセルベースのCNNを7.3上回っている。
私たちのコードとトレーニングされたモデルは、https://wang-ps.github.io/octformerで利用可能です。
関連論文リスト
- PosDiffNet: Positional Neural Diffusion for Point Cloud Registration in
a Large Field of View with Perturbations [27.45001809414096]
PosDiffNetは、3Dコンピュータビジョンにおけるポイントクラウド登録のモデルである。
ベルトラミフローに基づくグラフニューラル偏微分方程式(PDE)を用いて高次元特徴を求める。
我々は、点雲間のアライメントを容易にするために、高特徴類似度スコアから導かれる多レベル対応を用いる。
我々はPosDiffNetを複数の3Dポイントクラウドデータセット上で評価し、摂動を伴う広い視野でのポイントクラウド登録において、最先端(SOTA)性能を達成することを検証した。
論文 参考訳(メタデータ) (2024-01-06T08:58:15Z) - ConDaFormer: Disassembled Transformer with Local Structure Enhancement
for 3D Point Cloud Understanding [105.98609765389895]
トランスフォーマーは、最近3Dポイントクラウド理解のために研究されている。
0.1万を超える多数のポイントは、ポイントクラウドデータに対してグローバルな自己注意を可能にする。
本稿では,ConDaFormerという新しい変圧器ブロックを開発する。
論文 参考訳(メタデータ) (2023-12-18T11:19:45Z) - CurveCloudNet: Processing Point Clouds with 1D Structure [49.137477909835276]
我々はCurveCloudNetと呼ばれる新しいポイントクラウド処理方式とバックボーンを導入する。
CurveCloudNetは、ポイントクラウドをポリラインの集合としてパラメータ化し、ポイント上の局所的なサーフェスアウェアの順序を確立する。
CurveCloudNetは、様々なセグメンテーション設定において、ポイントベースとスパースボクセルの両方のバックボーンよりも優れていることを示す。
論文 参考訳(メタデータ) (2023-03-21T17:41:36Z) - FlatFormer: Flattened Window Attention for Efficient Point Cloud
Transformer [30.596658616831945]
トランスフォーマーはCNNに代わるものとして、多くのモダリティで有効であることが証明されている。
本稿では、FlatFormerを用いて、空間近接を交換することで、より優れた計算正則性を実現することにより、このレイテンシギャップを解消する。
論文 参考訳(メタデータ) (2023-01-20T18:59:57Z) - DSVT: Dynamic Sparse Voxel Transformer with Rotated Sets [95.84755169585492]
本研究では,屋外3次元知覚のためのシングルストライドウィンドウベースのボクセルトランスであるDynamic Sparse Voxel Transformer (DSVT)を提案する。
本モデルでは,3次元認識タスクを多岐にわたって行うことにより,最先端の性能を実現する。
論文 参考訳(メタデータ) (2023-01-15T09:31:58Z) - EPCL: Frozen CLIP Transformer is An Efficient Point Cloud Encoder [60.52613206271329]
本稿では,冷凍CLIP変換器を用いて高品質のクラウドモデルをトレーニングするための textbfEfficient textbfPoint textbfCloud textbfLearning (EPCL) を提案する。
我々のEPCLは、2D-3Dデータをペア化せずに画像の特徴と点雲の特徴を意味的に整合させることで、2Dと3Dのモダリティを接続する。
論文 参考訳(メタデータ) (2022-12-08T06:27:11Z) - CloudAttention: Efficient Multi-Scale Attention Scheme For 3D Point
Cloud Learning [81.85951026033787]
この作業にトランスフォーマーをセットし、それらを形状分類と部分およびシーンセグメンテーションのための階層的なフレームワークに組み込む。
また、各イテレーションにおけるサンプリングとグループ化を活用して、効率的でダイナミックなグローバルなクロスアテンションを計算します。
提案した階層モデルは,最先端の形状分類を平均精度で達成し,従来のセグメンテーション法と同等の結果を得る。
論文 参考訳(メタデータ) (2022-07-31T21:39:15Z) - Stratified Transformer for 3D Point Cloud Segmentation [89.9698499437732]
Stratified Transformerは、長距離コンテキストをキャプチャし、強力な一般化能力と高性能を示す。
不規則な点配置によって引き起こされる課題に対処するために,局所情報を集約する第1層点埋め込みを提案する。
S3DIS, ScanNetv2およびShapeNetPartデータセットにおける本手法の有効性と優位性を示す実験を行った。
論文 参考訳(メタデータ) (2022-03-28T05:35:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。