論文の概要: Swin3D: A Pretrained Transformer Backbone for 3D Indoor Scene
Understanding
- arxiv url: http://arxiv.org/abs/2304.06906v3
- Date: Wed, 16 Aug 2023 01:53:02 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-17 17:14:53.749317
- Title: Swin3D: A Pretrained Transformer Backbone for 3D Indoor Scene
Understanding
- Title(参考訳): Swin3D:3D屋内シーン理解のためのトランスフォーマーバックボーン
- Authors: Yu-Qi Yang, Yu-Xiao Guo, Jian-Yu Xiong, Yang Liu, Hao Pan, Peng-Shuai
Wang, Xin Tong, Baining Guo
- Abstract要約: 室内3Dシーン理解のための3DバックボーンであるSSTを導入する。
我々は,線形メモリの複雑さを伴うスパースボクセルの自己アテンションを効率的に行える3Dスウィントランスを,バックボーンネットワークとして設計する。
我々のアプローチによって実現されたスケーラビリティ、汎用性、優れたパフォーマンスをさらに検証する大規模なアブレーション研究のシリーズである。
- 参考スコア(独自算出の注目度): 40.68012530554327
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: The use of pretrained backbones with fine-tuning has been successful for 2D
vision and natural language processing tasks, showing advantages over
task-specific networks. In this work, we introduce a pretrained 3D backbone,
called {\SST}, for 3D indoor scene understanding. We design a 3D Swin
transformer as our backbone network, which enables efficient self-attention on
sparse voxels with linear memory complexity, making the backbone scalable to
large models and datasets. We also introduce a generalized contextual relative
positional embedding scheme to capture various irregularities of point signals
for improved network performance. We pretrained a large {\SST} model on a
synthetic Structured3D dataset, which is an order of magnitude larger than the
ScanNet dataset. Our model pretrained on the synthetic dataset not only
generalizes well to downstream segmentation and detection on real 3D point
datasets, but also outperforms state-of-the-art methods on downstream tasks
with +2.3 mIoU and +2.2 mIoU on S3DIS Area5 and 6-fold semantic segmentation,
+1.8 mIoU on ScanNet segmentation (val), +1.9 mAP@0.5 on ScanNet detection, and
+8.1 mAP@0.5 on S3DIS detection. A series of extensive ablation studies further
validate the scalability, generality, and superior performance enabled by our
approach. The code and models are available at
https://github.com/microsoft/Swin3D .
- Abstract(参考訳): 微調整を伴う事前学習されたバックボーンの使用は、2dビジョンと自然言語処理タスクで成功し、タスク固有のネットワークよりも優れている。
本研究では,3次元屋内シーン理解のための事前訓練された3Dバックボーンである {\SST}を紹介する。
私たちは3dスウィントランスをバックボーンネットワークとして設計し、線形メモリの複雑さでスパースボクセルへの効率的な自己接続を可能にし、バックボーンを大規模モデルやデータセットにスケーラブルにします。
また,ネットワーク性能を向上させるために,点信号の様々な不規則さを捉えるための,一般化された文脈的相対位置埋め込み方式を提案する。
我々は、ScanNetデータセットよりも桁違いの大きさのStructured3Dデータセット上で、大きな {\SST}モデルを事前訓練した。
合成データセットで事前学習したモデルは、実際の3dポイントデータセットの下流セグメンテーションと検出によく適合するだけでなく、+2.3 miouと+2.2 miouでs3dis area5と6倍のセマンティックセグメンテーション、+1.8 miou on scannet segmentation (val)、+1.9 map@0.5、s3dis detectionで+8.1 map@0.5という下流タスクにおける最先端のメソッドよりも優れています。
我々のアプローチによって実現されたスケーラビリティ、汎用性、優れたパフォーマンスをさらに検証する大規模なアブレーション研究のシリーズである。
コードとモデルはhttps://github.com/microsoft/swin3dで入手できる。
関連論文リスト
- ARKit LabelMaker: A New Scale for Indoor 3D Scene Understanding [51.509115746992165]
我々はARKit LabelMakerを紹介した。これは、密集したセマンティックアノテーションを備えた、最初の大規模で現実世界の3Dデータセットである。
また,3次元セマンティックセグメンテーションモデルを用いて,ScanNetおよびScanNet200データセットの最先端性能を推し進める。
論文 参考訳(メタデータ) (2024-10-17T14:44:35Z) - PillarNeSt: Embracing Backbone Scaling and Pretraining for Pillar-based
3D Object Detection [33.00510927880774]
柱型3次元物体検出器における2次元バックボーンスケーリングと事前学習の有効性を示す。
提案する柱型検出器であるPillarNeStは、既存の3Dオブジェクト検出器よりも、nuScenesとArgoversev2データセットのマージンが大きい。
論文 参考訳(メタデータ) (2023-11-29T16:11:33Z) - 3DiffTection: 3D Object Detection with Geometry-Aware Diffusion Features [70.50665869806188]
3DiffTectionは、単一の画像から3Dオブジェクトを検出する最先端の方法である。
拡散モデルを微調整し、単一の画像に条件付けされた新しいビュー合成を行う。
さらに、検出監視により、ターゲットデータ上でモデルをトレーニングする。
論文 参考訳(メタデータ) (2023-11-07T23:46:41Z) - 3D Adversarial Augmentations for Robust Out-of-Domain Predictions [115.74319739738571]
ドメイン外データへの一般化の改善に注力する。
対象を逆向きに変形させるベクトルの集合を学習する。
本研究では,学習したサンプル非依存ベクトルをモデルトレーニング時に利用可能なオブジェクトに適用することにより,対数拡大を行う。
論文 参考訳(メタデータ) (2023-08-29T17:58:55Z) - CAGroup3D: Class-Aware Grouping for 3D Object Detection on Point Clouds [55.44204039410225]
本稿では,CAGroup3Dという新しい2段階完全スパース3Dオブジェクト検出フレームワークを提案する。
提案手法は,まず,オブジェクト表面のボクセル上でのクラス認識型局所群戦略を活用することによって,高品質な3D提案を生成する。
不正なボクセルワイドセグメンテーションにより欠落したボクセルの特徴を回復するために,完全にスパースな畳み込み型RoIプールモジュールを構築した。
論文 参考訳(メタデータ) (2022-10-09T13:38:48Z) - R2U3D: Recurrent Residual 3D U-Net for Lung Segmentation [17.343802171952195]
本稿では,3次元肺分割作業のための新しいモデルであるRecurrent Residual 3D U-Net(R2U3D)を提案する。
特に,提案モデルでは,U-Netに基づくRecurrent Residual Neural Networkに3次元畳み込みを組み込む。
提案するR2U3Dネットワークは、公開データセットLUNA16に基づいてトレーニングされ、最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2021-05-05T19:17:14Z) - ST3D: Self-training for Unsupervised Domain Adaptation on 3D
ObjectDetection [78.71826145162092]
点雲からの3次元物体検出における教師なし領域適応のための新しい領域適応型自己学習パイプラインST3Dを提案する。
当社のST3Dは、評価されたすべてのデータセットで最先端のパフォーマンスを達成し、KITTI 3Dオブジェクト検出ベンチマークで完全に監視された結果を超えます。
論文 参考訳(メタデータ) (2021-03-09T10:51:24Z) - H3D: Benchmark on Semantic Segmentation of High-Resolution 3D Point
Clouds and textured Meshes from UAV LiDAR and Multi-View-Stereo [4.263987603222371]
本稿では,3つの方法でユニークな3次元データセットを提案する。
ヘシグハイム(ドイツ語: Hessigheim, H3D)は、ドイツの都市。
片手で3次元データ分析の分野での研究を促進するとともに、新しいアプローチの評価とランク付けを目的としている。
論文 参考訳(メタデータ) (2021-02-10T09:33:48Z) - Exploring Deep 3D Spatial Encodings for Large-Scale 3D Scene
Understanding [19.134536179555102]
生の3次元点雲の空間的特徴を非方向性グラフモデルに符号化することで,CNNに基づくアプローチの限界を克服する代替手法を提案する。
提案手法は、訓練時間とモデル安定性を改善して、最先端の精度で達成し、さらなる研究の可能性を示す。
論文 参考訳(メタデータ) (2020-11-29T12:56:19Z) - Generative Sparse Detection Networks for 3D Single-shot Object Detection [43.91336826079574]
3Dオブジェクト検出は、ロボット工学や拡張現実など多くの有望な分野に適用可能であるため、広く研究されている。
しかし、3Dデータのまばらな性質は、このタスクに固有の課題をもたらしている。
本稿では,完全畳み込み単一ショットスパース検出ネットワークであるGenerative Sparse Detection Network (GSDN)を提案する。
論文 参考訳(メタデータ) (2020-06-22T15:54:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。