論文の概要: Swin3D: A Pretrained Transformer Backbone for 3D Indoor Scene
Understanding
- arxiv url: http://arxiv.org/abs/2304.06906v2
- Date: Mon, 24 Apr 2023 02:46:34 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-25 20:11:24.562195
- Title: Swin3D: A Pretrained Transformer Backbone for 3D Indoor Scene
Understanding
- Title(参考訳): Swin3D:3D屋内シーン理解のためのトランスフォーマーバックボーン
- Authors: Yu-Qi Yang, Yu-Xiao Guo, Jian-Yu Xiong, Yang Liu, Hao Pan, Peng-Shuai
Wang, Xin Tong, Baining Guo
- Abstract要約: 微調整を施した事前訓練されたバックボーンは、2次元視覚と自然言語処理タスクで広く採用されている。
スウィン3Dという名前の事前訓練された3Dバックボーンを提示し、まず、下流の3D屋内シーン理解タスクにおいて最先端の手法をすべて上回ります。
- 参考スコア(独自算出の注目度): 30.359037796939194
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Pretrained backbones with fine-tuning have been widely adopted in 2D vision
and natural language processing tasks and demonstrated significant advantages
to task-specific networks. In this paper, we present a pretrained 3D backbone,
named Swin3D, which first outperforms all state-of-the-art methods in
downstream 3D indoor scene understanding tasks. Our backbone network is based
on a 3D Swin transformer and carefully designed to efficiently conduct
self-attention on sparse voxels with linear memory complexity and capture the
irregularity of point signals via generalized contextual relative positional
embedding. Based on this backbone design, we pretrained a large Swin3D model on
a synthetic Structured3D dataset that is 10 times larger than the ScanNet
dataset and fine-tuned the pretrained model in various downstream real-world
indoor scene understanding tasks. The results demonstrate that our model
pretrained on the synthetic dataset not only exhibits good generality in both
downstream segmentation and detection on real 3D point datasets, but also
surpasses the state-of-the-art methods on downstream tasks after fine-tuning
with +2.3 mIoU and +2.2 mIoU on S3DIS Area5 and 6-fold semantic segmentation,
+2.1 mIoU on ScanNet segmentation (val), +1.9 mAP@0.5 on ScanNet detection,
+8.1 mAP@0.5 on S3DIS detection. Our method demonstrates the great potential of
pretrained 3D backbones with fine-tuning for 3D understanding tasks. The code
and models are available at https://github.com/microsoft/Swin3D .
- Abstract(参考訳): 微調整された事前学習されたバックボーンは、2dビジョンや自然言語処理タスクに広く採用されており、タスク固有のネットワークに大きなアドバンテージを示している。
本稿では,下流の3d室内シーン理解タスクにおいて,最先端の手法をすべて上回る3dバックボーンであるswain3dを提案する。
我々のバックボーンネットワークは,3次元スウィントランスをベースとし,線形記憶複雑性を持つスパースボクセル上での自己アテンションを効率的に行い,一般化された文脈的相対位置埋め込みによる点信号の不規則さを捉えるように,慎重に設計されている。
このバックボーン設計に基づいて,scannetデータセットの10倍の大きさの合成構造化3dデータセット上でswain3dモデルを事前学習し,下流の様々な室内環境理解タスクにおいて事前学習したモデルを微調整した。
S3DIS Area5と6倍のセマンティックセグメンテーションにおける2.1 mIoU, ScanNet segmentation (val), +1.9 mAP@0.5, S3DIS Detectionにおける8.1 mAP@0.5, S3DIS Detectionにおける2.1 mIoU, +2.1 mIoU, S3DISにおける2.3 mIoU, +2.1 mAP@0.5の微調整後, 実際の3Dポイントデータセット上でのダウンストリームセグメンテーションと検出の両面で優れた一般性を示した。
本手法は,3次元理解タスクの微調整による3次元バックボーンの事前学習の可能性を示す。
コードとモデルはhttps://github.com/microsoft/swin3dで入手できる。
関連論文リスト
- ARKit LabelMaker: A New Scale for Indoor 3D Scene Understanding [51.509115746992165]
我々はARKit LabelMakerを紹介した。これは、密集したセマンティックアノテーションを備えた、最初の大規模で現実世界の3Dデータセットである。
また,3次元セマンティックセグメンテーションモデルを用いて,ScanNetおよびScanNet200データセットの最先端性能を推し進める。
論文 参考訳(メタデータ) (2024-10-17T14:44:35Z) - PillarNeSt: Embracing Backbone Scaling and Pretraining for Pillar-based
3D Object Detection [33.00510927880774]
柱型3次元物体検出器における2次元バックボーンスケーリングと事前学習の有効性を示す。
提案する柱型検出器であるPillarNeStは、既存の3Dオブジェクト検出器よりも、nuScenesとArgoversev2データセットのマージンが大きい。
論文 参考訳(メタデータ) (2023-11-29T16:11:33Z) - 3DiffTection: 3D Object Detection with Geometry-Aware Diffusion Features [70.50665869806188]
3DiffTectionは、単一の画像から3Dオブジェクトを検出する最先端の方法である。
拡散モデルを微調整し、単一の画像に条件付けされた新しいビュー合成を行う。
さらに、検出監視により、ターゲットデータ上でモデルをトレーニングする。
論文 参考訳(メタデータ) (2023-11-07T23:46:41Z) - 3D Adversarial Augmentations for Robust Out-of-Domain Predictions [115.74319739738571]
ドメイン外データへの一般化の改善に注力する。
対象を逆向きに変形させるベクトルの集合を学習する。
本研究では,学習したサンプル非依存ベクトルをモデルトレーニング時に利用可能なオブジェクトに適用することにより,対数拡大を行う。
論文 参考訳(メタデータ) (2023-08-29T17:58:55Z) - CAGroup3D: Class-Aware Grouping for 3D Object Detection on Point Clouds [55.44204039410225]
本稿では,CAGroup3Dという新しい2段階完全スパース3Dオブジェクト検出フレームワークを提案する。
提案手法は,まず,オブジェクト表面のボクセル上でのクラス認識型局所群戦略を活用することによって,高品質な3D提案を生成する。
不正なボクセルワイドセグメンテーションにより欠落したボクセルの特徴を回復するために,完全にスパースな畳み込み型RoIプールモジュールを構築した。
論文 参考訳(メタデータ) (2022-10-09T13:38:48Z) - R2U3D: Recurrent Residual 3D U-Net for Lung Segmentation [17.343802171952195]
本稿では,3次元肺分割作業のための新しいモデルであるRecurrent Residual 3D U-Net(R2U3D)を提案する。
特に,提案モデルでは,U-Netに基づくRecurrent Residual Neural Networkに3次元畳み込みを組み込む。
提案するR2U3Dネットワークは、公開データセットLUNA16に基づいてトレーニングされ、最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2021-05-05T19:17:14Z) - ST3D: Self-training for Unsupervised Domain Adaptation on 3D
ObjectDetection [78.71826145162092]
点雲からの3次元物体検出における教師なし領域適応のための新しい領域適応型自己学習パイプラインST3Dを提案する。
当社のST3Dは、評価されたすべてのデータセットで最先端のパフォーマンスを達成し、KITTI 3Dオブジェクト検出ベンチマークで完全に監視された結果を超えます。
論文 参考訳(メタデータ) (2021-03-09T10:51:24Z) - H3D: Benchmark on Semantic Segmentation of High-Resolution 3D Point
Clouds and textured Meshes from UAV LiDAR and Multi-View-Stereo [4.263987603222371]
本稿では,3つの方法でユニークな3次元データセットを提案する。
ヘシグハイム(ドイツ語: Hessigheim, H3D)は、ドイツの都市。
片手で3次元データ分析の分野での研究を促進するとともに、新しいアプローチの評価とランク付けを目的としている。
論文 参考訳(メタデータ) (2021-02-10T09:33:48Z) - Exploring Deep 3D Spatial Encodings for Large-Scale 3D Scene
Understanding [19.134536179555102]
生の3次元点雲の空間的特徴を非方向性グラフモデルに符号化することで,CNNに基づくアプローチの限界を克服する代替手法を提案する。
提案手法は、訓練時間とモデル安定性を改善して、最先端の精度で達成し、さらなる研究の可能性を示す。
論文 参考訳(メタデータ) (2020-11-29T12:56:19Z) - Generative Sparse Detection Networks for 3D Single-shot Object Detection [43.91336826079574]
3Dオブジェクト検出は、ロボット工学や拡張現実など多くの有望な分野に適用可能であるため、広く研究されている。
しかし、3Dデータのまばらな性質は、このタスクに固有の課題をもたらしている。
本稿では,完全畳み込み単一ショットスパース検出ネットワークであるGenerative Sparse Detection Network (GSDN)を提案する。
論文 参考訳(メタデータ) (2020-06-22T15:54:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。