論文の概要: Monocular Scene Reconstruction with 3D SDF Transformers
- arxiv url: http://arxiv.org/abs/2301.13510v1
- Date: Tue, 31 Jan 2023 09:54:20 GMT
- ステータス: 処理完了
- システム内更新日: 2023-02-01 17:07:12.814962
- Title: Monocular Scene Reconstruction with 3D SDF Transformers
- Title(参考訳): 3次元SDF変換器を用いた単眼シーン再構成
- Authors: Weihao Yuan, Xiaodong Gu, Heng Li, Zilong Dong, Siyu Zhu
- Abstract要約: 本研究では,より優れた3次元特徴集約のために3次元CNNを代替するSDFトランスフォーマーネットワークを提案する。
複数のデータセットの実験により、この3Dトランスフォーマーネットワークはより正確で完全な再構成を生成することが示された。
- 参考スコア(独自算出の注目度): 17.565474518578178
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Monocular scene reconstruction from posed images is challenging due to the
complexity of a large environment. Recent volumetric methods learn to directly
predict the TSDF volume and have demonstrated promising results in this task.
However, most methods focus on how to extract and fuse the 2D features to a 3D
feature volume, but none of them improve the way how the 3D volume is
aggregated. In this work, we propose an SDF transformer network, which replaces
the role of 3D CNN for better 3D feature aggregation. To reduce the explosive
computation complexity of the 3D multi-head attention, we propose a sparse
window attention module, where the attention is only calculated between the
non-empty voxels within a local window. Then a top-down-bottom-up 3D attention
network is built for 3D feature aggregation, where a dilate-attention structure
is proposed to prevent geometry degeneration, and two global modules are
employed to equip with global receptive fields. The experiments on multiple
datasets show that this 3D transformer network generates a more accurate and
complete reconstruction, which outperforms previous methods by a large margin.
Remarkably, the mesh accuracy is improved by 41.8%, and the mesh completeness
is improved by 25.3% on the ScanNet dataset. Project page:
https://weihaosky.github.io/sdfformer.
- Abstract(参考訳): ポーズ画像からの単眼的シーン再構成は,大規模環境の複雑さから困難である。
近年の体積法はTSDFの体積を直接予測することを学び,この課題において有望な結果を示した。
しかし、ほとんどの方法は2d機能を3d機能ボリュームに抽出・融合する方法にフォーカスしているが、3dボリュームの集約方法を改善するものはない。
本研究では,より優れた3次元特徴集約のための3次元CNNを代替するSDFトランスフォーマーネットワークを提案する。
3次元マルチヘッドアテンションの爆発的計算の複雑さを軽減するために,ローカルウインドウ内の空でないボクセル間でのみ注意が計算される分散ウインドウアテンションモジュールを提案する。
次に,3次元特徴集約のためのトップダウンボトムアップ3Dアテンションネットワークを構築し,ジオメトリーの劣化を防ぐためにダイレートアテンション構造を提案し,グローバルな受容場に合わせるために2つのグローバルモジュールを用いる。
複数のデータセットに対する実験により、この3Dトランスフォーマーネットワークはより正確で完全な再構成を生成し、従来の手法よりも大きなマージンで優れていた。
注目すべきは、メッシュの精度が41.8%向上し、ScanNetデータセットでメッシュの完全性が25.3%向上したことだ。
プロジェクトページ: https://weihaosky.github.io/sdfformer。
関連論文リスト
- SWFormer: Sparse Window Transformer for 3D Object Detection in Point
Clouds [44.635939022626744]
ポイントクラウドにおける3Dオブジェクト検出は、現代のロボティクスと自律運転システムの中核となるコンポーネントである。
3Dオブジェクト検出の鍵となる課題は、3Dシーン内でのポイント占有のスパースな性質にある。
Sparse Window Transformer (SWFormer) を提案する。
論文 参考訳(メタデータ) (2022-10-13T21:37:53Z) - CAGroup3D: Class-Aware Grouping for 3D Object Detection on Point Clouds [55.44204039410225]
本稿では,CAGroup3Dという新しい2段階完全スパース3Dオブジェクト検出フレームワークを提案する。
提案手法は,まず,オブジェクト表面のボクセル上でのクラス認識型局所群戦略を活用することによって,高品質な3D提案を生成する。
不正なボクセルワイドセグメンテーションにより欠落したボクセルの特徴を回復するために,完全にスパースな畳み込み型RoIプールモジュールを構築した。
論文 参考訳(メタデータ) (2022-10-09T13:38:48Z) - Spatial Pruned Sparse Convolution for Efficient 3D Object Detection [41.62839541489369]
3Dシーンは多数のバックグラウンドポイントによって支配されており、主に前景オブジェクトにフォーカスする必要がある検出タスクには冗長である。
本稿では,既存の3D CNNの主要なコンポーネントを分析し,データの冗長性を無視し,さらにダウンサンプリングプロセスでそれを増幅することにより,余分な計算オーバーヘッドと不要な計算オーバーヘッドを発生させる。
SPS-ConvとSPSS-ConvとSPRSの2つの変種を含む新しい畳み込み演算子を提案する。
論文 参考訳(メタデータ) (2022-09-28T16:19:06Z) - Asymmetric 3D Context Fusion for Universal Lesion Detection [55.61873234187917]
3Dネットワークは、3Dコンテキストでは強いが、教師付き事前トレーニングがない。
既存の3Dコンテキスト融合演算子は空間対称に設計されており、畳み込みのように各2Dスライス上で同一の操作を行う。
本研究では, 異なる重みを持つ非対称な3次元コンテキスト融合演算子 (A3D) を提案し, 異なる2次元スライスから3次元コンテキストを融合させる。
論文 参考訳(メタデータ) (2021-09-17T16:25:10Z) - Cylindrical and Asymmetrical 3D Convolution Networks for LiDAR-based
Perception [122.53774221136193]
運転時のLiDARに基づく認識のための最先端の手法は、しばしば点雲を2D空間に投影し、2D畳み込みによって処理する。
自然な対策として、3Dボクセル化と3D畳み込みネットワークを利用する方法がある。
本研究では,3次元幾何学的パターンを探索するために,円筒状分割と非対称な3次元畳み込みネットワークを設計する,屋外LiDARセグメンテーションのための新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2021-09-12T06:25:11Z) - Anchor-free 3D Single Stage Detector with Mask-Guided Attention for
Point Cloud [79.39041453836793]
我々は、点雲をアンカーフリーで検出する新しい1段3次元検出器を開発した。
ボクセルをベースとしたスパース3D特徴量からスパース2D特徴量マップに変換することでこれを克服する。
検出信頼度スコアとバウンディングボックス回帰の精度との相関性を改善するために,IoUに基づく検出信頼度再校正手法を提案する。
論文 参考訳(メタデータ) (2021-08-08T13:42:13Z) - Multi-Modality Task Cascade for 3D Object Detection [22.131228757850373]
多くの手法は2つのモデルを個別に訓練し、単純な特徴結合を用いて3Dセンサーデータを表現している。
本稿では,3次元ボックスの提案を利用して2次元セグメンテーション予測を改善する新しいマルチモードタスクカスケードネットワーク(MTC-RCNN)を提案する。
2段階の3次元モジュール間の2次元ネットワークを組み込むことで,2次元および3次元のタスク性能が大幅に向上することを示す。
論文 参考訳(メタデータ) (2021-07-08T17:55:01Z) - Reinforced Axial Refinement Network for Monocular 3D Object Detection [160.34246529816085]
モノクロ3次元物体検出は、2次元入力画像から物体の位置と特性を抽出することを目的としている。
従来のアプローチでは、空間から3D境界ボックスをサンプリングし、対象オブジェクトと各オブジェクトの関係を推定するが、有効サンプルの確率は3D空間で比較的小さい。
我々は,まず最初の予測から始めて,各ステップで1つの3dパラメータだけを変えて,基礎的真理に向けて徐々に洗練することを提案する。
これは、いくつかのステップの後に報酬を得るポリシーを設計する必要があるため、最適化するために強化学習を採用します。
論文 参考訳(メタデータ) (2020-08-31T17:10:48Z) - Implicit Functions in Feature Space for 3D Shape Reconstruction and
Completion [53.885984328273686]
Implicit Feature Networks (IF-Nets) は連続的な出力を提供し、複数のトポロジを扱える。
IF-NetsはShapeNetにおける3次元オブジェクト再構成における先行作業よりも明らかに優れており、より正確な3次元人間の再構成が得られる。
論文 参考訳(メタデータ) (2020-03-03T11:14:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。