論文の概要: SST: Real-time End-to-end Monocular 3D Reconstruction via Sparse
Spatial-Temporal Guidance
- arxiv url: http://arxiv.org/abs/2212.06524v1
- Date: Tue, 13 Dec 2022 12:17:13 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-14 14:57:13.057376
- Title: SST: Real-time End-to-end Monocular 3D Reconstruction via Sparse
Spatial-Temporal Guidance
- Title(参考訳): SST : 空間的・時間的疎結合による実時間終端モノクロ3次元再構成
- Authors: Chenyangguang Zhang, Zhiqiang Lou, Yan Di, Federico Tombari and
Xiangyang Ji
- Abstract要約: リアルタイムモノクル3D再構成は未解決の課題である。
視覚SLAMシステムからのスパース推定点を利用したエンドツーエンドの3D再構成ネットワークSSTを提案する。
SSTは、59FPSで高い推論速度を維持しながら、最先端の競合他社よりも優れています。
- 参考スコア(独自算出の注目度): 71.3027345302485
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Real-time monocular 3D reconstruction is a challenging problem that remains
unsolved. Although recent end-to-end methods have demonstrated promising
results, tiny structures and geometric boundaries are hardly captured due to
their insufficient supervision neglecting spatial details and oversimplified
feature fusion ignoring temporal cues. To address the problems, we propose an
end-to-end 3D reconstruction network SST, which utilizes Sparse estimated
points from visual SLAM system as additional Spatial guidance and fuses
Temporal features via a novel cross-modal attention mechanism, achieving more
detailed reconstruction results. We propose a Local Spatial-Temporal Fusion
module to exploit more informative spatial-temporal cues from multi-view color
information and sparse priors, as well a Global Spatial-Temporal Fusion module
to refine the local TSDF volumes with the world-frame model from coarse to
fine. Extensive experiments on ScanNet and 7-Scenes demonstrate that SST
outperforms all state-of-the-art competitors, whilst keeping a high inference
speed at 59 FPS, enabling real-world applications with real-time requirements.
- Abstract(参考訳): 実時間単眼3次元再構成は未解決の課題である。
最近のエンド・ツー・エンドの手法は有望な結果を示しているが、空間的詳細を無視し、時間的手がかりを無視する過度に単純化された特徴融合のため、小さな構造や幾何学的境界はほとんど捉えられない。
この問題を解決するために,視覚SLAMシステムからのスパース推定点を付加空間誘導として利用し,新たなモーダルアテンション機構により時間的特徴を融合し,より詳細な再構築結果を得る,エンドツーエンド3D再構築ネットワークSSTを提案する。
我々は,多視点カラー情報やスパース先行情報からより情報的空間時間的手がかりを利用するローカル空間時間フュージョンモジュールと,世界フレームモデルを用いて局所TSDF量を粗大から微少に改善するグローバル空間時間フュージョンモジュールを提案する。
ScanNetと7-Scenesの大規模な実験は、SSTが59FPSで高い推論速度を維持しながら、すべての最先端の競合より優れていることを示した。
関連論文リスト
- MambaDETR: Query-based Temporal Modeling using State Space Model for Multi-View 3D Object Detection [18.13821223763173]
本稿では,効率的な状態空間に時間融合を実装することを目的として,MambaDETRという新しい手法を提案する。
標準のnuScenesベンチマークでは,提案したMambaDETRは3Dオブジェクト検出タスクにおいて顕著な結果が得られる。
論文 参考訳(メタデータ) (2024-11-20T14:47:18Z) - Enhanced Spatio-Temporal Context for Temporally Consistent Robust 3D
Human Motion Recovery from Monocular Videos [5.258814754543826]
本稿では,モノクロ映像からの時間的一貫した動き推定手法を提案する。
汎用的なResNetのような機能を使う代わりに、本手法ではボディ認識機能表現と独立したフレーム単位のポーズを使用する。
提案手法は, 高速化誤差を著しく低減し, 既存の最先端手法よりも優れる。
論文 参考訳(メタデータ) (2023-11-20T10:53:59Z) - Nothing Stands Still: A Spatiotemporal Benchmark on 3D Point Cloud
Registration Under Large Geometric and Temporal Change [86.44429778015657]
人工空間の3次元幾何学地図の構築は、基本的なコンピュータビジョンとロボット工学である。
Not Stands Still (NSS)ベンチマークは、大きな空間的および時間的変化を行う3Dシーンの時間的登録に焦点を当てている。
NSSの一環として,建設中または改修中の大規模建築屋内環境において,3次元点雲のデータセットを連続的に取得する。
論文 参考訳(メタデータ) (2023-11-15T20:09:29Z) - GO-SLAM: Global Optimization for Consistent 3D Instant Reconstruction [45.49960166785063]
GO-SLAMは、リアルタイムでポーズと3D再構成をグローバルに最適化するディープラーニングベースの高密度ビジュアルSLAMフレームワークである。
さまざまな合成および実世界のデータセットの結果から、GO-SLAMはロバスト性や復元精度の追跡において最先端のアプローチよりも優れていることが示されている。
論文 参考訳(メタデータ) (2023-09-05T17:59:58Z) - Fast Monocular Scene Reconstruction with Global-Sparse Local-Dense Grids [84.90863397388776]
本稿では,スパルス・ボクセル・ブロック・グリッドにおける署名付き距離関数(SDF)を直接使用して,距離のない高速かつ正確なシーン再構成を実現することを提案する。
我々の世界規模で疎密で局所的なデータ構造は、表面の空間的空間性を利用して、キャッシュフレンドリーなクエリを可能にし、マルチモーダルデータへの直接拡張を可能にします。
実験により、我々のアプローチはトレーニングでは10倍、レンダリングでは100倍高速であり、最先端のニューラル暗黙法に匹敵する精度を実現していることがわかった。
論文 参考訳(メタデータ) (2023-05-22T16:50:19Z) - Local-Global Temporal Difference Learning for Satellite Video
Super-Resolution [55.69322525367221]
本稿では,時間的差分を効果的かつ効果的な時間的補償に利用することを提案する。
フレーム内における局所的・大域的時間的情報を完全に活用するために,短期・長期的時間的相違を体系的にモデル化した。
5つの主流ビデオ衛星に対して行われた厳密な客観的および主観的評価は、我々の手法が最先端のアプローチに対して好適に機能することを実証している。
論文 参考訳(メタデータ) (2023-04-10T07:04:40Z) - Spatio-temporal Tendency Reasoning for Human Body Pose and Shape
Estimation from Videos [10.50306784245168]
ビデオから人体ポーズの形状を復元するための時間的傾向推論(STR)ネットワークを提案する。
我々のSTRは、制約のない環境で正確で空間的な動きのシーケンスを学習することを目的としている。
STRは3つのデータセットの最先端と競合し続けています。
論文 参考訳(メタデータ) (2022-10-07T16:09:07Z) - Decoupling and Recoupling Spatiotemporal Representation for RGB-D-based
Motion Recognition [62.46544616232238]
従来の動作認識手法は、密結合した多時間表現によって有望な性能を実現している。
本稿では,RGB-D に基づく動作認識において引き起こされた表現を分離し,再分離することを提案する。
論文 参考訳(メタデータ) (2021-12-16T18:59:47Z) - SCFusion: Real-time Incremental Scene Reconstruction with Semantic
Completion [86.77318031029404]
本研究では,シーン再構成とセマンティックシーン補完を段階的かつリアルタイムに共同で行うフレームワークを提案する。
我々のフレームワークは、3Dグローバルモデルでセマンティックコンプリートを正確かつ効率的に融合させるために、占有マップを処理し、ボクセル状態を活用するように設計された新しいニューラルアーキテクチャに依存している。
論文 参考訳(メタデータ) (2020-10-26T15:31:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。