論文の概要: EPRecon: An Efficient Framework for Real-Time Panoptic 3D Reconstruction from Monocular Video
- arxiv url: http://arxiv.org/abs/2409.01807v1
- Date: Tue, 3 Sep 2024 11:40:31 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-06 01:47:58.142471
- Title: EPRecon: An Efficient Framework for Real-Time Panoptic 3D Reconstruction from Monocular Video
- Title(参考訳): EPRecon:モノクルビデオからのリアルタイムパノプティクス3D再構成のための効率的なフレームワーク
- Authors: Zhen Zhou, Yunkai Ma, Junfeng Fan, Shaolin Zhang, Fengshui Jing, Min Tan,
- Abstract要約: EPReconは,効率的なリアルタイムパノプティカル3D再構成フレームワークである。
本稿では,3次元ボリュームのシーン深度を直接推定する軽量モジュールを提案する。
さらに、占有されたボクセルからよりリッチなパノプティクス特徴を推測するために、EPReconはボクセル特徴と対応する画像特徴の両方からパノプティクス特徴を抽出する。
- 参考スコア(独自算出の注目度): 6.236130301507863
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Panoptic 3D reconstruction from a monocular video is a fundamental perceptual task in robotic scene understanding. However, existing efforts suffer from inefficiency in terms of inference speed and accuracy, limiting their practical applicability. We present EPRecon, an efficient real-time panoptic 3D reconstruction framework. Current volumetric-based reconstruction methods usually utilize multi-view depth map fusion to obtain scene depth priors, which is time-consuming and poses challenges to real-time scene reconstruction. To end this, we propose a lightweight module to directly estimate scene depth priors in a 3D volume for reconstruction quality improvement by generating occupancy probabilities of all voxels. In addition, to infer richer panoptic features from occupied voxels, EPRecon extracts panoptic features from both voxel features and corresponding image features, obtaining more detailed and comprehensive instance-level semantic information and achieving more accurate segmentation results. Experimental results on the ScanNetV2 dataset demonstrate the superiority of EPRecon over current state-of-the-art methods in terms of both panoptic 3D reconstruction quality and real-time inference. Code is available at https://github.com/zhen6618/EPRecon.
- Abstract(参考訳): 単眼映像からのパノプティカル3D再構成はロボットシーン理解の基本的な課題である。
しかし、既存の努力は推論速度と精度の点で非効率に悩まされ、実用性は制限される。
EPReconは,効率的なリアルタイムパノプティカル3D再構成フレームワークである。
現在のボリュームベース再構築法では,複数視点の深度マップを融合してシーンの深度を推定する手法が一般的である。
そこで本研究では,すべてのボクセルの占有確率を発生させることにより,3次元ボリュームのシーン深度を推定し,再現性の向上を図る軽量モジュールを提案する。
さらに、占有されたボクセルからよりリッチなパノプティクス特徴を推測するために、EPReconは、ボクセル特徴と対応する画像特徴の両方からパノプティクス特徴を抽出し、より詳細で包括的なインスタンスレベルのセマンティック情報を取得し、より正確なセグティファイション結果を得る。
ScanNetV2データセットによる実験結果から、EPReconが現在の最先端手法よりも、汎視的3D再構成品質とリアルタイム推論の両方で優れていることが示された。
コードはhttps://github.com/zhen6618/EPReconで入手できる。
関連論文リスト
- 3DFIRES: Few Image 3D REconstruction for Scenes with Hidden Surface [8.824340350342512]
3DFIRESは、ポーズ画像からシーンレベルの3D再構成を行う新しいシステムである。
単一視点再構成法の有効性を1つの入力で示す。
論文 参考訳(メタデータ) (2024-03-13T17:59:50Z) - ReconFusion: 3D Reconstruction with Diffusion Priors [104.73604630145847]
本稿では,数枚の写真を用いて現実のシーンを再構成するReconFusionを提案する。
提案手法は,合成および多視点データセットに基づいて訓練された新規なビュー合成に先立って拡散を利用する。
本手法は,観測領域の外観を保ちながら,非拘束領域における現実的な幾何学とテクスチャを合成する。
論文 参考訳(メタデータ) (2023-12-05T18:59:58Z) - FineRecon: Depth-aware Feed-forward Network for Detailed 3D
Reconstruction [13.157400338544177]
ポーズ画像からの3次元再構成に関する最近の研究は、深層ニューラルネットワークを用いてシーンレベルの3次元幾何を直接推定できることを実証している。
推論に基づく3次元再構成の忠実度を改善するための有効な3つの方法を提案する。
提案手法はスムーズかつ高精度な再構成を行い,多深度および3次元再構成の指標において顕著な改善が見られた。
論文 参考訳(メタデータ) (2023-04-04T02:50:29Z) - VolRecon: Volume Rendering of Signed Ray Distance Functions for
Generalizable Multi-View Reconstruction [64.09702079593372]
VolRecon は Signed Ray Distance Function (SRDF) を用いた新しい一般化可能な暗黙的再構成法である
DTUデータセットでは、VolReconはスパースビュー再構築においてSparseNeuSを約30%上回り、フルビュー再構築においてMVSNetと同等の精度を達成する。
論文 参考訳(メタデータ) (2022-12-15T18:59:54Z) - PETRv2: A Unified Framework for 3D Perception from Multi-Camera Images [105.29493158036105]
PETRv2は、多視点画像からの3D知覚のための統一されたフレームワークである。
PETRの3次元位置埋め込みを時間的モデリングのために拡張する。
PETRv2は3Dオブジェクト検出とBEVセグメンテーションの最先端性能を実現する。
論文 参考訳(メタデータ) (2022-06-02T19:13:03Z) - Neural 3D Reconstruction in the Wild [86.6264706256377]
そこで我々は,インターネット写真コレクションから効率よく高精度な表面再構成を実現する新しい手法を提案する。
そこで本研究では,これらのシーンにおける再構成性能を評価するための新しいベンチマークとプロトコルを提案する。
論文 参考訳(メタデータ) (2022-05-25T17:59:53Z) - NeuralRecon: Real-Time Coherent 3D Reconstruction from Monocular Video [41.554961144321474]
本研究では,各ビデオフラグメントのTSDFボリュームに代表される局所曲面をニューラルネットワークで順次再構成することを提案する。
学習ベースのTSDF融合モジュールは、ネットワークが以前のフラグメントから機能をフューズするために使用される。
ScanNetと7-Scenesのデータセットの実験により、我々のシステムは精度と速度の両面で最先端の手法より優れていることが示された。
論文 参考訳(メタデータ) (2021-04-01T17:59:46Z) - MVSNeRF: Fast Generalizable Radiance Field Reconstruction from
Multi-View Stereo [52.329580781898116]
MVSNeRFは、ビュー合成のための神経放射場を効率的に再構築できる新しいニューラルレンダリング手法である。
高密度にキャプチャされた画像に対して,シーン毎の最適化を考慮に入れたニューラルネットワークの先行研究とは異なり,高速ネットワーク推論により,近傍の3つの入力ビューのみからラミアンスフィールドを再構成できる汎用ディープニューラルネットワークを提案する。
論文 参考訳(メタデータ) (2021-03-29T13:15:23Z) - SCFusion: Real-time Incremental Scene Reconstruction with Semantic
Completion [86.77318031029404]
本研究では,シーン再構成とセマンティックシーン補完を段階的かつリアルタイムに共同で行うフレームワークを提案する。
我々のフレームワークは、3Dグローバルモデルでセマンティックコンプリートを正確かつ効率的に融合させるために、占有マップを処理し、ボクセル状態を活用するように設計された新しいニューラルアーキテクチャに依存している。
論文 参考訳(メタデータ) (2020-10-26T15:31:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。