論文の概要: VisFusion: Visibility-aware Online 3D Scene Reconstruction from Videos
- arxiv url: http://arxiv.org/abs/2304.10687v1
- Date: Fri, 21 Apr 2023 00:47:05 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-24 16:16:29.481555
- Title: VisFusion: Visibility-aware Online 3D Scene Reconstruction from Videos
- Title(参考訳): VisFusion: 可視性に対応したオンライン3Dシーンをビデオから再現する
- Authors: Huiyu Gao, Wei Mao, Miaomiao Liu
- Abstract要約: 提案するVisFusionは,モノクラー映像からの3Dシーン再構成を視覚的に認識するオンライン手法である。
類似度行列からその可視性を明示的に推測することで特徴融合を改善することを目的としている。
ベンチマークによる実験結果から,本手法はより詳細なシーンで優れた性能が得られることが示された。
- 参考スコア(独自算出の注目度): 24.310673998221866
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We propose VisFusion, a visibility-aware online 3D scene reconstruction
approach from posed monocular videos. In particular, we aim to reconstruct the
scene from volumetric features. Unlike previous reconstruction methods which
aggregate features for each voxel from input views without considering its
visibility, we aim to improve the feature fusion by explicitly inferring its
visibility from a similarity matrix, computed from its projected features in
each image pair. Following previous works, our model is a coarse-to-fine
pipeline including a volume sparsification process. Different from their works
which sparsify voxels globally with a fixed occupancy threshold, we perform the
sparsification on a local feature volume along each visual ray to preserve at
least one voxel per ray for more fine details. The sparse local volume is then
fused with a global one for online reconstruction. We further propose to
predict TSDF in a coarse-to-fine manner by learning its residuals across scales
leading to better TSDF predictions. Experimental results on benchmarks show
that our method can achieve superior performance with more scene details. Code
is available at: https://github.com/huiyu-gao/VisFusion
- Abstract(参考訳): 提案するVisFusionは,モノクラー映像からの3Dシーン再構築手法である。
特に,音量的特徴からシーンを再構築することを目的としている。
入力ビューから各ボクセルの特徴を可視性を考慮せずに集約する従来の再構成手法とは異なり、各画像ペアの投影された特徴から計算した類似度行列からその可視性を明示的に推定することで特徴融合を改善することを目的としている。
これまでの作業に続いて,このモデルはボリュームスパーシフィケーションプロセスを含む粗粒度パイプラインである。
ボクセルを固定占有閾値で世界中に分散させる彼らの作品とは異なり、各視覚線に沿って局所的な特徴量のスカラー化を行い、1光線あたりの少なくとも1つのボクセルをより詳細に保存する。
希少なローカルボリュームは、オンライン再構築のためのグローバルなボリュームと融合する。
さらに, TSDF予測の精度を向上するために, 粒度を粗大に予測する手法を提案する。
ベンチマーク実験の結果,より詳細なシーンで優れた性能が得られることがわかった。
コードは、https://github.com/huiyu-gao/VisFusionで入手できる。
関連論文リスト
- SCube: Instant Large-Scale Scene Reconstruction using VoxSplats [55.383993296042526]
SCubeは画像の粗い集合から大規模3次元シーン(幾何学、外観、意味論)を再構成する新しい手法である。
提案手法は,高解像度のスパース・ボクセル・足場上に支持された3次元ガウスの組である,新しい表現VoxSplatを用いて再構成シーンを符号化する。
論文 参考訳(メタデータ) (2024-10-26T00:52:46Z) - Learning Neural Implicit through Volume Rendering with Attentive Depth
Fusion Priors [32.63878457242185]
我々は,多視点RGBD画像からの暗黙的表現を,暗黙的深度融合によるボリュームレンダリングにより学習する。
注意機構は、シーン全体を表す1回溶融TSDFか、部分シーンを表す漸増溶融TSDFで機能する。
合成および実世界のスキャンを含む広く使われているベンチマークの評価は、最新のニューラル暗黙法よりも優れていることを示している。
論文 参考訳(メタデータ) (2023-10-17T21:45:51Z) - VolRecon: Volume Rendering of Signed Ray Distance Functions for
Generalizable Multi-View Reconstruction [64.09702079593372]
VolRecon は Signed Ray Distance Function (SRDF) を用いた新しい一般化可能な暗黙的再構成法である
DTUデータセットでは、VolReconはスパースビュー再構築においてSparseNeuSを約30%上回り、フルビュー再構築においてMVSNetと同等の精度を達成する。
論文 参考訳(メタデータ) (2022-12-15T18:59:54Z) - VoGE: A Differentiable Volume Renderer using Gaussian Ellipsoids for
Analysis-by-Synthesis [62.47221232706105]
本稿では,ガウス再構成カーネルをボリュームプリミティブとして利用するVoGEを提案する。
本稿では,VoGEを用いて効率よくレンダリングを行うために,体積密度集約と粗大な描画戦略に関する近似クローズフォーム解を提案する。
VoGEは、オブジェクトポーズ推定、形状/テクスチャフィッティング、推論など、様々な視覚タスクに適用された場合、SoTAより優れている。
論文 参考訳(メタデータ) (2022-05-30T19:52:11Z) - VPFusion: Joint 3D Volume and Pixel-Aligned Feature Fusion for Single
and Multi-view 3D Reconstruction [23.21446438011893]
VPFusionは、3D特徴量の両方を使って高品質な再構築を実現し、3D構造対応コンテキストをキャプチャする。
既存のアプローチでは、RNN、フィーチャープーリング、および多視点融合のために各ビューで独立に計算された注意を使用する。
変換器を用いたペアワイズ・ビュー・アソシエーションの確立により,マルチビュー・フィーチャー・フュージョンが改善された。
論文 参考訳(メタデータ) (2022-03-14T23:30:58Z) - VoRTX: Volumetric 3D Reconstruction With Transformers for Voxelwise View
Selection and Fusion [68.68537312256144]
VoRTXは、多視点機能融合のためのトランスフォーマーを用いた、エンドツーエンドのボリューム3D再構成ネットワークである。
我々は、ScanNet上でモデルをトレーニングし、最先端の手法よりも優れた再構築を実現することを示す。
論文 参考訳(メタデータ) (2021-12-01T02:18:11Z) - NeuralFusion: Online Depth Fusion in Latent Space [77.59420353185355]
潜在特徴空間における深度マップアグリゲーションを学習する新しいオンライン深度マップ融合手法を提案する。
提案手法は,高騒音レベルを処理し,特に測光ステレオベース深度マップに共通する粗悪なアウトレージに対処できる。
論文 参考訳(メタデータ) (2020-11-30T13:50:59Z) - Stable View Synthesis [100.86844680362196]
安定ビュー合成(SVS)について紹介する。
SVSは、自由に分散された視点からシーンを描写するソースイメージのセットを与えられた場合、シーンの新たなビューを合成する。
SVSは3つの異なる実世界のデータセットに対して定量的かつ質的に、最先端のビュー合成手法より優れている。
論文 参考訳(メタデータ) (2020-11-14T07:24:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。