論文の概要: MV-DUSt3R+: Single-Stage Scene Reconstruction from Sparse Views In 2 Seconds
- arxiv url: http://arxiv.org/abs/2412.06974v1
- Date: Mon, 09 Dec 2024 20:34:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-11 14:39:02.541569
- Title: MV-DUSt3R+: Single-Stage Scene Reconstruction from Sparse Views In 2 Seconds
- Title(参考訳): MV-DUSt3R+:2秒間スパークビューからのシングルステージシーン再構成
- Authors: Zhenggang Tang, Yuchen Fan, Dilin Wang, Hongyu Xu, Rakesh Ranjan, Alexander Schwing, Zhicheng Yan,
- Abstract要約: 本稿では,高速な単一ステージフィードフォワードネットワークMV-DUSt3Rを提案する。
コアとなるのはマルチビューデコーダブロックで、単一の参照ビューを考慮しながら、任意のビュー間で情報を交換する。
さらに,参照ビュー選択に頑健な手法として,参照ビュー選択の異なる情報を融合するために,参照ビューブロックを用いたMV-DUSt3R+を提案する。
- 参考スコア(独自算出の注目度): 56.77548728485841
- License:
- Abstract: Recent sparse multi-view scene reconstruction advances like DUSt3R and MASt3R no longer require camera calibration and camera pose estimation. However, they only process a pair of views at a time to infer pixel-aligned pointmaps. When dealing with more than two views, a combinatorial number of error prone pairwise reconstructions are usually followed by an expensive global optimization, which often fails to rectify the pairwise reconstruction errors. To handle more views, reduce errors, and improve inference time, we propose the fast single-stage feed-forward network MV-DUSt3R. At its core are multi-view decoder blocks which exchange information across any number of views while considering one reference view. To make our method robust to reference view selection, we further propose MV-DUSt3R+, which employs cross-reference-view blocks to fuse information across different reference view choices. To further enable novel view synthesis, we extend both by adding and jointly training Gaussian splatting heads. Experiments on multi-view stereo reconstruction, multi-view pose estimation, and novel view synthesis confirm that our methods improve significantly upon prior art. Code will be released.
- Abstract(参考訳): 最近のDUSt3RやMASt3Rのようなスパースなマルチビューシーン再構築は、カメラキャリブレーションやカメラポーズ推定を必要としない。
しかし、一度に1対のビューしか処理せず、ピクセル対応のポイントマップを推測する。
2つ以上のビューを扱う場合、ペアワイズ・リコンストラクションの組合せ数は通常、高価なグローバルな最適化が続き、ペアワイズ・リコンストラクション・エラーの修正に失敗する。
より多くのビューを処理し、エラーを低減し、推論時間を改善するために、高速なシングルステージフィードフォワードネットワークMV-DUSt3Rを提案する。
コアとなるのはマルチビューデコーダブロックで、単一の参照ビューを考慮しながら、任意のビュー間で情報を交換する。
さらに,参照ビュー選択に頑健な手法として,参照ビュー選択の異なる情報を融合するために,参照ビューブロックを用いたMV-DUSt3R+を提案する。
さらに新しいビュー合成を可能にするために,ガウススプラッティングヘッドの追加と共同訓練により拡張する。
多視点ステレオ再構成、多視点ポーズ推定、および新規ビュー合成の実験により、我々の手法が先行技術により大幅に改善されることが確認された。
コードはリリースされる。
関連論文リスト
- RCNet: Deep Recurrent Collaborative Network for Multi-View Low-Light Image Enhancement [19.751696790765635]
マルチビュー低照度画像の高精細化について検討する。
Recurrent Collaborative Network (RCNet) に基づく深層多視点化フレームワークを提案する。
実験の結果,我々のRCNetは,他の最先端手法よりも優れていた。
論文 参考訳(メタデータ) (2024-09-06T15:49:49Z) - 2L3: Lifting Imperfect Generated 2D Images into Accurate 3D [16.66666619143761]
マルチビュー(MV)3次元再構成は,生成したMV画像を一貫した3次元オブジェクトに融合させる,有望なソリューションである。
しかし、生成された画像は、通常、一貫性のない照明、不整合幾何学、スパースビューに悩まされ、復元の質が低下する。
本稿では, 内在的分解誘導, 過渡的モノ先行誘導, および3つの問題に対処するための視認性向上を活用する新しい3次元再構成フレームワークを提案する。
論文 参考訳(メタデータ) (2024-01-29T02:30:31Z) - DUSt3R: Geometric 3D Vision Made Easy [8.471330244002564]
Dense and Unconstrained Stereo 3D Reconstruction of arbitrary image collections。
本定式化は単眼および両眼の再建症例を円滑に統一することを示す。
私たちの定式化はシーンの3Dモデルと深度情報を直接提供しますが、興味深いことに、シームレスに回復できます。
論文 参考訳(メタデータ) (2023-12-21T18:52:14Z) - UpFusion: Novel View Diffusion from Unposed Sparse View Observations [66.36092764694502]
UpFusionは、参照画像のスパースセットが与えられたオブジェクトに対して、新しいビュー合成と3D表現を推論することができる。
本研究では,この機構により,付加された(未提示)画像の合成品質を向上しつつ,高忠実度な新規ビューを生成することができることを示す。
論文 参考訳(メタデータ) (2023-12-11T18:59:55Z) - Learning to Render Novel Views from Wide-Baseline Stereo Pairs [26.528667940013598]
本稿では,単一の広線ステレオ画像ペアのみを付与した新しいビュー合成手法を提案する。
スパース観測による新しいビュー合成への既存のアプローチは、誤った3次元形状の復元によって失敗する。
対象光線に対する画像特徴を組み立てるための,効率的な画像空間のエピポーラ線サンプリング手法を提案する。
論文 参考訳(メタデータ) (2023-04-17T17:40:52Z) - Enhanced Stable View Synthesis [86.69338893753886]
本稿では,自由に動くカメラから撮影した画像から,新しいビュー合成を強化するアプローチを提案する。
導入されたアプローチは、正確な幾何学的足場とカメラのポーズの復元が困難な屋外シーンに焦点を当てている。
論文 参考訳(メタデータ) (2023-03-30T01:53:14Z) - VoRTX: Volumetric 3D Reconstruction With Transformers for Voxelwise View
Selection and Fusion [68.68537312256144]
VoRTXは、多視点機能融合のためのトランスフォーマーを用いた、エンドツーエンドのボリューム3D再構成ネットワークである。
我々は、ScanNet上でモデルをトレーニングし、最先端の手法よりも優れた再構築を実現することを示す。
論文 参考訳(メタデータ) (2021-12-01T02:18:11Z) - Multi-View Multi-Person 3D Pose Estimation with Plane Sweep Stereo [71.59494156155309]
既存のマルチビュー3Dポーズ推定手法は、複数のカメラビューからグループ2Dポーズ検出に対するクロスビュー対応を明確に確立する。
平面スイープステレオに基づくマルチビュー3Dポーズ推定手法を提案し、クロスビュー融合と3Dポーズ再構築を1ショットで共同で解決します。
論文 参考訳(メタデータ) (2021-04-06T03:49:35Z) - Monocular Depth Estimation with Self-supervised Instance Adaptation [138.0231868286184]
ロボット工学の応用では、ロボットの動作に応じて、シーンの複数のビューが利用可能であるかもしれないし、利用できないかもしれない。
本稿では,市販の自己監督型単分子深度再構成システムをテスト時に複数の画像に拡張する手法を提案する。
論文 参考訳(メタデータ) (2020-04-13T08:32:03Z) - Learning to Correct 3D Reconstructions from Multiple Views [20.315829094519128]
既存の再構築の2Dビューを描画し、高品質な再構築に対応するために逆深度を洗練する畳み込みニューラルネットワークを訓練する。
私たちが修正したビューは同じ再構築からレンダリングされるため、同じジオメトリを共有するため、重複するビューが相互に補完する。
ビュー間の相対的なポーズから多層パーセプトロンによって生成される動的フィルタを用いて特徴を変換する手法を提案する。
論文 参考訳(メタデータ) (2020-01-22T16:02:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。