論文の概要: FrozenRecon: Pose-free 3D Scene Reconstruction with Frozen Depth Models
- arxiv url: http://arxiv.org/abs/2308.05733v1
- Date: Thu, 10 Aug 2023 17:55:02 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-11 11:28:52.534168
- Title: FrozenRecon: Pose-free 3D Scene Reconstruction with Frozen Depth Models
- Title(参考訳): frozenrecon: 凍結深度モデルを用いたポーズフリー3dシーン再構成
- Authors: Guangkai Xu, Wei Yin, Hao Chen, Chunhua Shen, Kai Cheng, Feng Zhao
- Abstract要約: 本稿では,3次元シーン再構成のための新しいテスト時間最適化手法を提案する。
本手法は5つのゼロショットテストデータセット上で,最先端のクロスデータセット再構築を実現する。
- 参考スコア(独自算出の注目度): 67.96827539201071
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: 3D scene reconstruction is a long-standing vision task. Existing approaches
can be categorized into geometry-based and learning-based methods. The former
leverages multi-view geometry but can face catastrophic failures due to the
reliance on accurate pixel correspondence across views. The latter was
proffered to mitigate these issues by learning 2D or 3D representation
directly. However, without a large-scale video or 3D training data, it can
hardly generalize to diverse real-world scenarios due to the presence of tens
of millions or even billions of optimization parameters in the deep network.
Recently, robust monocular depth estimation models trained with large-scale
datasets have been proven to possess weak 3D geometry prior, but they are
insufficient for reconstruction due to the unknown camera parameters, the
affine-invariant property, and inter-frame inconsistency. Here, we propose a
novel test-time optimization approach that can transfer the robustness of
affine-invariant depth models such as LeReS to challenging diverse scenes while
ensuring inter-frame consistency, with only dozens of parameters to optimize
per video frame. Specifically, our approach involves freezing the pre-trained
affine-invariant depth model's depth predictions, rectifying them by optimizing
the unknown scale-shift values with a geometric consistency alignment module,
and employing the resulting scale-consistent depth maps to robustly obtain
camera poses and achieve dense scene reconstruction, even in low-texture
regions. Experiments show that our method achieves state-of-the-art
cross-dataset reconstruction on five zero-shot testing datasets.
- Abstract(参考訳): 3dシーンの再構築は長年のビジョン課題である。
既存のアプローチは、幾何学ベースと学習ベースに分類できる。
前者はマルチビュー幾何学を利用するが、ビュー間の正確なピクセル対応に依存するため、壊滅的な失敗に直面することがある。
後者は2Dまたは3D表現を直接学習することでこれらの問題を軽減した。
しかし、大規模なビデオや3Dトレーニングデータなしでは、ディープネットワークに数千万、あるいは数十億の最適化パラメータが存在するため、様々な現実世界のシナリオに一般化することはほとんどできない。
近年,大規模データセットで学習したロバストな単眼深度推定モデルが弱い3次元形状を持つことが証明されているが,未知のカメラパラメータやアフィン不変性,フレーム間不整合などにより復元には不十分である。
本稿では,LeReSのようなアフィン不変深度モデルのロバスト性を,フレーム間の整合性を確保しつつ,フレーム間の整合性を確保しつつ,多種多様なシーンに変換できる新しいテスト時間最適化手法を提案する。
具体的には,事前学習したアフィン不変深度モデルの深度予測を凍結し,幾何学的整合性アライメントモジュールを用いて未知のスケールシフト値を最適化し,その結果得られたスケール整合深度マップを用いてカメラポーズのロバストな取得と,低テクチュア領域においても密集したシーン再構成を実現する。
実験の結果,本手法は5つのゼロショットテストデータセット上で,最先端のクロスデータセット再構築を実現する。
関連論文リスト
- PF3plat: Pose-Free Feed-Forward 3D Gaussian Splatting [54.7468067660037]
PF3platは、設計選択を検証した包括的なアブレーション研究によってサポートされた、すべてのベンチマークに新しい最先端を設定します。
本フレームワークは,3DGSの高速,スケーラビリティ,高品質な3D再構成とビュー合成機能を活用している。
論文 参考訳(メタデータ) (2024-10-29T15:28:15Z) - Robust Geometry-Preserving Depth Estimation Using Differentiable
Rendering [93.94371335579321]
我々は、余分なデータやアノテーションを必要とせずに、幾何学保存深度を予測するためにモデルを訓練する学習フレームワークを提案する。
包括的な実験は、我々のフレームワークの優れた一般化能力を強調します。
我々の革新的な損失関数は、ドメイン固有のスケール・アンド・シフト係数を自律的に復元するモデルを可能にします。
論文 参考訳(メタデータ) (2023-09-18T12:36:39Z) - Towards Accurate Reconstruction of 3D Scene Shape from A Single
Monocular Image [91.71077190961688]
まず、未知のスケールまで深さを予測し、単一の単眼画像からシフトする2段階のフレームワークを提案する。
次に、3Dポイントの雲のデータを利用して、奥行きの変化とカメラの焦点距離を予測し、3Dシーンの形状を復元します。
我々は9つの未知のデータセットで深度モデルを検証し、ゼロショット評価で最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2022-08-28T16:20:14Z) - Towards 3D Scene Reconstruction from Locally Scale-Aligned Monocular
Video Depth [90.33296913575818]
映像深度推定や映像からの3次元シーン再構成のようなビデオベースのシナリオでは、フレームごとの予測における未知のスケールとシフトが深度の不整合を引き起こす可能性がある。
局所重み付き線形回帰法を提案する。
提案手法は,複数のゼロショットベンチマークにおいて,既存の最先端手法の性能を50%向上させることができる。
論文 参考訳(メタデータ) (2022-02-03T08:52:54Z) - Towards Non-Line-of-Sight Photography [48.491977359971855]
非視線イメージング(NLOS)は、隠された物体からの多重バウンス間接反射を捉えることに基づいている。
アクティブなNLOSイメージングシステムは、シーンを通しての光の飛行時間の捕捉に依存している。
我々はNLOS写真と呼ばれる新しい問題定式化を提案し、この欠陥に特に対処する。
論文 参考訳(メタデータ) (2021-09-16T08:07:13Z) - H3D-Net: Few-Shot High-Fidelity 3D Head Reconstruction [27.66008315400462]
表面形状を暗黙的に表現する最近の学習手法は、多視点3次元再構成の問題において顕著な結果を示している。
我々はこれらの制限を,数発のフル3次元頭部再構成の特定の問題に対処する。
暗黙の表現を用いて,数千個の不完全な生スキャンから3次元頭部形状モデルを学習する。
論文 参考訳(メタデータ) (2021-07-26T23:04:18Z) - Learning to Recover 3D Scene Shape from a Single Image [98.20106822614392]
まず,未知のスケールまで深さを予測し,単一の単眼画像からシフトする2段階フレームワークを提案する。
そして、3dポイントクラウドエンコーダを使って深度シフトと焦点距離を予測し、リアルな3dシーンの形状を復元します。
論文 参考訳(メタデータ) (2020-12-17T02:35:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。