論文の概要: Recollection from Pensieve: Novel View Synthesis via Learning from Uncalibrated Videos
- arxiv url: http://arxiv.org/abs/2505.13440v1
- Date: Mon, 19 May 2025 17:59:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-20 14:57:11.804744
- Title: Recollection from Pensieve: Novel View Synthesis via Learning from Uncalibrated Videos
- Title(参考訳): Pensieveからの再生: 未校正ビデオからの学習による新しい視点合成
- Authors: Ruoyu Wang, Yi Ma, Shenghua Gao,
- Abstract要約: 本稿では、生のビデオフレームや多視点画像のみからビュー合成モデルを訓練するための新しい2段階戦略を提案する。
第1段階では、明示的な3D表現に頼ることなく、潜在空間で暗黙的にシーンを再構築することを学ぶ。
学習した潜入カメラと暗黙のシーン表現は、実世界と比較すると大きなギャップがある。
- 参考スコア(独自算出の注目度): 36.49978976710115
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Currently almost all state-of-the-art novel view synthesis and reconstruction models rely on calibrated cameras or additional geometric priors for training. These prerequisites significantly limit their applicability to massive uncalibrated data. To alleviate this requirement and unlock the potential for self-supervised training on large-scale uncalibrated videos, we propose a novel two-stage strategy to train a view synthesis model from only raw video frames or multi-view images, without providing camera parameters or other priors. In the first stage, we learn to reconstruct the scene implicitly in a latent space without relying on any explicit 3D representation. Specifically, we predict per-frame latent camera and scene context features, and employ a view synthesis model as a proxy for explicit rendering. This pretraining stage substantially reduces the optimization complexity and encourages the network to learn the underlying 3D consistency in a self-supervised manner. The learned latent camera and implicit scene representation have a large gap compared with the real 3D world. To reduce this gap, we introduce the second stage training by explicitly predicting 3D Gaussian primitives. We additionally apply explicit Gaussian Splatting rendering loss and depth projection loss to align the learned latent representations with physically grounded 3D geometry. In this way, Stage 1 provides a strong initialization and Stage 2 enforces 3D consistency - the two stages are complementary and mutually beneficial. Extensive experiments demonstrate the effectiveness of our approach, achieving high-quality novel view synthesis and accurate camera pose estimation, compared to methods that employ supervision with calibration, pose, or depth information. The code is available at https://github.com/Dwawayu/Pensieve.
- Abstract(参考訳): 現在、最先端の新しいビュー合成と再構成モデルは、キャリブレーションされたカメラや追加の幾何学的事前訓練に依存している。
これらの前提条件は、大規模な未校正データの適用性を著しく制限する。
この要件を緩和し、大規模な未校正ビデオにおける自己監督型トレーニングの可能性を高めるために、カメラパラメータや他の先行情報を提供することなく、生のビデオフレームや多視点画像のみからビュー合成モデルをトレーニングする新たな2段階戦略を提案する。
第1段階では、明示的な3D表現に頼ることなく、潜在空間で暗黙的にシーンを再構築することを学ぶ。
具体的には、フレームごとの潜伏カメラとシーンコンテキストの特徴を予測し、明示的なレンダリングのためのプロキシとしてビュー合成モデルを用いる。
この事前学習段階は、最適化の複雑さを大幅に減らし、ネットワークが基礎となる3D一貫性を自己管理的に学習することを奨励する。
学習した潜入カメラと暗黙のシーン表現は、実世界と比較すると大きなギャップがある。
このギャップを減らすために、3Dガウス原始体を明示的に予測することで第2段階の訓練を導入する。
さらに、学習した潜在表現を物理的に接地された3次元幾何と整合させるために、明示的なガウススプラッティングレンダリング損失と深さ投影損失を適用した。
このように、ステージ1は強力な初期化を提供し、ステージ2は3D一貫性を強制します。
キャリブレーション, ポーズ, 深度情報を用いた監視手法と比較して, 高品質な新規ビュー合成と正確なカメラポーズ推定を実現し, 提案手法の有効性を実証した。
コードはhttps://github.com/Dwawayu/Pensieve.comで入手できる。
関連論文リスト
- DistillNeRF: Perceiving 3D Scenes from Single-Glance Images by Distilling Neural Fields and Foundation Model Features [65.8738034806085]
DistillNeRFは、自動運転シーンにおける3D環境を理解するための自己教師型学習フレームワークである。
本手法は,スパースで単一フレームのマルチビューカメラ入力からリッチなニューラルシーン表現を予測する一般化可能なフィードフォワードモデルである。
論文 参考訳(メタデータ) (2024-06-17T21:15:13Z) - Denoising Diffusion via Image-Based Rendering [54.20828696348574]
実世界の3Dシーンの高速かつ詳細な再構築と生成を可能にする最初の拡散モデルを提案する。
まず、大きな3Dシーンを効率よく正確に表現できる新しいニューラルシーン表現であるIBプレーンを導入する。
第二に,2次元画像のみを用いて,この新たな3次元シーン表現の事前学習を行うためのデノイング拡散フレームワークを提案する。
論文 参考訳(メタデータ) (2024-02-05T19:00:45Z) - COLMAP-Free 3D Gaussian Splatting [88.420322646756]
本稿では,SfM前処理を使わずに新しいビュー合成を実現する手法を提案する。
入力フレームを逐次的に処理し、一度に1つの入力フレームを取ることで3Dガウスを段階的に成長させる。
提案手法は, 映像合成とカメラポーズ推定において, 大きな動き変化下での従来手法よりも大幅に改善されている。
論文 参考訳(メタデータ) (2023-12-12T18:39:52Z) - DreamSparse: Escaping from Plato's Cave with 2D Frozen Diffusion Model
Given Sparse Views [20.685453627120832]
既存の手法では、品質の高い結果を生成するのに苦労したり、オブジェクトごとの最適化が必要な場合が少なくない。
DreamSparseは、オブジェクトレベルの画像とシーンレベルの画像の両方に対して高品質なノベルビューを合成することができる。
論文 参考訳(メタデータ) (2023-06-06T05:26:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。