論文の概要: Self-Calibrating 4D Novel View Synthesis from Monocular Videos Using Gaussian Splatting
- arxiv url: http://arxiv.org/abs/2406.01042v2
- Date: Thu, 11 Jul 2024 15:02:38 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-12 22:28:14.763995
- Title: Self-Calibrating 4D Novel View Synthesis from Monocular Videos Using Gaussian Splatting
- Title(参考訳): ガウススプラッティングを用いた単眼ビデオからの自己校正4次元新しいビュー合成
- Authors: Fang Li, Hao Zhang, Narendra Ahuja,
- Abstract要約: 本稿では,カメラパラメータの自己校正による高忠実度 4D GS シーン表現の学習手法を提案する。
3次元構造を頑健に表現する2次元点特徴の抽出を含む。
その結果,4次元新規ビュー合成における最先端手法の大幅な改善が示された。
- 参考スコア(独自算出の注目度): 14.759265492381509
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Gaussian Splatting (GS) has significantly elevated scene reconstruction efficiency and novel view synthesis (NVS) accuracy compared to Neural Radiance Fields (NeRF), particularly for dynamic scenes. However, current 4D NVS methods, whether based on GS or NeRF, primarily rely on camera parameters provided by COLMAP and even utilize sparse point clouds generated by COLMAP for initialization, which lack accuracy as well are time-consuming. This sometimes results in poor dynamic scene representation, especially in scenes with large object movements, or extreme camera conditions e.g. small translations combined with large rotations. Some studies simultaneously optimize the estimation of camera parameters and scenes, supervised by additional information like depth, optical flow, etc. obtained from off-the-shelf models. Using this unverified information as ground truth can reduce robustness and accuracy, which does frequently occur for long monocular videos (with e.g. > hundreds of frames). We propose a novel approach that learns a high-fidelity 4D GS scene representation with self-calibration of camera parameters. It includes the extraction of 2D point features that robustly represent 3D structure, and their use for subsequent joint optimization of camera parameters and 3D structure towards overall 4D scene optimization. We demonstrate the accuracy and time efficiency of our method through extensive quantitative and qualitative experimental results on several standard benchmarks. The results show significant improvements over state-of-the-art methods for 4D novel view synthesis. The source code will be released soon at https://github.com/fangli333/SC-4DGS.
- Abstract(参考訳): ガウス散乱(GS)は、特にダイナミックシーンにおいて、ニューラルレイディアンス場(NeRF)と比較して、シーン再構成効率と新規ビュー合成(NVS)の精度を著しく向上させた。
しかし、GS や NeRF をベースとした現在の 4D NVS の手法は、主に COLMAP が提供するカメラパラメータに依存しており、COLMAP が生成したスパース点雲を初期化に利用している。
これは、特に大きな物体の動きのあるシーンや、大きな回転と組み合わされた小さな翻訳のような極端なカメラ条件において、動的シーンの表現が貧弱になることがある。
いくつかの研究は、市販のモデルから得られた深度、光学的流れなどの追加情報によって、カメラパラメータとシーンの推定を同時に最適化する。
この証明されていない情報を真実として使うと、堅牢性と精度が低下し、長いモノクロビデオ(例えば数百フレーム)で頻繁に発生する。
本稿では,カメラパラメータの自己校正による高忠実度 4D GS シーン表現の学習手法を提案する。
これには、3D構造を頑健に表現する2D点の特徴の抽出や、カメラパラメータと3D構造を連続的に4Dシーンの最適化に利用することが含まれる。
提案手法の精度と時間効率を,いくつかの標準ベンチマークにおける定量的,定性的な実験結果を通じて実証する。
その結果,4次元の新規なビュー合成のための最先端手法よりも顕著な改善が見られた。
ソースコードは近々https://github.com/fangli333/SC-4DGSで公開される。
関連論文リスト
- GPS-Gaussian+: Generalizable Pixel-wise 3D Gaussian Splatting for Real-Time Human-Scene Rendering from Sparse Views [67.34073368933814]
スパースビューカメラ設定下での高解像度画像レンダリングのための一般化可能なガウススプラッティング手法を提案する。
我々は,人間のみのデータや人景データに基づいてガウスパラメータ回帰モジュールをトレーニングし,深度推定モジュールと共同で2次元パラメータマップを3次元空間に引き上げる。
いくつかのデータセットに対する実験により、我々の手法はレンダリング速度を超越しながら最先端の手法より優れていることが示された。
論文 参考訳(メタデータ) (2024-11-18T08:18:44Z) - PF3plat: Pose-Free Feed-Forward 3D Gaussian Splatting [54.7468067660037]
PF3platは、設計選択を検証した包括的なアブレーション研究によってサポートされた、すべてのベンチマークに新しい最先端を設定します。
本フレームワークは,3DGSの高速,スケーラビリティ,高品質な3D再構成とビュー合成機能を活用している。
論文 参考訳(メタデータ) (2024-10-29T15:28:15Z) - Look Gauss, No Pose: Novel View Synthesis using Gaussian Splatting without Accurate Pose Initialization [11.418632671254564]
3D Gaussian Splattingは、一連の入力画像から高速で正確なノベルビュー合成のための強力なツールとして登場した。
本稿では, 外部カメラパラメータを測光残差に対して最適化することにより, 3次元ガウス散乱フレームワークの拡張を提案する。
シミュレーション環境を通して実世界のシーンと複雑な軌道について結果を示す。
論文 参考訳(メタデータ) (2024-10-11T12:01:15Z) - A Construct-Optimize Approach to Sparse View Synthesis without Camera Pose [44.13819148680788]
カメラポーズを伴わないスパースビュー合成のための新しい構成と最適化手法を開発した。
具体的には、単分子深度と画素を3次元の世界に投影することで、解を構築する。
タンク・アンド・テンプル・アンド・スタティック・ハイクスのデータセットに3つの広い範囲のビューで結果を示す。
論文 参考訳(メタデータ) (2024-05-06T17:36:44Z) - SAGS: Structure-Aware 3D Gaussian Splatting [53.6730827668389]
本研究では,シーンの形状を暗黙的に符号化する構造認識型ガウス散乱法(SAGS)を提案する。
SAGSは、最先端のレンダリング性能と、ベンチマークノベルビュー合成データセットのストレージ要件の削減を反映している。
論文 参考訳(メタデータ) (2024-04-29T23:26:30Z) - MM3DGS SLAM: Multi-modal 3D Gaussian Splatting for SLAM Using Vision, Depth, and Inertial Measurements [59.70107451308687]
カメラ画像と慣性測定による地図表現に3Dガウスアンを用いることで、精度の高いSLAMが実現できることを示す。
我々の手法であるMM3DGSは、より高速なスケール認識と軌道追跡の改善により、事前レンダリングの限界に対処する。
また,カメラと慣性測定ユニットを備えた移動ロボットから収集したマルチモーダルデータセットUT-MMもリリースした。
論文 参考訳(メタデータ) (2024-04-01T04:57:41Z) - 4D-Rotor Gaussian Splatting: Towards Efficient Novel View Synthesis for Dynamic Scenes [33.14021987166436]
異方性 4D XYZT Gaussian を用いた動的シーンの表現法である 4DRotorGS を紹介する。
4DRotorGSは空間的時間的表現として、複雑な力学と細部をモデル化する強力な能力を示している。
さらに、3090 GPUで最大277FPS、4090 GPUで最大583FPSのリアルタイムレンダリング速度を達成するために、時間スライシングとアクセラレーションのフレームワークを実装しています。
論文 参考訳(メタデータ) (2024-02-05T18:59:04Z) - Align Your Gaussians: Text-to-4D with Dynamic 3D Gaussians and Composed
Diffusion Models [94.07744207257653]
我々は、探索されていないテキストから4D設定に焦点をあて、動的にアニメーションされた3Dオブジェクトを合成する。
4次元オブジェクト最適化において,テキスト・ツー・イメージ,テキスト・ツー・ビデオ,および3次元認識型多視点拡散モデルを組み合わせてフィードバックを提供する。
論文 参考訳(メタデータ) (2023-12-21T11:41:02Z) - 4D Gaussian Splatting for Real-Time Dynamic Scene Rendering [103.32717396287751]
本研究では,動的シーンの全体像として4D-GS(Gaussian Splatting)を提案する。
HexPlaneにインスパイアされたニューラルボクセル符号化アルゴリズムは、4Dニューラルボクセルの機能を効率的に構築するために提案されている。
我々の4D-GS法は、高解像度の82 FPSで、3090 GPUで800$times$800の解像度でリアルタイムレンダリングを実現する。
論文 参考訳(メタデータ) (2023-10-12T17:21:41Z) - Robust Frame-to-Frame Camera Rotation Estimation in Crowded Scenes [8.061773364318313]
本稿では,携帯型モノクロビデオから,混み合った現実世界のシーンにおけるカメラ回転推定手法を提案する。
我々は、17の動画シーケンスに対して、高精度で厳密に検証された地上真実を持つ新しいデータセットとベンチマークを提供する。
これは、混み合ったシーンに対する強力な新しいパフォーマンスポイントであり、コンピュータビジョンにとって重要な設定である。
論文 参考訳(メタデータ) (2023-09-15T17:44:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。