論文の概要: Joint Optimization of Neural Radiance Fields and Continuous Camera Motion from a Monocular Video
- arxiv url: http://arxiv.org/abs/2504.19819v1
- Date: Mon, 28 Apr 2025 14:22:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-02 19:15:54.459121
- Title: Joint Optimization of Neural Radiance Fields and Continuous Camera Motion from a Monocular Video
- Title(参考訳): 単眼映像からのニューラルラジアンス場と連続カメラ運動の同時最適化
- Authors: Hoang Chuong Nguyen, Wei Mao, Jose M. Alvarez, Miaomiao Liu,
- Abstract要約: 本稿では,連続カメラの動きを時間依存性の角速度と速度としてモデル化することにより,先行依存性を除去する手法を提案する。
提案手法は,最先端手法と比較して,優れたカメラポーズと深度推定,および新規ビュー合成性能を実現する。
- 参考スコア(独自算出の注目度): 22.760823792026056
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Neural Radiance Fields (NeRF) has demonstrated its superior capability to represent 3D geometry but require accurately precomputed camera poses during training. To mitigate this requirement, existing methods jointly optimize camera poses and NeRF often relying on good pose initialisation or depth priors. However, these approaches struggle in challenging scenarios, such as large rotations, as they map each camera to a world coordinate system. We propose a novel method that eliminates prior dependencies by modeling continuous camera motions as time-dependent angular velocity and velocity. Relative motions between cameras are learned first via velocity integration, while camera poses can be obtained by aggregating such relative motions up to a world coordinate system defined at a single time step within the video. Specifically, accurate continuous camera movements are learned through a time-dependent NeRF, which captures local scene geometry and motion by training from neighboring frames for each time step. The learned motions enable fine-tuning the NeRF to represent the full scene geometry. Experiments on Co3D and Scannet show our approach achieves superior camera pose and depth estimation and comparable novel-view synthesis performance compared to state-of-the-art methods. Our code is available at https://github.com/HoangChuongNguyen/cope-nerf.
- Abstract(参考訳): Neural Radiance Fields (NeRF) は3次元幾何学を表現できる優れた能力を示したが、訓練中に正確に事前計算されたカメラのポーズを必要とする。
この要求を緩和するために、既存の方法はカメラのポーズを共同で最適化し、NeRFはしばしば良いポーズの初期化や深さの先行に頼っている。
しかしながら、これらのアプローチは、各カメラを世界座標系にマッピングするときに、大きな回転のような挑戦的なシナリオで苦労する。
本稿では,連続カメラの動きを時間依存性の角速度と速度としてモデル化することにより,先行依存性を除去する手法を提案する。
カメラ間の相対的な動きは、速度積分によってまず学習されるが、カメラのポーズは、ビデオ内の単一の時間ステップで定義された世界座標系にそのような相対的な動きを集約することで得られる。
具体的には、時間依存のNeRFを用いて正確な連続カメラの動きを学習し、各時間ステップごとに隣接するフレームからのトレーニングによって局所的なシーン形状と動きをキャプチャする。
学習した動きは、NeRFを微調整することで、全シーンの幾何学を表現できる。
Co3D と Scannet の実験により,我々のアプローチは,最先端の手法と比較して,優れたカメラポーズと深度推定,および新規ビュー合成性能を実現することを示した。
私たちのコードはhttps://github.com/HoangChuongNguyen/cope-nerf.comで公開されています。
関連論文リスト
- AnyCam: Learning to Recover Camera Poses and Intrinsics from Casual Videos [52.726585508669686]
我々は,動的ビデオシーケンスからカメラのポーズと内在性を直接推定する高速トランスフォーマーモデルであるAnyCamを提案する。
確立したデータセット上でAnyCamをテストし、質的にも量的にも正確なカメラポーズと本質的な機能を提供します。
カメラ情報、不確実性、深さを組み合わせることで、我々のモデルは高品質な4Dポイントクラウドを作り出すことができる。
論文 参考訳(メタデータ) (2025-03-30T02:22:11Z) - FRAME: Floor-aligned Representation for Avatar Motion from Egocentric Video [52.33896173943054]
ヘッドマウントのボディフェイスステレオカメラを備えたエゴセントリックなモーションキャプチャーは、VRやARアプリケーションには不可欠だ。
既存の方法は、合成事前学習と、現実の環境で滑らかで正確な予測を生成するのに苦労している。
本稿では、デバイスポーズとカメラフィードを組み合わせて、最先端のボディポーズ予測を行う、シンプルで効果的なアーキテクチャFRAMEを提案する。
論文 参考訳(メタデータ) (2025-03-29T14:26:06Z) - Humans as a Calibration Pattern: Dynamic 3D Scene Reconstruction from Unsynchronized and Uncalibrated Videos [12.19207713016543]
動的3次元神経場再構成に関する最近の研究は、ポーズが知られているマルチビュービデオからの入力を前提としている。
アンバロライズされたセットアップは、ダイナミックなダイナミックなビデオが人間の動きをキャプチャすることを示す。
論文 参考訳(メタデータ) (2024-12-26T07:04:20Z) - MegaSaM: Accurate, Fast, and Robust Structure and Motion from Casual Dynamic Videos [104.1338295060383]
本研究では,ダイナミックシーンのカジュアルモノクラー映像から,カメラパラメータと奥行きマップの精度,高速,堅牢な推定を可能にするシステムを提案する。
本システムは,先行作業や同時作業と比較して,カメラポーズや深度推定において有意に精度が高く,頑健である。
論文 参考訳(メタデータ) (2024-12-05T18:59:42Z) - CRiM-GS: Continuous Rigid Motion-Aware Gaussian Splatting from Motion-Blurred Images [14.738528284246545]
CRiM-GS は textbfContinuous textbfRigid textbfMotion-aware textbfGaussian textbfSplatting である。
リアルタイムレンダリング速度を維持しながら、モーションブルーの画像から正確な3Dシーンを再構築する。
論文 参考訳(メタデータ) (2024-07-04T13:37:04Z) - COLMAP-Free 3D Gaussian Splatting [88.420322646756]
本稿では,SfM前処理を使わずに新しいビュー合成を実現する手法を提案する。
入力フレームを逐次的に処理し、一度に1つの入力フレームを取ることで3Dガウスを段階的に成長させる。
提案手法は, 映像合成とカメラポーズ推定において, 大きな動き変化下での従来手法よりも大幅に改善されている。
論文 参考訳(メタデータ) (2023-12-12T18:39:52Z) - Continuous Pose for Monocular Cameras in Neural Implicit Representation [65.40527279809474]
本稿では,時間的連続的な機能として単眼カメラのポーズを最適化することの有効性を示す。
提案手法を4つの異なる実験環境において活用する。
連続運動の仮定を用いて、ポーズの変化は実際には6度以下の自由度(DOF)を持つ多様体に生きることができる。
我々はこの低DOF動作表現を固有運動と呼び、vSLAM設定でのアプローチを用い、カメラ追跡性能を高く評価した。
論文 参考訳(メタデータ) (2023-11-28T13:14:58Z) - Robust Frame-to-Frame Camera Rotation Estimation in Crowded Scenes [8.061773364318313]
本稿では,携帯型モノクロビデオから,混み合った現実世界のシーンにおけるカメラ回転推定手法を提案する。
我々は、17の動画シーケンスに対して、高精度で厳密に検証された地上真実を持つ新しいデータセットとベンチマークを提供する。
これは、混み合ったシーンに対する強力な新しいパフォーマンスポイントであり、コンピュータビジョンにとって重要な設定である。
論文 参考訳(メタデータ) (2023-09-15T17:44:07Z) - FlowCam: Training Generalizable 3D Radiance Fields without Camera Poses
via Pixel-Aligned Scene Flow [26.528667940013598]
ポーズ画像からの3次元ニューラルネットワークの再構成は、自己教師付き表現学習の有望な方法として現れている。
これらの3Dシーンの学習者が大規模ビデオデータに展開するのを防ぐ重要な課題は、構造から移動までの正確なカメラポーズに依存することである。
本稿では,オンラインと1つのフォワードパスでカメラポーズと3Dニューラルシーン表現を共同で再構築する手法を提案する。
論文 参考訳(メタデータ) (2023-05-31T20:58:46Z) - Spatiotemporal Bundle Adjustment for Dynamic 3D Human Reconstruction in
the Wild [49.672487902268706]
本稿では,カメラの時間的アライメントと3次元点三角測量を共同で推定する枠組みを提案する。
複数の無同期・無同期ビデオカメラで捉えたイベントにおいて、人間の身体の3次元運動軌跡を再構成する。
論文 参考訳(メタデータ) (2020-07-24T23:50:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。