論文の概要: RGB-Only Supervised Camera Parameter Optimization in Dynamic Scenes
- arxiv url: http://arxiv.org/abs/2509.15123v2
- Date: Fri, 19 Sep 2025 05:25:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-22 12:06:46.427949
- Title: RGB-Only Supervised Camera Parameter Optimization in Dynamic Scenes
- Title(参考訳): ダイナミックシーンにおけるRGB専用カメラパラメータ最適化
- Authors: Fang Li, Hao Zhang, Narendra Ahuja,
- Abstract要約: 本稿では,ROS-Camと呼ばれる単一のRGBビデオでのみ監視されるダイナミックシーンにおけるカメラパラメータ最適化手法を提案する。
本手法では, カメラパラメータをより効率的に正確に推定し, 単一のRGBビデオのみを監督する。
- 参考スコア(独自算出の注目度): 15.207366531969898
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Although COLMAP has long remained the predominant method for camera parameter optimization in static scenes, it is constrained by its lengthy runtime and reliance on ground truth (GT) motion masks for application to dynamic scenes. Many efforts attempted to improve it by incorporating more priors as supervision such as GT focal length, motion masks, 3D point clouds, camera poses, and metric depth, which, however, are typically unavailable in casually captured RGB videos. In this paper, we propose a novel method for more accurate and efficient camera parameter optimization in dynamic scenes solely supervised by a single RGB video, dubbed ROS-Cam. Our method consists of three key components: (1) Patch-wise Tracking Filters, to establish robust and maximally sparse hinge-like relations across the RGB video. (2) Outlier-aware Joint Optimization, for efficient camera parameter optimization by adaptive down-weighting of moving outliers, without reliance on motion priors. (3) A Two-stage Optimization Strategy, to enhance stability and optimization speed by a trade-off between the Softplus limits and convex minima in losses. We visually and numerically evaluate our camera estimates. To further validate accuracy, we feed the camera estimates into a 4D reconstruction method and assess the resulting 3D scenes, and rendered 2D RGB and depth maps. We perform experiments on 4 real-world datasets (NeRF-DS, DAVIS, iPhone, and TUM-dynamics) and 1 synthetic dataset (MPI-Sintel), demonstrating that our method estimates camera parameters more efficiently and accurately with a single RGB video as the only supervision.
- Abstract(参考訳): COLMAPは、静的シーンにおけるカメラパラメータ最適化の主要な手法であり続けているが、その実行時間と、ダイナミックシーンに適用するためのグラウンド真実(GT)モーションマスクに依存している。
GT焦点長、モーションマスク、3Dポイント雲、カメラポーズ、メートル法深度など、カジュアルにキャプチャされたRGBビデオでは利用できないような、より事前の監督を取り入れることで、多くの努力が試みられた。
本稿では,RGBビデオのみを教師するダイナミックシーンにおいて,ROS-Camと呼ばれる,より正確かつ効率的なカメラパラメータ最適化手法を提案する。
提案手法は3つのキーコンポーネントから構成される: 1) パッチワイドトラッキングフィルタによりRGBビデオ間の堅牢かつ最大限のヒンジ様関係を確立する。
2) 移動前処理に依存せず、移動前処理を適応的に下降重み付けすることで、効率的なカメラパラメータ最適化を実現する。
(3)ソフトプラス限界と凸最小値とのトレードオフによる安定性と最適化速度を向上させるための2段階最適化戦略。
カメラ推定値を視覚的,数値的に評価する。
さらに精度を高めるために,カメラ推定値を4次元再構成法に入力し,得られた3次元シーンを評価し,2次元RGBと深度マップを描画する。
実世界の4つのデータセット (NeRF-DS, DAVIS, iPhone, TUM-dynamics) と1つの合成データセット (MPI-Sintel) について実験を行った。
関連論文リスト
- UPGS: Unified Pose-aware Gaussian Splatting for Dynamic Scene Deblurring [31.35713139629235]
モノクロ映像から3Dシーンを再構成することは、カメラや物体の動きによる激しい動きのぼけによってしばしば失敗する。
学習可能なパラメータとしてカメラポーズを組み込むことにより、統一的な最適化フレームワークを導入する。
提案手法は, 従来の動的デブロアリング法に比べて, 復元品質が大きく向上し, 推定精度が向上する。
論文 参考訳(メタデータ) (2025-08-31T13:01:03Z) - Diversity-Driven View Subset Selection for Indoor Novel View Synthesis [54.468355408388675]
本稿では、包括的多様性に基づく測定と、よく設計されたユーティリティ機能を統合する新しいサブセット選択フレームワークを提案する。
私たちのフレームワークは、データの5~20%しか使用せずに、ベースライン戦略を一貫して上回ります。
論文 参考訳(メタデータ) (2024-09-11T08:36:49Z) - Self-Calibrating 4D Novel View Synthesis from Monocular Videos Using Gaussian Splatting [14.759265492381509]
本稿では,カメラパラメータの自己校正による高忠実度 4D GS シーン表現の学習手法を提案する。
3次元構造を頑健に表現する2次元点特徴の抽出を含む。
その結果,4次元新規ビュー合成における最先端手法の大幅な改善が示された。
論文 参考訳(メタデータ) (2024-06-03T06:52:35Z) - InstantSplat: Sparse-view Gaussian Splatting in Seconds [91.77050739918037]
InstantSplatは,光速でスパークビュー3Dシーンを再現する新しい手法である。
InstantSplatでは,3Dシーン表現とカメラポーズを最適化する,自己管理フレームワークを採用している。
3D-GSの従来のSfMと比較して、30倍以上の再現を達成し、視覚的品質(SSIM)を0.3755から0.7624に改善する。
論文 参考訳(メタデータ) (2024-03-29T17:29:58Z) - Robust Frame-to-Frame Camera Rotation Estimation in Crowded Scenes [8.061773364318313]
本稿では,携帯型モノクロビデオから,混み合った現実世界のシーンにおけるカメラ回転推定手法を提案する。
我々は、17の動画シーケンスに対して、高精度で厳密に検証された地上真実を持つ新しいデータセットとベンチマークを提供する。
これは、混み合ったシーンに対する強力な新しいパフォーマンスポイントであり、コンピュータビジョンにとって重要な設定である。
論文 参考訳(メタデータ) (2023-09-15T17:44:07Z) - CamP: Camera Preconditioning for Neural Radiance Fields [56.46526219931002]
NeRFは、オブジェクトと大規模シーンの高忠実度3Dシーン再構成を得るために最適化することができる。
外部および固有のカメラパラメータは通常、NeRFの前処理ステップとしてStructure-from-Motion (SfM)法を用いて推定される。
本稿では,カメラパラメータ間の相関をなくし,その効果を正規化するホワイトニング変換を代用問題として提案する。
論文 参考訳(メタデータ) (2023-08-21T17:59:54Z) - Learning to Segment Rigid Motions from Two Frames [72.14906744113125]
本研究では, 運動場から独立物体の動きを復元する幾何学的解析により, モジュラーネットワークを提案する。
2つの連続フレームを入力とし、背景のセグメンテーションマスクと複数の剛体移動オブジェクトを予測し、3次元の剛体変換によってパラメータ化する。
本手法はkittiおよびsintelにおける剛体運動セグメンテーションの最先端性能を実現する。
論文 参考訳(メタデータ) (2021-01-11T04:20:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。