論文の概要: AnyCam: Learning to Recover Camera Poses and Intrinsics from Casual Videos
- arxiv url: http://arxiv.org/abs/2503.23282v1
- Date: Sun, 30 Mar 2025 02:22:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-01 19:35:57.033734
- Title: AnyCam: Learning to Recover Camera Poses and Intrinsics from Casual Videos
- Title(参考訳): AnyCam:カジュアルビデオからカメラの可能性を再現する学習
- Authors: Felix Wimbauer, Weirong Chen, Dominik Muhle, Christian Rupprecht, Daniel Cremers,
- Abstract要約: 我々は,動的ビデオシーケンスからカメラのポーズと内在性を直接推定する高速トランスフォーマーモデルであるAnyCamを提案する。
確立したデータセット上でAnyCamをテストし、質的にも量的にも正確なカメラポーズと本質的な機能を提供します。
カメラ情報、不確実性、深さを組み合わせることで、我々のモデルは高品質な4Dポイントクラウドを作り出すことができる。
- 参考スコア(独自算出の注目度): 52.726585508669686
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Estimating camera motion and intrinsics from casual videos is a core challenge in computer vision. Traditional bundle-adjustment based methods, such as SfM and SLAM, struggle to perform reliably on arbitrary data. Although specialized SfM approaches have been developed for handling dynamic scenes, they either require intrinsics or computationally expensive test-time optimization and often fall short in performance. Recently, methods like Dust3r have reformulated the SfM problem in a more data-driven way. While such techniques show promising results, they are still 1) not robust towards dynamic objects and 2) require labeled data for supervised training. As an alternative, we propose AnyCam, a fast transformer model that directly estimates camera poses and intrinsics from a dynamic video sequence in feed-forward fashion. Our intuition is that such a network can learn strong priors over realistic camera poses. To scale up our training, we rely on an uncertainty-based loss formulation and pre-trained depth and flow networks instead of motion or trajectory supervision. This allows us to use diverse, unlabelled video datasets obtained mostly from YouTube. Additionally, we ensure that the predicted trajectory does not accumulate drift over time through a lightweight trajectory refinement step. We test AnyCam on established datasets, where it delivers accurate camera poses and intrinsics both qualitatively and quantitatively. Furthermore, even with trajectory refinement, AnyCam is significantly faster than existing works for SfM in dynamic settings. Finally, by combining camera information, uncertainty, and depth, our model can produce high-quality 4D pointclouds.
- Abstract(参考訳): カジュアルビデオからカメラの動きと内在を推定することは、コンピュータビジョンにおける中核的な課題である。
SfMやSLAMのような従来のバンドル調整ベースの手法は、任意のデータに対して確実に実行するのに苦労する。
動的シーンを扱うための特殊なSfMアプローチが開発されているが、本質的あるいは計算的に高価なテスト時間最適化が必要であり、しばしば性能が低下する。
最近、Dust3rのような手法は、よりデータ駆動的な方法でSfM問題を再構築した。
このような技術は有望な成果を示すが、それらはまだ残っている。
1)動的対象に対して堅牢でないこと
2) 指導訓練にはラベル付きデータが必要である。
代替として、フィードフォワード方式で動的ビデオシーケンスからカメラのポーズと内在性を直接推定する高速トランスフォーマーモデルであるAnyCamを提案する。
我々の直感では、そのようなネットワークはリアルなカメラのポーズよりも、強い先行性を学ぶことができる。
トレーニングのスケールアップには,運動や軌道監視ではなく,不確実性に基づく損失の定式化と,事前訓練された深度と流れのネットワークに頼る。
これにより、主にYouTubeから取得した、多様な、遅延のないビデオデータセットを使用することができます。
さらに、予測された軌道が、軽量な軌道改善ステップを通じて、時間とともにドリフトを蓄積しないことを保証します。
確立したデータセット上でAnyCamをテストし、質的にも量的にも正確なカメラポーズと本質的な機能を提供します。
さらに、軌道修正でさえ、AnyCamは動的設定におけるSfMの既存の作業よりも大幅に高速である。
最後に、カメラ情報、不確実性、深さを組み合わせることで、我々のモデルは高品質な4Dポイントクラウドを生成することができる。
関連論文リスト
- Joint Optimization of Neural Radiance Fields and Continuous Camera Motion from a Monocular Video [22.760823792026056]
本稿では,連続カメラの動きを時間依存性の角速度と速度としてモデル化することにより,先行依存性を除去する手法を提案する。
提案手法は,最先端手法と比較して,優れたカメラポーズと深度推定,および新規ビュー合成性能を実現する。
論文 参考訳(メタデータ) (2025-04-28T14:22:04Z) - Towards Understanding Camera Motions in Any Video [80.223048294482]
我々は、カメラモーション理解の評価と改善を目的とした大規模なデータセットとベンチマークであるCameraBenchを紹介する。
CameraBenchは、厳格な品質管理プロセスを通じて専門家によって注釈付けされた3,000の多様なインターネットビデオで構成されている。
私たちの貢献の1つは、撮影者との共同で設計されたカメラモーションプリミティブの分類である。
論文 参考訳(メタデータ) (2025-04-21T18:34:57Z) - ReCamMaster: Camera-Controlled Generative Rendering from A Single Video [72.42376733537925]
ReCamMasterは、カメラ制御された生成ビデオの再レンダリングフレームワークである。
これは、新しいカメラ軌道における入力ビデオのダイナミックなシーンを再現する。
また,ビデオの安定化,超高解像度化,画質向上に有望な応用を見出した。
論文 参考訳(メタデータ) (2025-03-14T17:59:31Z) - Learning Camera Movement Control from Real-World Drone Videos [25.10006841389459]
既存のAIビデオ撮影手法は、シミュレーショントレーニングにおいて、外観の多様性が限られている。
実世界のトレーニングデータを収集するスケーラブルな手法を提案する。
本システムでは,カメラの動きを効果的に学習できることが示される。
論文 参考訳(メタデータ) (2024-12-12T18:59:54Z) - MegaSaM: Accurate, Fast, and Robust Structure and Motion from Casual Dynamic Videos [104.1338295060383]
本研究では,ダイナミックシーンのカジュアルモノクラー映像から,カメラパラメータと奥行きマップの精度,高速,堅牢な推定を可能にするシステムを提案する。
本システムは,先行作業や同時作業と比較して,カメラポーズや深度推定において有意に精度が高く,頑健である。
論文 参考訳(メタデータ) (2024-12-05T18:59:42Z) - AC3D: Analyzing and Improving 3D Camera Control in Video Diffusion Transformers [66.29824750770389]
カメラの動きを第一原理の観点から分析し、正確な3Dカメラ操作を可能にする洞察を明らかにする。
これらの知見を合成して、高度な3Dカメラ制御(AC3D)アーキテクチャを設計する。
論文 参考訳(メタデータ) (2024-11-27T18:49:13Z) - RoMo: Robust Motion Segmentation Improves Structure from Motion [46.77236343300953]
本稿では,固定世界フレームを移動中のシーンの構成要素を特定するために,映像に基づくモーションセグメンテーションの新たなアプローチを提案する。
我々の単純かつ効果的な反復法であるRoMoは、光フローとエピポーラキューと事前訓練されたビデオセグメンテーションモデルを組み合わせたものである。
さらに重要なのは、市販のSfMパイプラインとセグメンテーションマスクを組み合わせることで、ダイナミックなコンテンツを持つシーンに対する最先端のカメラキャリブレーションを新たに確立し、既存の手法を実質的なマージンで上回ることだ。
論文 参考訳(メタデータ) (2024-11-27T01:09:56Z) - FlowCam: Training Generalizable 3D Radiance Fields without Camera Poses
via Pixel-Aligned Scene Flow [26.528667940013598]
ポーズ画像からの3次元ニューラルネットワークの再構成は、自己教師付き表現学習の有望な方法として現れている。
これらの3Dシーンの学習者が大規模ビデオデータに展開するのを防ぐ重要な課題は、構造から移動までの正確なカメラポーズに依存することである。
本稿では,オンラインと1つのフォワードパスでカメラポーズと3Dニューラルシーン表現を共同で再構築する手法を提案する。
論文 参考訳(メタデータ) (2023-05-31T20:58:46Z) - RM-Depth: Unsupervised Learning of Recurrent Monocular Depth in Dynamic
Scenes [7.81768535871051]
単分子深度と完全な3次元運動を共同で予測するための教師なし学習フレームワークが提案されている。
リカレント変調ユニットは、適応的かつ反復的にエンコーダとデコーダの特徴を融合するために使用される。
ワーピングに基づくネットワークは、セマンティック・プレファレンスを使わずに移動物体の運動場を推定するために用いられる。
論文 参考訳(メタデータ) (2023-03-08T09:11:50Z) - ParticleSfM: Exploiting Dense Point Trajectories for Localizing Moving
Cameras in the Wild [57.37891682117178]
本稿では,一対の光流からの高密度対応に基づく動画の高密度間接構造抽出手法を提案する。
不規則点軌道データを処理するために,新しいニューラルネットワークアーキテクチャを提案する。
MPIシンテルデータセットを用いた実験により,我々のシステムはより正確なカメラ軌道を生成することがわかった。
論文 参考訳(メタデータ) (2022-07-19T09:19:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。