論文の概要: MegaSaM: Accurate, Fast, and Robust Structure and Motion from Casual Dynamic Videos
- arxiv url: http://arxiv.org/abs/2412.04463v2
- Date: Fri, 06 Dec 2024 19:15:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-10 11:30:37.988442
- Title: MegaSaM: Accurate, Fast, and Robust Structure and Motion from Casual Dynamic Videos
- Title(参考訳): MegaSaM:Casual Dynamic Videoの精度、高速、ロバストな構造と動き
- Authors: Zhengqi Li, Richard Tucker, Forrester Cole, Qianqian Wang, Linyi Jin, Vickie Ye, Angjoo Kanazawa, Aleksander Holynski, Noah Snavely,
- Abstract要約: 本研究では,ダイナミックシーンのカジュアルモノクラー映像から,カメラパラメータと奥行きマップの精度,高速,堅牢な推定を可能にするシステムを提案する。
本システムは,先行作業や同時作業と比較して,カメラポーズや深度推定において有意に精度が高く,頑健である。
- 参考スコア(独自算出の注目度): 104.1338295060383
- License:
- Abstract: We present a system that allows for accurate, fast, and robust estimation of camera parameters and depth maps from casual monocular videos of dynamic scenes. Most conventional structure from motion and monocular SLAM techniques assume input videos that feature predominantly static scenes with large amounts of parallax. Such methods tend to produce erroneous estimates in the absence of these conditions. Recent neural network-based approaches attempt to overcome these challenges; however, such methods are either computationally expensive or brittle when run on dynamic videos with uncontrolled camera motion or unknown field of view. We demonstrate the surprising effectiveness of a deep visual SLAM framework: with careful modifications to its training and inference schemes, this system can scale to real-world videos of complex dynamic scenes with unconstrained camera paths, including videos with little camera parallax. Extensive experiments on both synthetic and real videos demonstrate that our system is significantly more accurate and robust at camera pose and depth estimation when compared with prior and concurrent work, with faster or comparable running times. See interactive results on our project page: https://mega-sam.github.io/
- Abstract(参考訳): 本研究では,ダイナミックシーンのカジュアルモノクラー映像から,カメラパラメータと奥行きマップの精度,高速,堅牢な推定を可能にするシステムを提案する。
動きと単眼のSLAM技術による一般的な構造は、大量のパララックスを持つ静的シーンを主に特徴とする入力ビデオを想定している。
このような手法は、これらの条件がない場合に誤った推定を生じる傾向がある。
最近のニューラルネットワークベースのアプローチでは、これらの課題を克服しようとしているが、このような手法は、制御されていないカメラモーションや未知の視野を持つダイナミックビデオ上で実行される場合、計算的に高価か不安定である。
このシステムは、トレーニングと推論スキームを慎重に修正することで、カメラパララックスの少ないビデオを含む、制約のないカメラパスを持つ複雑なダイナミックシーンの実際のビデオにスケールすることができる。
合成ビデオと実ビデオの両方での大規模な実験により、我々のシステムはカメラのポーズや、先行作業や同時作業と比較して、より正確で堅牢で、より高速または同等な実行時間を持つことが示された。
プロジェクトページのインタラクティブな結果を参照してください。
関連論文リスト
- Cavia: Camera-controllable Multi-view Video Diffusion with View-Integrated Attention [62.2447324481159]
Caviaはカメラ制御可能なマルチビュービデオ生成のための新しいフレームワークである。
我々のフレームワークは、空間的および時間的注意モジュールを拡張し、視点と時間的一貫性を改善します。
Caviaは、ユーザーが物体の動きを取得しながら、異なるカメラの動きを特定できる最初の製品だ。
論文 参考訳(メタデータ) (2024-10-14T17:46:32Z) - Generative Camera Dolly: Extreme Monocular Dynamic Novel View Synthesis [43.02778060969546]
制御可能な単分子動的ビュー合成パイプラインを提案する。
我々のモデルは入力として深度を必要としないし、明示的に3次元シーン形状をモデル化しない。
私たちのフレームワークは、リッチな動的シーン理解、ロボット工学の知覚、バーチャルリアリティのためのインタラクティブな3Dビデオ視聴体験において、強力なアプリケーションをアンロックできる可能性があると考えています。
論文 参考訳(メタデータ) (2024-05-23T17:59:52Z) - Make-It-4D: Synthesizing a Consistent Long-Term Dynamic Scene Video from
a Single Image [59.18564636990079]
本研究では,1枚の画像のみから長期ダイナミック映像を合成する問題について検討する。
既存の方法は、一貫性のない永遠の視点を幻覚させるか、長いカメラの軌跡に苦しむかのいずれかである。
一つの画像から一貫した長期動画像を生成する新しい方法であるMake-It-4Dを提案する。
論文 参考訳(メタデータ) (2023-08-20T12:53:50Z) - Decoupling Dynamic Monocular Videos for Dynamic View Synthesis [50.93409250217699]
動的モノクロビデオからの動的ビュー合成の課題を教師なしで解決する。
具体的には、動的物体の運動を物体の動きとカメラの動きに分離し、教師なし表面の整合性およびパッチベースのマルチビュー制約によって規則化する。
論文 参考訳(メタデータ) (2023-04-04T11:25:44Z) - DynIBaR: Neural Dynamic Image-Based Rendering [79.44655794967741]
複雑な動的シーンを描写したモノクロ映像から新しいビューを合成する問題に対処する。
我々は,近傍のビューから特徴を集約することで,新しい視点を合成するボリューム画像ベースのレンダリングフレームワークを採用する。
動的シーンデータセットにおける最先端手法の大幅な改善を示す。
論文 参考訳(メタデータ) (2022-11-20T20:57:02Z) - Low Light Video Enhancement by Learning on Static Videos with
Cross-Frame Attention [10.119600046984088]
静的ビデオ上でのモデルトレーニングにより,低光度映像強調のための深層学習法を開発した。
既存の方法はフレーム単位で動作し、隣接するフレーム間の関係を利用できない。
本手法は,静的ビデオのみをトレーニングした場合に,他の最先端ビデオ強調アルゴリズムよりも優れることを示す。
論文 参考訳(メタデータ) (2022-10-09T15:49:46Z) - ParticleSfM: Exploiting Dense Point Trajectories for Localizing Moving
Cameras in the Wild [57.37891682117178]
本稿では,一対の光流からの高密度対応に基づく動画の高密度間接構造抽出手法を提案する。
不規則点軌道データを処理するために,新しいニューラルネットワークアーキテクチャを提案する。
MPIシンテルデータセットを用いた実験により,我々のシステムはより正確なカメラ軌道を生成することがわかった。
論文 参考訳(メタデータ) (2022-07-19T09:19:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。