論文の概要: GFlow: Recovering 4D World from Monocular Video
- arxiv url: http://arxiv.org/abs/2405.18426v2
- Date: Tue, 31 Dec 2024 07:05:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-03 17:39:25.323364
- Title: GFlow: Recovering 4D World from Monocular Video
- Title(参考訳): GFlow:モノクロ映像から4Dワールドを再現
- Authors: Shizun Wang, Xingyi Yang, Qiuhong Shen, Zhenxiang Jiang, Xinchao Wang,
- Abstract要約: GFlowは、空間と時間の3Dガウスのフローとして、4Dシーンにビデオを持ち上げるフレームワークである。
GFlowはビデオを静止部分と可動部分に分割し、最適化されたカメラポーズと3Dガウス点のダイナミックスを交互に切り替える。
GFlowは、フレームごとにカメラのポーズを推定し、カメラのポーズを変更することによって、新しいビューの合成を可能にする。
- 参考スコア(独自算出の注目度): 58.63051670458107
- License:
- Abstract: Recovering 4D world from monocular video is a crucial yet challenging task. Conventional methods usually rely on the assumptions of multi-view videos, known camera parameters, or static scenes. In this paper, we relax all these constraints and tackle a highly ambitious but practical task: With only one monocular video without camera parameters, we aim to recover the dynamic 3D world alongside the camera poses. To solve this, we introduce GFlow, a new framework that utilizes only 2D priors (depth and optical flow) to lift a video to a 4D scene, as a flow of 3D Gaussians through space and time. GFlow starts by segmenting the video into still and moving parts, then alternates between optimizing camera poses and the dynamics of the 3D Gaussian points. This method ensures consistency among adjacent points and smooth transitions between frames. Since dynamic scenes always continually introduce new visual content, we present prior-driven initialization and pixel-wise densification strategy for Gaussian points to integrate new content. By combining all those techniques, GFlow transcends the boundaries of 4D recovery from causal videos; it naturally enables tracking of points and segmentation of moving objects across frames. Additionally, GFlow estimates the camera poses for each frame, enabling novel view synthesis by changing camera pose. This capability facilitates extensive scene-level or object-level editing, highlighting GFlow's versatility and effectiveness. Visit our project page at: https://littlepure2333.github.io/GFlow
- Abstract(参考訳): モノクロビデオから4D世界を取り戻すことは、非常に難しい課題だ。
従来の手法は通常、マルチビュービデオ、既知のカメラパラメータ、静的シーンの仮定に依存する。
本稿では、これらの制約をすべて緩和し、非常に野心的で実用的な課題に取り組む。カメラパラメータのないモノクロビデオは1つだけで、カメラのポーズとともにダイナミックな3D世界を回復することを目指している。
この問題を解決するために、GFlowは、空間と時間を通して3Dガウスのフローとして、4Dシーンにビデオを持ち上げるために、2D先行(深度と光の流れ)のみを利用する新しいフレームワークである。
GFlowはまず、ビデオを静止部分と可動部分に分割し、最適化されたカメラポーズと3Dガウス点のダイナミクスを交互に行う。
この方法は、隣接する点間の整合性とフレーム間の滑らかな遷移を保証する。
動的シーンは、常に新しい視覚的コンテンツを常に導入するため、ガウス点に対する事前駆動初期化と画素ワイド・デンシフィケーション戦略を提案し、新しいコンテンツを統合する。
これらのテクニックを組み合わせることで、GFlowは因果ビデオから4Dリカバリの境界を超越する。
さらに、GFlowはフレーム毎にカメラのポーズを推定し、カメラのポーズを変更することで新しいビューの合成を可能にする。
この機能はシーンレベルの編集やオブジェクトレベルの編集を容易にし、GFlowの汎用性と有効性を強調している。
https://littlepure2333.github.io/GFlow
関連論文リスト
- 4K4DGen: Panoramic 4D Generation at 4K Resolution [67.98105958108503]
一つのパノラマを没入的な4D体験に高めるという課題に取り組む。
初めて、4K解像度で360$circ$のビューで全方位動的シーンを生成する能力を実証した。
高品質なパノラマ・ト・4Dを4Kの解像度で初めて実現した。
論文 参考訳(メタデータ) (2024-06-19T13:11:02Z) - DreamScene4D: Dynamic Multi-Object Scene Generation from Monocular Videos [21.93514516437402]
本稿では,新しいビュー合成によるモノクロ映像から複数の物体の3次元動的シーンを生成するための最初のアプローチであるDreamScene4Dを紹介する。
私たちの重要な洞察は、ビデオシーンを背景とオブジェクトトラックに分解する"分解分解"アプローチです。
DAVIS, Kubric, 自撮りビデオについて, 定量的比較とユーザ嗜好調査を行った。
論文 参考訳(メタデータ) (2024-05-03T17:55:34Z) - COLMAP-Free 3D Gaussian Splatting [88.420322646756]
本稿では,SfM前処理を使わずに新しいビュー合成を実現する手法を提案する。
入力フレームを逐次的に処理し、一度に1つの入力フレームを取ることで3Dガウスを段階的に成長させる。
提案手法は, 映像合成とカメラポーズ推定において, 大きな動き変化下での従来手法よりも大幅に改善されている。
論文 参考訳(メタデータ) (2023-12-12T18:39:52Z) - Holoported Characters: Real-time Free-viewpoint Rendering of Humans from Sparse RGB Cameras [65.54875149514274]
一般のアパレルにおいて,人間俳優の高度にリアルなフリー視点映像をレンダリングするための最初のアプローチを提案する。
提案手法は,動作中のアクターの4つのカメラビューと,各3次元骨格ポーズのみを必要とする。
広い服装の俳優を扱い、さらに細かなダイナミックディテールを再現する。
論文 参考訳(メタデータ) (2023-12-12T16:45:52Z) - Make-It-4D: Synthesizing a Consistent Long-Term Dynamic Scene Video from
a Single Image [59.18564636990079]
本研究では,1枚の画像のみから長期ダイナミック映像を合成する問題について検討する。
既存の方法は、一貫性のない永遠の視点を幻覚させるか、長いカメラの軌跡に苦しむかのいずれかである。
一つの画像から一貫した長期動画像を生成する新しい方法であるMake-It-4Dを提案する。
論文 参考訳(メタデータ) (2023-08-20T12:53:50Z) - FlowCam: Training Generalizable 3D Radiance Fields without Camera Poses
via Pixel-Aligned Scene Flow [26.528667940013598]
ポーズ画像からの3次元ニューラルネットワークの再構成は、自己教師付き表現学習の有望な方法として現れている。
これらの3Dシーンの学習者が大規模ビデオデータに展開するのを防ぐ重要な課題は、構造から移動までの正確なカメラポーズに依存することである。
本稿では,オンラインと1つのフォワードパスでカメラポーズと3Dニューラルシーン表現を共同で再構築する手法を提案する。
論文 参考訳(メタデータ) (2023-05-31T20:58:46Z) - Consistent Depth of Moving Objects in Video [52.72092264848864]
移動カメラで撮影した通常の映像から任意の移動物体を含む動的シーンの深さを推定する手法を提案する。
我々は、この目的を、深度予測CNNを入力ビデオ全体にわたって補助的なシーンフロー予測でタンデムで訓練する新しいテストタイムトレーニングフレームワークで定式化する。
我々は、さまざまな移動物体(ペット、人、車)とカメラの動きを含む様々な挑戦的なビデオに対して、正確かつ時間的に一貫性のある結果を示す。
論文 参考訳(メタデータ) (2021-08-02T20:53:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。