論文の概要: GFlow: Recovering 4D World from Monocular Video
- arxiv url: http://arxiv.org/abs/2405.18426v1
- Date: Tue, 28 May 2024 17:59:22 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-29 17:11:13.220653
- Title: GFlow: Recovering 4D World from Monocular Video
- Title(参考訳): GFlow:モノクロ映像から4Dワールドを再現
- Authors: Shizun Wang, Xingyi Yang, Qiuhong Shen, Zhenxiang Jiang, Xinchao Wang,
- Abstract要約: GFlowは、ビデオ(3D)を4次元の明示的な表現に持ち上げるフレームワークで、空間と時間を通してガウスのスプラッティングの流れを包含する。
GFlowはまずシーンを静止部分と移動部分にクラスタリングし、逐次最適化プロセスを適用する。
GFlowは、単なる4D再構築の境界を超越する。
- 参考スコア(独自算出の注目度): 58.63051670458107
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Reconstructing 4D scenes from video inputs is a crucial yet challenging task. Conventional methods usually rely on the assumptions of multi-view video inputs, known camera parameters, or static scenes, all of which are typically absent under in-the-wild scenarios. In this paper, we relax all these constraints and tackle a highly ambitious but practical task, which we termed as AnyV4D: we assume only one monocular video is available without any camera parameters as input, and we aim to recover the dynamic 4D world alongside the camera poses. To this end, we introduce GFlow, a new framework that utilizes only 2D priors (depth and optical flow) to lift a video (3D) to a 4D explicit representation, entailing a flow of Gaussian splatting through space and time. GFlow first clusters the scene into still and moving parts, then applies a sequential optimization process that optimizes camera poses and the dynamics of 3D Gaussian points based on 2D priors and scene clustering, ensuring fidelity among neighboring points and smooth movement across frames. Since dynamic scenes always introduce new content, we also propose a new pixel-wise densification strategy for Gaussian points to integrate new visual content. Moreover, GFlow transcends the boundaries of mere 4D reconstruction; it also enables tracking of any points across frames without the need for prior training and segments moving objects from the scene in an unsupervised way. Additionally, the camera poses of each frame can be derived from GFlow, allowing for rendering novel views of a video scene through changing camera pose. By employing the explicit representation, we may readily conduct scene-level or object-level editing as desired, underscoring its versatility and power. Visit our project website at: https://littlepure2333.github.io/GFlow
- Abstract(参考訳): ビデオ入力から4Dシーンを再構築することは、非常に難しい課題だ。
従来の手法は通常、マルチビュービデオ入力、既知のカメラパラメータ、あるいは静的シーンの仮定に頼っている。
本稿では、これらの制約をすべて緩和し、AnyV4Dと呼ばれる非常に野心的で実用的な課題に取り組み、カメラパラメータを入力として1つのモノクロビデオしか利用できないと仮定し、カメラのポーズとともにダイナミックな4D世界を取り戻すことを目的としている。
この目的のために、GFlowは2次元の先行(深度と光学フロー)しか利用していない新しいフレームワークを導入し、4次元の明示的な表現にビデオ(3D)を持ち上げる。
GFlowはまずシーンを静止部分と移動部分にクラスタリングし、次に、カメラのポーズとシーンクラスタリングに基づく3Dガウス点のダイナミクスを最適化し、隣接するポイント間の忠実さとフレーム間の滑らかな移動を保証するシーケンシャルな最適化プロセスを適用する。
動的シーンには常に新しいコンテンツが導入されるため、ガウス点に対する新しいピクセルワイド・デンシフィケーション戦略を提案し、新しいビジュアルコンテンツを統合する。
さらに、GFlowは、単なる4D再構成の境界を超越し、事前のトレーニングや、教師なしの方法でオブジェクトをシーンから移動させるセグメントを必要とせずに、フレーム間の任意のポイントを追跡することができる。
さらに、各フレームのカメラポーズは、GFlowから導出することができ、カメラポーズを変更することで、ビデオシーンの新たなビューをレンダリングすることができる。
明示的な表現を用いることで、シーンレベルの編集やオブジェクトレベルの編集を必要に応じて容易に行うことができ、その汎用性とパワーを強調できる。
https://littlepure2333.github.io/GFlow
関連論文リスト
- 4K4DGen: Panoramic 4D Generation at 4K Resolution [67.98105958108503]
一つのパノラマを没入的な4D体験に高めるという課題に取り組む。
初めて、4K解像度で360$circ$のビューで全方位動的シーンを生成する能力を実証した。
高品質なパノラマ・ト・4Dを4Kの解像度で初めて実現した。
論文 参考訳(メタデータ) (2024-06-19T13:11:02Z) - DreamScene4D: Dynamic Multi-Object Scene Generation from Monocular Videos [21.93514516437402]
本稿では,新しいビュー合成によるモノクロ映像から複数の物体の3次元動的シーンを生成するための最初のアプローチであるDreamScene4Dを紹介する。
私たちの重要な洞察は、ビデオシーンを背景とオブジェクトトラックに分解する"分解分解"アプローチです。
DAVIS, Kubric, 自撮りビデオについて, 定量的比較とユーザ嗜好調査を行った。
論文 参考訳(メタデータ) (2024-05-03T17:55:34Z) - COLMAP-Free 3D Gaussian Splatting [88.420322646756]
本稿では,SfM前処理を使わずに新しいビュー合成を実現する手法を提案する。
入力フレームを逐次的に処理し、一度に1つの入力フレームを取ることで3Dガウスを段階的に成長させる。
提案手法は, 映像合成とカメラポーズ推定において, 大きな動き変化下での従来手法よりも大幅に改善されている。
論文 参考訳(メタデータ) (2023-12-12T18:39:52Z) - Holoported Characters: Real-time Free-viewpoint Rendering of Humans from Sparse RGB Cameras [65.54875149514274]
一般のアパレルにおいて,人間俳優の高度にリアルなフリー視点映像をレンダリングするための最初のアプローチを提案する。
提案手法は,動作中のアクターの4つのカメラビューと,各3次元骨格ポーズのみを必要とする。
広い服装の俳優を扱い、さらに細かなダイナミックディテールを再現する。
論文 参考訳(メタデータ) (2023-12-12T16:45:52Z) - Make-It-4D: Synthesizing a Consistent Long-Term Dynamic Scene Video from
a Single Image [59.18564636990079]
本研究では,1枚の画像のみから長期ダイナミック映像を合成する問題について検討する。
既存の方法は、一貫性のない永遠の視点を幻覚させるか、長いカメラの軌跡に苦しむかのいずれかである。
一つの画像から一貫した長期動画像を生成する新しい方法であるMake-It-4Dを提案する。
論文 参考訳(メタデータ) (2023-08-20T12:53:50Z) - FlowCam: Training Generalizable 3D Radiance Fields without Camera Poses
via Pixel-Aligned Scene Flow [26.528667940013598]
ポーズ画像からの3次元ニューラルネットワークの再構成は、自己教師付き表現学習の有望な方法として現れている。
これらの3Dシーンの学習者が大規模ビデオデータに展開するのを防ぐ重要な課題は、構造から移動までの正確なカメラポーズに依存することである。
本稿では,オンラインと1つのフォワードパスでカメラポーズと3Dニューラルシーン表現を共同で再構築する手法を提案する。
論文 参考訳(メタデータ) (2023-05-31T20:58:46Z) - Consistent Depth of Moving Objects in Video [52.72092264848864]
移動カメラで撮影した通常の映像から任意の移動物体を含む動的シーンの深さを推定する手法を提案する。
我々は、この目的を、深度予測CNNを入力ビデオ全体にわたって補助的なシーンフロー予測でタンデムで訓練する新しいテストタイムトレーニングフレームワークで定式化する。
我々は、さまざまな移動物体(ペット、人、車)とカメラの動きを含む様々な挑戦的なビデオに対して、正確かつ時間的に一貫性のある結果を示す。
論文 参考訳(メタデータ) (2021-08-02T20:53:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。