論文の概要: BulletTime: Decoupled Control of Time and Camera Pose for Video Generation
- arxiv url: http://arxiv.org/abs/2512.05076v1
- Date: Thu, 04 Dec 2025 18:40:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-05 21:11:46.320467
- Title: BulletTime: Decoupled Control of Time and Camera Pose for Video Generation
- Title(参考訳): BulletTime:ビデオ生成のための時間とカメラ空間の分離制御
- Authors: Yiming Wang, Qihang Zhang, Shengqu Cai, Tong Wu, Jan Ackermann, Zhengfei Kuang, Yang Zheng, Frano Rajič, Siyu Tang, Gordon Wetzstein,
- Abstract要約: カメラポーズからシーンダイナミクスを明示的に分離する4D制御可能な映像拡散フレームワークを提案する。
本モデルは,多様なタイミングパターンとカメラ軌道をまたいだ実世界の4D制御を実現する。
- 参考スコア(独自算出の注目度): 48.835425748367875
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Emerging video diffusion models achieve high visual fidelity but fundamentally couple scene dynamics with camera motion, limiting their ability to provide precise spatial and temporal control. We introduce a 4D-controllable video diffusion framework that explicitly decouples scene dynamics from camera pose, enabling fine-grained manipulation of both scene dynamics and camera viewpoint. Our framework takes continuous world-time sequences and camera trajectories as conditioning inputs, injecting them into the video diffusion model through a 4D positional encoding in the attention layer and adaptive normalizations for feature modulation. To train this model, we curate a unique dataset in which temporal and camera variations are independently parameterized; this dataset will be made public. Experiments show that our model achieves robust real-world 4D control across diverse timing patterns and camera trajectories, while preserving high generation quality and outperforming prior work in controllability. See our website for video results: https://19reborn.github.io/Bullet4D/
- Abstract(参考訳): 新興ビデオ拡散モデルは、高い視覚的忠実度を達成するが、基本的には、カメラモーションと2つのシーンダイナミクスを組み合わせ、正確な空間的および時間的制御を提供する能力を制限する。
カメラポーズからシーンダイナミックスを明確に分離し,シーンダイナミックスとカメラ視点の両方をきめ細やかな操作を可能にする,4D制御可能な映像拡散フレームワークを提案する。
本フレームワークでは,アテンション層における4次元位置エンコーディングと,特徴変調のための適応正規化により,映像拡散モデルに連続的ワールドタイムシーケンスとカメラトラジェクトリを注入する。
このモデルをトレーニングするために、時間とカメラのバリエーションが独立してパラメータ化されるユニークなデータセットをキュレートする。
実験により,本モデルでは,様々なタイミングパターンやカメラトラジェクトリにまたがる堅牢な実世界の4D制御を実現するとともに,高画質の保存と制御性の向上を実現していることがわかった。
ビデオ結果のWebサイトをご覧ください。
関連論文リスト
- AC3D: Analyzing and Improving 3D Camera Control in Video Diffusion Transformers [66.29824750770389]
カメラの動きを第一原理の観点から分析し、正確な3Dカメラ操作を可能にする洞察を明らかにする。
これらの知見を合成して、高度な3Dカメラ制御(AC3D)アーキテクチャを設計する。
論文 参考訳(メタデータ) (2024-11-27T18:49:13Z) - VD3D: Taming Large Video Diffusion Transformers for 3D Camera Control [74.5434726968562]
制御ネットライクなコンディショニング機構を用いて3次元カメラ制御のためのトランスフォーマー映像の改ざん方法を示す。
我々の研究は、トランスフォーマーに基づくビデオ拡散モデルのカメラ制御を可能にする最初のものである。
論文 参考訳(メタデータ) (2024-07-17T17:59:05Z) - Controlling Space and Time with Diffusion Models [34.7002868116714]
4次元新規ビュー合成(NVS)のためのケースド拡散モデルである4DiMを提案する。
我々は3D(カメラポーズ付き)、4D(目的+時間)、ビデオ(時間だがポーズなし)のデータを混合してトレーニングすることができる。
4DiMは、直感的なメートルスケールカメラポーズ制御を備えた最初のNVS方式である。
論文 参考訳(メタデータ) (2024-07-10T17:23:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。