論文の概要: SpaceTimePilot: Generative Rendering of Dynamic Scenes Across Space and Time
- arxiv url: http://arxiv.org/abs/2512.25075v1
- Date: Wed, 31 Dec 2025 18:59:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-01 23:27:28.757975
- Title: SpaceTimePilot: Generative Rendering of Dynamic Scenes Across Space and Time
- Title(参考訳): SpaceTimePilot: 空間と時間にまたがるダイナミックシーンの生成レンダリング
- Authors: Zhening Huang, Hyeonho Jeong, Xuelin Chen, Yulia Gryaditskaya, Tuanfeng Y. Wang, Joan Lasenby, Chun-Hao Huang,
- Abstract要約: SpaceTimePilotは、制御可能な生成レンダリングのための空間と時間を切り離すビデオ拡散モデルである。
拡散過程に効果的なアニメーション時間埋め込み機構を導入し、出力ビデオの動作シーケンスを明示的に制御する。
本研究では,実世界のデータと合成データの双方でSpaceTimePilotを評価し,空間空間の歪みを明らかにした。
- 参考スコア(独自算出の注目度): 24.601833305796728
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present SpaceTimePilot, a video diffusion model that disentangles space and time for controllable generative rendering. Given a monocular video, SpaceTimePilot can independently alter the camera viewpoint and the motion sequence within the generative process, re-rendering the scene for continuous and arbitrary exploration across space and time. To achieve this, we introduce an effective animation time-embedding mechanism in the diffusion process, allowing explicit control of the output video's motion sequence with respect to that of the source video. As no datasets provide paired videos of the same dynamic scene with continuous temporal variations, we propose a simple yet effective temporal-warping training scheme that repurposes existing multi-view datasets to mimic temporal differences. This strategy effectively supervises the model to learn temporal control and achieve robust space-time disentanglement. To further enhance the precision of dual control, we introduce two additional components: an improved camera-conditioning mechanism that allows altering the camera from the first frame, and CamxTime, the first synthetic space-and-time full-coverage rendering dataset that provides fully free space-time video trajectories within a scene. Joint training on the temporal-warping scheme and the CamxTime dataset yields more precise temporal control. We evaluate SpaceTimePilot on both real-world and synthetic data, demonstrating clear space-time disentanglement and strong results compared to prior work. Project page: https://zheninghuang.github.io/Space-Time-Pilot/ Code: https://github.com/ZheningHuang/spacetimepilot
- Abstract(参考訳): 本研究では,ビデオ拡散モデルであるSpaceTimePilotについて述べる。
SpaceTimePilotは、モノクロビデオによって、生成プロセス内のカメラの視点とモーションシーケンスを独立して変更し、空間と時間の連続的な任意の探索のためにシーンを再レンダリングする。
これを実現するために、拡散過程において効果的なアニメーションタイム埋め込み機構を導入し、ソース映像の動画に対して出力映像の動作シーケンスを明示的に制御できるようにする。
連続的な時間変動を伴う同じ動的シーンのペアビデオが存在しないため、既存のマルチビューデータセットを再利用して時間差を模倣する、シンプルで効果的な時間ウォーピングトレーニングスキームを提案する。
この戦略は、時間的制御を学習し、頑健な時空間の絡み合いを達成するためのモデルを効果的に監督する。
デュアルコントロールの精度をさらに高めるために,第1フレームからカメラを変更可能な改良されたカメラコンディショニング機構と,シーン内で完全に自由な時空ビデオトラジェクトリを提供する最初の合成空間時空間フルカバレッジレンダリングデータセットであるCamxTimeを導入する。
時間ウォーピングスキームとCamxTimeデータセットの併用トレーニングにより、より正確な時間制御が得られる。
実世界のデータと合成データの両方でSpaceTimePilotを評価し,従来の作業と比較して,空間時間の歪みと強い結果を示した。
プロジェクトページ: https://zheninghuang.github.io/Space-Time-Pilot/Code: https://github.com/ZheningHuang/spacetimepilot
関連論文リスト
- 3D Scene Prompting for Scene-Consistent Camera-Controllable Video Generation [55.29423122177883]
3DScenePromptは任意の長さの入力から次のチャンクを生成するフレームワークである。
カメラの制御とシーンの一貫性の維持を可能にする。
我々のフレームワークは、シーンの一貫性、カメラ制御性、生成品質において、既存の手法よりも大幅に優れています。
論文 参考訳(メタデータ) (2025-10-16T17:55:25Z) - Continuous Space-Time Video Super-Resolution with 3D Fourier Fields [62.270473766381976]
連続時空ビデオ超解像のための新しい定式化法を提案する。
モデリング関節は空間的および時間的超解像の両方を大幅に改善することを示す。
論文 参考訳(メタデータ) (2025-09-30T14:34:02Z) - UST-SSM: Unified Spatio-Temporal State Space Models for Point Cloud Video Modeling [53.199942923818206]
ポイントクラウドビデオは、光と視点の変化の影響を低減しつつ3Dの動きを捉え、微妙で連続した人間の行動を認識するのに非常に効果的である。
SSM(Selective State Space Models)は、線形複雑性を伴うシーケンスモデリングにおいて優れた性能を示す。
我々は,SSMの最新の進歩をクラウドビデオに向け,統一時空間モデル(UST-SSM)を提案する。
論文 参考訳(メタデータ) (2025-08-20T10:46:01Z) - SpaceVLLM: Endowing Multimodal Large Language Model with Spatio-Temporal Video Grounding Capability [58.46310813774538]
大規模言語モデル (LMLM) は時間的あるいは空間的局所化において顕著な進歩を遂げた。
しかし、彼らは時間的なビデオグラウンドの実行に苦慮している。
この制限は2つの大きな課題に起因している。
時間的ビデオグラウンドティングを具備したMLLMVLであるSpaceLMを紹介する。
論文 参考訳(メタデータ) (2025-03-18T07:40:36Z) - When Spatial meets Temporal in Action Recognition [34.53091498930863]
本稿では、時間情報を組み込んだ新しい前処理技術であるTIME(Temporal Integration and Motion Enhancement)について紹介する。
TIME層は、元のシーケンスを再構成し、時間順を保ちながら、時間的に進化するフレームを1つの空間グリッドに埋め込むことにより、新しいビデオフレームを生成する。
実験の結果,TIME層は認識精度を高め,映像処理タスクに有用な洞察を提供することがわかった。
論文 参考訳(メタデータ) (2024-11-22T16:39:45Z) - Latent-Shift: Latent Diffusion with Temporal Shift for Efficient
Text-to-Video Generation [115.09597127418452]
Latent-Shiftは、事前訓練されたテキスト・ツー・イメージ生成モデルに基づく効率的なテキスト・ツー・ビデオ生成手法である。
Latent-Shiftは、より効率的でありながら、同等またはより良い結果が得られることを示す。
論文 参考訳(メタデータ) (2023-04-17T17:57:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。