論文の概要: CineScene: Implicit 3D as Effective Scene Representation for Cinematic Video Generation
- arxiv url: http://arxiv.org/abs/2602.06959v1
- Date: Fri, 06 Feb 2026 18:59:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-09 22:18:26.542272
- Title: CineScene: Implicit 3D as Effective Scene Representation for Cinematic Video Generation
- Title(参考訳): CineScene:シネマティックビデオ生成のための効果的なシーン表現として3Dを暗示する
- Authors: Kaiyi Huang, Yukun Huang, Yu Li, Jianhong Bai, Xintao Wang, Zinan Lin, Xuefei Ning, Jiwen Yu, Pengfei Wan, Yu Wang, Xihui Liu,
- Abstract要約: 映像生成に暗黙的な3D認識シーン表現を活用するフレームワークであるCineSceneを提案する。
CineSceneは、シーン一貫性のある映像生成において最先端のパフォーマンスを達成する。
- 参考スコア(独自算出の注目度): 65.03946626081036
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Cinematic video production requires control over scene-subject composition and camera movement, but live-action shooting remains costly due to the need for constructing physical sets. To address this, we introduce the task of cinematic video generation with decoupled scene context: given multiple images of a static environment, the goal is to synthesize high-quality videos featuring dynamic subject while preserving the underlying scene consistency and following a user-specified camera trajectory. We present CineScene, a framework that leverages implicit 3D-aware scene representation for cinematic video generation. Our key innovation is a novel context conditioning mechanism that injects 3D-aware features in an implicit way: By encoding scene images into visual representations through VGGT, CineScene injects spatial priors into a pretrained text-to-video generation model by additional context concatenation, enabling camera-controlled video synthesis with consistent scenes and dynamic subjects. To further enhance the model's robustness, we introduce a simple yet effective random-shuffling strategy for the input scene images during training. To address the lack of training data, we construct a scene-decoupled dataset with Unreal Engine 5, containing paired videos of scenes with and without dynamic subjects, panoramic images representing the underlying static scene, along with their camera trajectories. Experiments show that CineScene achieves state-of-the-art performance in scene-consistent cinematic video generation, handling large camera movements and demonstrating generalization across diverse environments.
- Abstract(参考訳): 映像制作にはシーンオブジェクトの構成やカメラの動きを制御する必要があるが、物理的なセットを構築する必要があるため、実写撮影はコストがかかる。
静的な環境の複数の画像が与えられた場合、背景となるシーンの一貫性を保ちながら、ユーザが特定したカメラ軌道を追従しながら、ダイナミックな主題を特徴とする高品質な映像を合成することが目的である。
映像生成に暗黙的な3D認識シーン表現を活用するフレームワークであるCineSceneを提案する。
シーンイメージをVGGTを介して視覚表現に符号化することにより、CineSceneは、追加のコンテキスト結合により、事前訓練されたテキスト-ビデオ生成モデルに空間先行を注入し、一貫したシーンと動的主題によるカメラ制御ビデオ合成を可能にする。
モデルのロバスト性をさらに向上するため、トレーニング中の入力シーン画像に対して、単純かつ効果的なランダムシャッフル戦略を導入する。
トレーニングデータの欠如に対処するため,Unreal Engine 5を用いたシーン分離データセットを構築した。
実験により,CineSceneはシーン一貫性のある映像生成において最先端のパフォーマンスを実現し,大きなカメラの動きを処理し,多様な環境にまたがる一般化を実証した。
関連論文リスト
- 3D Scene Prompting for Scene-Consistent Camera-Controllable Video Generation [55.29423122177883]
3DScenePromptは任意の長さの入力から次のチャンクを生成するフレームワークである。
カメラの制御とシーンの一貫性の維持を可能にする。
我々のフレームワークは、シーンの一貫性、カメラ制御性、生成品質において、既存の手法よりも大幅に優れています。
論文 参考訳(メタデータ) (2025-10-16T17:55:25Z) - Generative Camera Dolly: Extreme Monocular Dynamic Novel View Synthesis [43.02778060969546]
制御可能な単分子動的ビュー合成パイプラインを提案する。
我々のモデルは入力として深度を必要としないし、明示的に3次元シーン形状をモデル化しない。
私たちのフレームワークは、リッチな動的シーン理解、ロボット工学の知覚、バーチャルリアリティのためのインタラクティブな3Dビデオ視聴体験において、強力なアプリケーションをアンロックできる可能性があると考えています。
論文 参考訳(メタデータ) (2024-05-23T17:59:52Z) - DynIBaR: Neural Dynamic Image-Based Rendering [79.44655794967741]
複雑な動的シーンを描写したモノクロ映像から新しいビューを合成する問題に対処する。
我々は,近傍のビューから特徴を集約することで,新しい視点を合成するボリューム画像ベースのレンダリングフレームワークを採用する。
動的シーンデータセットにおける最先端手法の大幅な改善を示す。
論文 参考訳(メタデータ) (2022-11-20T20:57:02Z) - NeuralDiff: Segmenting 3D objects that move in egocentric videos [92.95176458079047]
観測された3次元シーンを静的な背景と動的前景に分解する問題について検討する。
このタスクは、古典的な背景の減算問題を連想させるが、静的でダイナミックなシーンの全ての部分が大きな動きを生じさせるため、非常に難しい。
特に、自我中心のビデオについて検討し、動的コンポーネントを観察・移動するオブジェクトとアクターにさらに分離する。
論文 参考訳(メタデータ) (2021-10-19T12:51:35Z) - Video Autoencoder: self-supervised disentanglement of static 3D
structure and motion [60.58836145375273]
ビデオから3次元構造とカメラポーズの遠心分離表現を学習するために,ビデオオートエンコーダを提案する。
この表現は、新しいビュー合成、カメラポーズ推定、動きの追従によるビデオ生成など、様々なタスクに適用することができる。
論文 参考訳(メタデータ) (2021-10-06T17:57:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。