論文の概要: 3D Scene Prompting for Scene-Consistent Camera-Controllable Video Generation
- arxiv url: http://arxiv.org/abs/2510.14945v1
- Date: Thu, 16 Oct 2025 17:55:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-17 21:15:14.989883
- Title: 3D Scene Prompting for Scene-Consistent Camera-Controllable Video Generation
- Title(参考訳): 連続撮影が可能な映像生成のための3次元シーンプロンプト
- Authors: JoungBin Lee, Jaewoo Jung, Jisang Han, Takuya Narihira, Kazumi Fukuda, Junyoung Seo, Sunghwan Hong, Yuki Mitsufuji, Seungryong Kim,
- Abstract要約: 3DScenePromptは任意の長さの入力から次のチャンクを生成するフレームワークである。
カメラの制御とシーンの一貫性の維持を可能にする。
我々のフレームワークは、シーンの一貫性、カメラ制御性、生成品質において、既存の手法よりも大幅に優れています。
- 参考スコア(独自算出の注目度): 55.29423122177883
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present 3DScenePrompt, a framework that generates the next video chunk from arbitrary-length input while enabling precise camera control and preserving scene consistency. Unlike methods conditioned on a single image or a short clip, we employ dual spatio-temporal conditioning that reformulates context-view referencing across the input video. Our approach conditions on both temporally adjacent frames for motion continuity and spatially adjacent content for scene consistency. However, when generating beyond temporal boundaries, directly using spatially adjacent frames would incorrectly preserve dynamic elements from the past. We address this by introducing a 3D scene memory that represents exclusively the static geometry extracted from the entire input video. To construct this memory, we leverage dynamic SLAM with our newly introduced dynamic masking strategy that explicitly separates static scene geometry from moving elements. The static scene representation can then be projected to any target viewpoint, providing geometrically consistent warped views that serve as strong 3D spatial prompts while allowing dynamic regions to evolve naturally from temporal context. This enables our model to maintain long-range spatial coherence and precise camera control without sacrificing computational efficiency or motion realism. Extensive experiments demonstrate that our framework significantly outperforms existing methods in scene consistency, camera controllability, and generation quality. Project page : https://cvlab-kaist.github.io/3DScenePrompt/
- Abstract(参考訳): 本稿では,任意の長さの入力から次のビデオチャンクを生成するフレームワークである3DScenePromptを提案する。
単一の画像やショートクリップに条件付けされた手法とは異なり、入力されたビデオのコンテキストビュー参照を再構成する双対時空間条件付けを用いる。
動作連続性のための時間的隣接フレームとシーン一貫性のための空間的隣接コンテンツの両方に対するアプローチ条件について検討した。
しかし、時間的境界を超えて生成する場合、空間的に隣接したフレームを直接使用すれば、過去の動的要素を誤って保存する。
入力ビデオ全体から抽出した静的な形状を表現した3Dシーンメモリを導入することで、この問題に対処する。
このメモリを構築するために,静的シーン幾何学と移動要素を明確に分離する動的マスキング戦略を新たに導入した動的SLAMを利用する。
静的なシーン表現は任意の視点に投影することができ、幾何学的に一貫した歪んだビューを提供し、強い3次元空間的プロンプトとして機能し、動的領域を時間的文脈から自然に進化させることができる。
これにより、計算効率や動きリアリズムを犠牲にすることなく、長距離空間コヒーレンスと精密カメラ制御を維持できる。
大規模な実験により、我々のフレームワークはシーンの一貫性、カメラの可制御性、生成品質において既存の手法を著しく上回っていることが示された。
プロジェクトページ:https://cvlab-kaist.github.io/3DScenePrompt/
関連論文リスト
- VideoCanvas: Unified Video Completion from Arbitrary Spatiotemporal Patches via In-Context Conditioning [38.89828994130979]
任意の場所に配置された任意のユーザ指定のパッチからビデオが生成され、ビデオキャンバスに描画されるような、任意の時間的ビデオ補完のタスクを紹介する。
この柔軟性は、単一のパラダイムの下で、ファーストフレームのイメージ・トゥ・ビデオ、塗り絵、拡張、結束など、既存のコントロール可能なビデオ生成タスクを統一する。
In-Context Conditioning(ICC)パラダイムを、新しいパラメータをゼロとしたこのきめ細かい制御タスクに適応する、新しいフレームワークであるVideoCanvasを開発した。
論文 参考訳(メタデータ) (2025-10-09T17:58:59Z) - Voyaging into Perpetual Dynamic Scenes from a Single View [31.85867311855001]
主な課題は、異なる生成されたビューが基礎となる3Dモーションと一致していることを保証することだ。
そこで本稿では,動的シーン生成を動的コンテンツによるシーン性能問題として再定義するDynamicVoyagerを提案する。
実験により、我々のモデルは、フライスルーカメラに沿って一貫した動きを持つ永遠のシーンを生成できることが示されている。
論文 参考訳(メタデータ) (2025-07-05T22:49:25Z) - GaVS: 3D-Grounded Video Stabilization via Temporally-Consistent Local Reconstruction and Rendering [54.489285024494855]
ビデオの安定化は、元のユーザの動きの意図を保ちながら、望ましくないシャキネスを除去するので、ビデオ処理に欠かせない。
既存のアプローチは、運用するドメインによって、ユーザエクスペリエンスを低下させるいくつかの問題に悩まされます。
ビデオの安定化を時間的に一貫性のある局所的再構成とレンダリングのパラダイムとして再構成する,新しい3Dグラウンドアプローチである textbfGaVS を紹介する。
論文 参考訳(メタデータ) (2025-06-30T15:24:27Z) - VMem: Consistent Interactive Video Scene Generation with Surfel-Indexed View Memory [55.73900731190389]
Surfel-Indexed View Memory (VMem) は、過去のビューを記憶するメモリモジュールであり、それらが観測した3次元表面要素(サーフェル)に基づいて幾何学的にインデックス化することで、過去のビューを記憶する。
VMemは、新しいビューを生成する際に、最も関連性の高い過去のビューを効率的に検索することを可能にする。
論文 参考訳(メタデータ) (2025-06-23T17:59:56Z) - Scene Splatter: Momentum 3D Scene Generation from Single Image with Video Diffusion Model [14.775908473190684]
Scene Splatterは、単一の画像から一般的なシーンを生成するビデオ拡散のための運動量に基づくパラダイムである。
我々は,映像の詳細を向上し,シーンの一貫性を維持するために,オリジナルの特徴からノイズの多いサンプルをモメンタとして構築する。
我々は,映像拡散モデルを用いて,高忠実度と一貫した新奇なビューを生成する。
論文 参考訳(メタデータ) (2025-04-03T17:00:44Z) - Look Outside the Room: Synthesizing A Consistent Long-Term 3D Scene
Video from A Single Image [8.13564646389987]
一つのシーン画像と大きなカメラモーションの軌跡が与えられた一貫した長期映像を合成する新しい手法を提案する。
提案手法は,最先端のビュー合成手法よりも広いマージンで優れる。
論文 参考訳(メタデータ) (2022-03-17T17:16:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。