論文の概要: Efficient Camera-Controlled Video Generation of Static Scenes via Sparse Diffusion and 3D Rendering
- arxiv url: http://arxiv.org/abs/2601.09697v1
- Date: Wed, 14 Jan 2026 18:50:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-15 18:59:20.508481
- Title: Efficient Camera-Controlled Video Generation of Static Scenes via Sparse Diffusion and 3D Rendering
- Title(参考訳): スパース拡散と3次元レンダリングによる静止シーンの高能率カメラ制御映像生成
- Authors: Jieying Chen, Jeffrey Hu, Joan Lasenby, Ayush Tewari,
- Abstract要約: 生成モデルは、非常にリアルなクリップを生成することができるが、計算的に非効率であり、ほんの数秒間、数分のGPU時間を必要とすることが多い。
本稿では,静的シーンのカメラコンディショニング映像生成のための新しい戦略について検討する。
提案手法は, 幾何整合性を確保しつつ, 数百フレームにわたる生成コストを補正する。
- 参考スコア(独自算出の注目度): 15.79758281898629
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Modern video generative models based on diffusion models can produce very realistic clips, but they are computationally inefficient, often requiring minutes of GPU time for just a few seconds of video. This inefficiency poses a critical barrier to deploying generative video in applications that require real-time interactions, such as embodied AI and VR/AR. This paper explores a new strategy for camera-conditioned video generation of static scenes: using diffusion-based generative models to generate a sparse set of keyframes, and then synthesizing the full video through 3D reconstruction and rendering. By lifting keyframes into a 3D representation and rendering intermediate views, our approach amortizes the generation cost across hundreds of frames while enforcing geometric consistency. We further introduce a model that predicts the optimal number of keyframes for a given camera trajectory, allowing the system to adaptively allocate computation. Our final method, SRENDER, uses very sparse keyframes for simple trajectories and denser ones for complex camera motion. This results in video generation that is more than 40 times faster than the diffusion-based baseline in generating 20 seconds of video, while maintaining high visual fidelity and temporal stability, offering a practical path toward efficient and controllable video synthesis.
- Abstract(参考訳): 拡散モデルに基づく現代的なビデオ生成モデルは、非常にリアルなクリップを生成することができるが、計算的に非効率であり、ほんの数秒間、数分のGPU時間を必要とすることが多い。
この非効率性は、AIやVR/ARといったリアルタイムインタラクションを必要とするアプリケーションに生成ビデオを展開する上で、重要な障壁となる。
本稿では,拡散型生成モデルを用いてキーフレームのスパース集合を生成し,さらに3次元再構成とレンダリングにより全映像を合成する,静的シーンのカメラ条件付きビデオ生成のための新しい戦略について検討する。
キーフレームを3次元表現に上げ、中間ビューをレンダリングすることにより、幾何学的整合性を保ちながら、数百フレームにわたる生成コストを抑えることができる。
さらに、所定のカメラ軌跡に対して最適なキーフレーム数を予測するモデルを導入し、適応的に計算を割り当てることを可能にする。
我々の最終手法SRENDERは、単純な軌跡や複雑なカメラモーションのためのより密度の高いキーフレームを非常にスパースに使用しています。
これにより、20秒間の映像生成において拡散ベースベースラインよりも40倍以上高速な映像生成が可能となり、高視力と時間安定性を維持しながら、効率よく制御可能な映像合成への実践的な道が開かれた。
関連論文リスト
- Pixel-to-4D: Camera-Controlled Image-to-Video Generation with Dynamic 3D Gaussians [7.051077403685518]
人間は、1つの画像だけを与えられたシーンの将来のダイナミクスを予測するのに優れています。
この能力を模倣できるビデオ生成モデルは、インテリジェントシステムにとって不可欠なコンポーネントである。
最近のアプローチでは、単一画像条件のビデオ生成における時間的コヒーレンスと3次元の整合性が改善されている。
論文 参考訳(メタデータ) (2026-01-02T13:04:47Z) - S^2VG: 3D Stereoscopic and Spatial Video Generation via Denoising Frame Matrix [60.060882467801484]
そこで本研究では,既製の単眼ビデオ生成モデルを利用して,没入型3Dビデオを生成する,ポーズフリーかつトレーニングフリーな手法を提案する。
提案手法はまず,生成したモノクロ映像を推定深度情報を用いて予め定義されたカメラ視点にワープし,新しいテキストフレーム・マトリクス・インペイント・フレームワークを適用した。
提案手法の有効性は,Sora, Lumiere, WALT, Zeroscope など,様々な生成モデルを用いた実験により検証した。
論文 参考訳(メタデータ) (2025-08-11T14:50:03Z) - Zero4D: Training-Free 4D Video Generation From Single Video Using Off-the-Shelf Video Diffusion [52.0192865857058]
そこで,本研究では,市販ビデオ拡散モデルを利用して,単一入力ビデオから多視点ビデオを生成する4Dビデオ生成手法を提案する。
本手法はトレーニング不要で,市販のビデオ拡散モデルを完全に活用し,マルチビュービデオ生成のための実用的で効果的なソリューションを提供する。
論文 参考訳(メタデータ) (2025-03-28T17:14:48Z) - VideoLifter: Lifting Videos to 3D with Fast Hierarchical Stereo Alignment [54.66217340264935]
VideoLifterは、ローカルからグローバルへの戦略を断片的に活用する、新しいビデオから3Dパイプラインである。
再建プロセスを大幅に加速し、訓練時間を82%以上削減し、現在のSOTA法よりも視覚的品質を向上した。
論文 参考訳(メタデータ) (2025-01-03T18:52:36Z) - MotionAura: Generating High-Quality and Motion Consistent Videos using Discrete Diffusion [3.7270979204213446]
ビデオ処理の課題に対処するための4つの重要なコントリビューションを提示する。
まず,3次元逆ベクトル量子化バリエンコエンコオートコーダを紹介する。
次に,テキスト・ビデオ生成フレームワークであるMotionAuraを紹介する。
第3に,スペクトル変換器を用いたデノナイジングネットワークを提案する。
第4に,Sketch Guided Videopaintingのダウンストリームタスクを導入する。
論文 参考訳(メタデータ) (2024-10-10T07:07:56Z) - RAVEN: Rethinking Adversarial Video Generation with Efficient Tri-plane Networks [93.18404922542702]
本稿では,長期的空間的および時間的依存関係に対処する新しいビデオ生成モデルを提案する。
提案手法は,3次元認識型生成フレームワークにインスパイアされた,明示的で単純化された3次元平面のハイブリッド表現を取り入れたものである。
我々のモデルは高精細度ビデオクリップを解像度256時間256$ピクセルで合成し、フレームレート30fpsで5ドル以上まで持続する。
論文 参考訳(メタデータ) (2024-01-11T16:48:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。