論文の概要: Controllable Video Synthesis via Variational Inference
- arxiv url: http://arxiv.org/abs/2510.07670v1
- Date: Thu, 09 Oct 2025 01:48:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-10 17:54:14.80874
- Title: Controllable Video Synthesis via Variational Inference
- Title(参考訳): 変分推論による制御可能なビデオ合成
- Authors: Haoyi Duan, Yunzhi Zhang, Yilun Du, Jiajun Wu,
- Abstract要約: 未特定要素の多様性を維持しつつ,特定の要素に対して高い制御性を持つサンプルを生成するビデオ合成法を開発した。
我々は,複数のビデオ生成バックボーンを利用して,全てのタスク制約を総合的に考慮し,構成された分布を近似するために,このタスクを変分推論としてキャストした。
実験により, 従来よりも制御性, 多様性, 3次元の整合性が向上した試料が得られた。
- 参考スコア(独自算出の注目度): 62.79016502243712
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Many video workflows benefit from a mixture of user controls with varying granularity, from exact 4D object trajectories and camera paths to coarse text prompts, while existing video generative models are typically trained for fixed input formats. We develop a video synthesis method that addresses this need and generates samples with high controllability for specified elements while maintaining diversity for under-specified ones. We cast the task as variational inference to approximate a composed distribution, leveraging multiple video generation backbones to account for all task constraints collectively. To address the optimization challenge, we break down the problem into step-wise KL divergence minimization over an annealed sequence of distributions, and further propose a context-conditioned factorization technique that reduces modes in the solution space to circumvent local optima. Experiments suggest that our method produces samples with improved controllability, diversity, and 3D consistency compared to prior works.
- Abstract(参考訳): 多くのビデオワークフローは、正確な4Dオブジェクト軌跡やカメラパスから粗いテキストプロンプトまで、様々な粒度のユーザーコントロールの混合から恩恵を受ける。
我々は、このニーズに対処するビデオ合成法を開発し、未特定要素の多様性を維持しつつ、特定の要素に対して高い制御性を持つサンプルを生成する。
我々は,複数のビデオ生成バックボーンを利用して,全てのタスク制約を総合的に考慮し,構成された分布を近似するために,このタスクを変分推論としてキャストした。
最適化問題に対処するため, 解空間のモードを減らし, 局所最適を回避できる文脈条件因子化手法を提案する。
実験により, 従来よりも制御性, 多様性, 3次元の整合性が向上した試料が得られた。
関連論文リスト
- SwiftVideo: A Unified Framework for Few-Step Video Generation through Trajectory-Distribution Alignment [76.60024640625478]
拡散ベースまたはフローベースモデルは、ビデオ合成において大きな進歩を遂げているが、複数の反復サンプリングステップが必要である。
本稿では, トラジェクトリ保存と分散マッチングの利点を組み合わせた, 統一かつ安定な蒸留フレームワークを提案する。
提案手法は高品質なビデオ生成を維持しつつ,推論ステップの数を著しく削減する。
論文 参考訳(メタデータ) (2025-08-08T07:26:34Z) - Stable Virtual Camera: Generative View Synthesis with Diffusion Models [51.71244310522393]
本稿では,シーンの新たなビューを生成する汎用拡散モデルであるスタブルバーチャルカメラ(Seva)を紹介する。
このアプローチは、シンプルなモデル設計、最適化されたトレーニングレシピ、柔軟なサンプリング戦略によってこれらの制限を克服する。
提案手法では,シームレスなループ閉鎖により,最大半分間の高品質なビデオを生成することができる。
論文 参考訳(メタデータ) (2025-03-18T17:57:22Z) - Optical-Flow Guided Prompt Optimization for Coherent Video Generation [51.430833518070145]
我々は,光フローによる映像生成プロセスをガイドするMotionPromptというフレームワークを提案する。
ランダムフレーム対に適用した訓練された識別器の勾配を用いて,逆サンプリングステップにおける学習可能なトークン埋め込みを最適化する。
提案手法により,生成したコンテンツの忠実さを損なうことなく,自然な動きのダイナミクスを忠実に反映した視覚的コヒーレントな映像シーケンスを生成することができる。
論文 参考訳(メタデータ) (2024-11-23T12:26:52Z) - MAVIN: Multi-Action Video Generation with Diffusion Models via Transition Video Infilling [19.004339956475498]
MAVINは、2つの動画をシームレスに接続し、結合的な統合シーケンスを形成するトランジションビデオを生成するように設計されている。
従来の品質基準を補完し,時間的コヒーレンスと滑らかさを評価するための新しい指標CLIP-RS(CLIP Relative Smoothness)を導入する。
馬とトラのシナリオに関する実験結果は、滑らかでコヒーレントなビデオ遷移を生成するMAVINの優れた性能を示す。
論文 参考訳(メタデータ) (2024-05-28T09:46:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。