論文の概要: Controllable Video Generation with Provable Disentanglement
- arxiv url: http://arxiv.org/abs/2502.02690v1
- Date: Tue, 04 Feb 2025 20:10:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-06 14:29:15.646173
- Title: Controllable Video Generation with Provable Disentanglement
- Title(参考訳): 確率的絡み合いによる制御可能な映像生成
- Authors: Yifan Shen, Peiyuan Zhu, Zijian Li, Shaoan Xie, Zeyu Tang, Namrata Deka, Zongfang Liu, Guangyi Chen, Kun Zhang,
- Abstract要約: 本稿では,ビデオ概念を乱すための制御可能なビデオ生成支援ネットワーク(VoGAN)を提案する。
最小限の変化原理と十分な変化特性を強制するために、潜在動的変数の次元性を最小化する。
提案手法は,多種多様な現実シナリオにおける生成品質と制御性を大幅に向上させる。
- 参考スコア(独自算出の注目度): 15.139698184254469
- License:
- Abstract: Controllable video generation remains a significant challenge, despite recent advances in generating high-quality and consistent videos. Most existing methods for controlling video generation treat the video as a whole, neglecting intricate fine-grained spatiotemporal relationships, which limits both control precision and efficiency. In this paper, we propose Controllable Video Generative Adversarial Networks (CoVoGAN) to disentangle the video concepts, thus facilitating efficient and independent control over individual concepts. Specifically, following the minimal change principle, we first disentangle static and dynamic latent variables. We then leverage the sufficient change property to achieve component-wise identifiability of dynamic latent variables, enabling independent control over motion and identity. To establish the theoretical foundation, we provide a rigorous analysis demonstrating the identifiability of our approach. Building on these theoretical insights, we design a Temporal Transition Module to disentangle latent dynamics. To enforce the minimal change principle and sufficient change property, we minimize the dimensionality of latent dynamic variables and impose temporal conditional independence. To validate our approach, we integrate this module as a plug-in for GANs. Extensive qualitative and quantitative experiments on various video generation benchmarks demonstrate that our method significantly improves generation quality and controllability across diverse real-world scenarios.
- Abstract(参考訳): 制御可能なビデオ生成は、高品質で一貫したビデオの生成において最近の進歩にもかかわらず、依然として大きな課題である。
ビデオ生成を制御するほとんどの既存の方法は、ビデオ全体を扱い、複雑な微細な時空間関係を無視し、制御精度と効率の両方を制限する。
本稿では,制御可能な映像生成支援ネットワーク(CoVoGAN)を提案する。
具体的には、最小限の変更原理に従って、まず静的および動的潜伏変数をアンタングル化する。
次に,動的潜伏変数の成分的識別性を実現するのに十分な変化特性を利用し,動きと同一性に対する独立制御を可能にする。
理論的基盤を確立するため,本手法の妥当性を示す厳密な分析を行った。
これらの理論的知見に基づいて、潜伏力学を解離させる時相遷移モジュールを設計する。
最小限の変化原理と十分な変化特性を強制するために、潜伏動的変数の次元を最小化し、時間的条件独立を課す。
このアプローチを検証するために、我々はこのモジュールをGANのプラグインとして統合する。
様々なビデオ生成ベンチマークにおける定性的および定量的実験により,本手法は実世界の様々なシナリオにおける生成品質と制御性を大幅に向上することを示した。
関連論文リスト
- Dynamic Concepts Personalization from Single Videos [92.62863918003575]
動的概念で生成ビデオモデルをパーソナライズするための新しいフレームワークであるSet-and-Sequenceを紹介する。
提案手法は,空間的特徴と時間的特徴を明確に区別しないアーキテクチャにおいて,時間的重み空間を課す。
我々のフレームワークは動的概念をビデオモデルの出力領域に埋め込んでおり、前例のない編集性と構成性を実現している。
論文 参考訳(メタデータ) (2025-02-20T18:53:39Z) - Training-Free Motion-Guided Video Generation with Enhanced Temporal Consistency Using Motion Consistency Loss [35.69606926024434]
本稿では,初期雑音に基づくアプローチと新たな動きの整合性損失を組み合わせた,シンプルで効果的な解を提案する。
次に、生成したビデオに類似した特徴相関パターンを維持するために、動きの整合性損失を設計する。
このアプローチは、トレーニング不要のセットアップの利点を保ちながら、さまざまなモーションコントロールタスク間の時間的一貫性を改善する。
論文 参考訳(メタデータ) (2025-01-13T18:53:08Z) - ConceptMaster: Multi-Concept Video Customization on Diffusion Transformer Models Without Test-Time Tuning [40.70596166863986]
マルチコンセプトビデオカスタマイズ(MCVC)は依然として大きな課題である。
本研究では、カスタマイズされたビデオにおける概念の忠実さを維持しつつ、アイデンティティ分離の課題を効果的に解決する革新的なフレームワークであるConceptMasterを紹介する。
具体的には,拡散モデルに単体で注入された非結合型マルチコンセプト埋め込みを学習するための新しい戦略を導入する。
論文 参考訳(メタデータ) (2025-01-08T18:59:01Z) - InterDyn: Controllable Interactive Dynamics with Video Diffusion Models [50.38647583839384]
我々は、初期フレームと駆動対象またはアクターの動作を符号化する制御信号が与えられたインタラクティブな動画像を生成するフレームワークであるInterDynを提案する。
私たちの重要な洞察は、大規模ビデオデータからインタラクティブなダイナミクスを学習することで、大きなビデオファンデーションモデルがニューラルと暗黙の物理シミュレータの両方として機能できるということです。
論文 参考訳(メタデータ) (2024-12-16T13:57:02Z) - DiVE: DiT-based Video Generation with Enhanced Control [23.63288169762629]
時間的・多視点的な一貫したビデオを生成するために特別に設計された第1のDiTベースのフレームワークを提案する。
具体的には、パラメータフリーな空間ビューインフレードアテンション機構を利用して、クロスビューの一貫性を保証する。
論文 参考訳(メタデータ) (2024-09-03T04:29:59Z) - CREMA: Generalizable and Efficient Video-Language Reasoning via Multimodal Modular Fusion [58.15403987979496]
CREMAは、ビデオ推論のための一般化可能、高効率、モジュラリティ融合フレームワークである。
本稿では,軽量核融合モジュールとモーダリティ・シークエンシャル・トレーニング・ストラテジーによって支援された,新しいプログレッシブ・マルチモーダル・フュージョン設計を提案する。
ビデオQA や Video-Audio/3D/Touch/Thermal QA を含む7つのビデオ言語推論タスクについて検証を行った。
論文 参考訳(メタデータ) (2024-02-08T18:27:22Z) - TrackDiffusion: Tracklet-Conditioned Video Generation via Diffusion Models [75.20168902300166]
微粒な軌跡条件の運動制御が可能な新しい映像生成フレームワークであるTrackDiffusionを提案する。
TrackDiffusionの重要なコンポーネントは、複数のオブジェクトのフレーム間の一貫性を明確に保証するインスタンスエンハンサーである。
TrackDiffusionによって生成されたビデオシーケンスは、視覚知覚モデルのトレーニングデータとして使用できる。
論文 参考訳(メタデータ) (2023-12-01T15:24:38Z) - Learn the Force We Can: Enabling Sparse Motion Control in Multi-Object
Video Generation [26.292052071093945]
単一のフレームとスパース動作入力からビデオを生成する教師なしの手法を提案する。
我々の訓練されたモデルは、目に見えない現実的なオブジェクト間相互作用を生成できる。
ヨダは、制御性と映像品質の両面において、先行するアートビデオ生成の状況と同等かそれ以上であることを示す。
論文 参考訳(メタデータ) (2023-06-06T19:50:02Z) - Generating Long Videos of Dynamic Scenes [66.56925105992472]
本稿では、物体の動きを再現する映像生成モデル、カメラ視点の変化、時間とともに現れる新しいコンテンツについて述べる。
よくある障害ケースは、コンテンツが時間的一貫性を提供する誘導バイアスに過度に依存するため、決して変化しないことです。
論文 参考訳(メタデータ) (2022-06-07T16:29:51Z) - Relational Self-Attention: What's Missing in Attention for Video
Understanding [52.38780998425556]
リレーショナル・セルフアテンション(RSA)と呼ばれるリレーショナル・フィーチャー・トランスフォーメーションを導入する。
我々の実験およびアブレーション研究により、RSAネットワークは、畳み込みや自己意図的ネットワークよりも大幅に優れていることが示された。
論文 参考訳(メタデータ) (2021-11-02T15:36:11Z) - NewtonianVAE: Proportional Control and Goal Identification from Pixels
via Physical Latent Spaces [9.711378389037812]
本稿では,潜在空間における比例制御性を誘導するために一意に設計された潜在動的学習フレームワークを提案する。
学習したダイナミックスモデルは画素からの比例制御を可能にし、視覚ベースのコントローラの動作クローンを劇的に単純化し、高速化し、実演からのスイッチングコントローラの模倣学習に適用した場合に、解釈可能なゴール発見を提供する。
論文 参考訳(メタデータ) (2020-06-02T21:41:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。