論文の概要: DreamVideo-Omni: Omni-Motion Controlled Multi-Subject Video Customization with Latent Identity Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2603.12257v1
- Date: Thu, 12 Mar 2026 17:59:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-13 14:46:26.293616
- Title: DreamVideo-Omni: Omni-Motion Controlled Multi-Subject Video Customization with Latent Identity Reinforcement Learning
- Title(参考訳): DreamVideo-Omni: 潜在アイデンティティ強化学習を用いたOmni-Motion Controled Multi-Subject Video Customization
- Authors: Yujie Wei, Xinyu Liu, Shiwei Zhang, Hangjie Yuan, Jinbo Xing, Zhekai Chen, Xiang Wang, Haonan Qiu, Rui Zhao, Yutong Feng, Ruihang Chu, Yingya Zhang, Yike Guo, Xihui Liu, Hongming Shan,
- Abstract要約: 我々は,Omniモーション制御による多目的カスタマイズを実現する統合フレームワークであるDreamVideo-Omniを提案する。
複数対象のあいまいさを解決するために,グループとロールの埋め込みを導入し,特定のアイデンティティに移動信号を明示的に固定する。
これは、人間の嗜好に沿ったアイデンティティ保存を優先して、潜在空間における動き認識ID報酬を提供する。
- 参考スコア(独自算出の注目度): 82.28800081483224
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: While large-scale diffusion models have revolutionized video synthesis, achieving precise control over both multi-subject identity and multi-granularity motion remains a significant challenge. Recent attempts to bridge this gap often suffer from limited motion granularity, control ambiguity, and identity degradation, leading to suboptimal performance on identity preservation and motion control. In this work, we present DreamVideo-Omni, a unified framework enabling harmonious multi-subject customization with omni-motion control via a progressive two-stage training paradigm. In the first stage, we integrate comprehensive control signals for joint training, encompassing subject appearances, global motion, local dynamics, and camera movements. To ensure robust and precise controllability, we introduce a condition-aware 3D rotary positional embedding to coordinate heterogeneous inputs and a hierarchical motion injection strategy to enhance global motion guidance. Furthermore, to resolve multi-subject ambiguity, we introduce group and role embeddings to explicitly anchor motion signals to specific identities, effectively disentangling complex scenes into independent controllable instances. In the second stage, to mitigate identity degradation, we design a latent identity reward feedback learning paradigm by training a latent identity reward model upon a pretrained video diffusion backbone. This provides motion-aware identity rewards in the latent space, prioritizing identity preservation aligned with human preferences. Supported by our curated large-scale dataset and the comprehensive DreamOmni Bench for multi-subject and omni-motion control evaluation, DreamVideo-Omni demonstrates superior performance in generating high-quality videos with precise controllability.
- Abstract(参考訳): 大規模な拡散モデルはビデオ合成に革命をもたらしたが、多目的のアイデンティティと多粒度運動の両方を正確に制御することは依然として大きな課題である。
このギャップを埋めようとする最近の試みは、しばしば動きの粒度の制限、あいまいさの制御、アイデンティティの劣化に悩まされ、アイデンティティの保存とモーションコントロールに最適なパフォーマンスをもたらす。
本研究では,プログレッシブな2段階トレーニングパラダイムを通じて,オムニモーション制御と調和したマルチオブジェクトのカスタマイズを可能にする統合フレームワークDreamVideo-Omniを提案する。
第1段階では、共同訓練のための総合的な制御信号を統合し、対象の外観、グローバルな動き、局所力学、カメラの動きを包含する。
安定かつ高精度な制御性を確保するため,不均一な入力を協調するための条件対応3次元回転位置埋め込みと,大域的動作誘導を強化する階層的動作注入戦略を導入する。
さらに,複数対象のあいまいさを解決するために,グループとロールの埋め込みを導入し,動作信号を特定のアイデンティティに明示的に固定し,複雑なシーンを独立制御可能なインスタンスに効果的に切り離す。
第2段階では、事前訓練されたビデオ拡散バックボーン上で、潜時アイデンティティ報酬モデルを用いて、潜時アイデンティティ報酬フィードバック学習パラダイムを設計する。
これは、人間の嗜好に沿ったアイデンティティ保存を優先して、潜在空間における動き認識ID報酬を提供する。
得られた大規模データセットと総合的なDreamOmni Benchによるマルチオブジェクトおよびオムニモーションコントロール評価のサポートにより,DreamVideo-Omniは,高精度な制御性を備えた高品質なビデオを生成する上で,優れたパフォーマンスを示す。
関連論文リスト
- Kling-MotionControl Technical Report [46.75274343533976]
キャラクタアニメーションは、駆動ビデオから参照画像へのモーションダイナミクスの転送によって、ライフライクなビデオを生成することを目的としている。
生成モデルにおける最近の進歩は、高忠実度キャラクタアニメーションの道を開いた。
Kling-MotionControlは、堅牢で正確で表現力に富んだキャラクターアニメーションを特化して設計された、統合されたDiTベースのフレームワークである。
論文 参考訳(メタデータ) (2026-03-03T17:02:45Z) - DreamID-Omni: Unified Framework for Controllable Human-Centric Audio-Video Generation [23.171175300622675]
制御可能な人中心オーディオビデオ生成のための統一的なフレームワークを提案する。
DreamID-Omniは、ビデオ、オーディオ、オーディオ・ビジュアルの一貫性をまたいだ総合的な最先端のパフォーマンスを実現する。
学術研究と商用レベルのアプリケーションの間のギャップを埋めるために、コードを公開します。
論文 参考訳(メタデータ) (2026-02-12T16:41:52Z) - EchoMotion: Unified Human Video and Motion Generation via Dual-Modality Diffusion Transformer [64.69014756863331]
本研究では,外見と人間の動作の同時分布をモデル化するフレームワークであるEchoMotionを紹介する。
また,ビデオトークンとモーショントークンの両方に3次元位置符号化を統一したMVS-RoPEを提案する。
以上の結果から,人間の動きを明示的に表現することは出現することであり,人間中心のビデオ生成のコヒーレンスと妥当性を著しく向上させることが判明した。
論文 参考訳(メタデータ) (2025-12-21T17:08:14Z) - OmniMotion-X: Versatile Multimodal Whole-Body Motion Generation [52.579531290307926]
本稿では,全身動作生成のための汎用フレームワークであるOmniMotion-Xを紹介する。
OmniMotion-Xは、テキスト・トゥ・モーション、音楽・トゥ・ダンス、音声・トゥ・ジェスチャなど、多様なマルチモーダルタスクを効率的にサポートする。
高品質なマルチモーダルトレーニングを実現するため,これまでで最大の統合マルチモーダルモーションデータセットであるOmniMoCap-Xを構築した。
論文 参考訳(メタデータ) (2025-10-22T17:25:33Z) - TokenMotion: Decoupled Motion Control via Token Disentanglement for Human-centric Video Generation [7.900728371180723]
TokenMotionは、カメラモーションのきめ細かい制御を可能にする、最初のDiTベースのビデオ拡散フレームワークである。
本稿では,人間を意識した動的マスクをブリッジした分離・融合戦略を用いた統一モデリングフレームワークを提案する。
私たちの研究は、コントロール可能なビデオ生成の大幅な進歩を表しており、特にクリエイティブなプロダクションアプリケーションに関係しています。
論文 参考訳(メタデータ) (2025-04-11T00:41:25Z) - MotionCharacter: Identity-Preserving and Motion Controllable Human Video Generation [7.474418338825595]
MotionCharacterは、効率的で高忠実なヒューマンビデオ生成フレームワークである。
フレキシブルな属性修正を可能とし,IDの完全性を維持するためのID保存モジュールを提案する。
また,ID一貫性と領域認識損失機構を導入し,アイデンティティの整合性と詳細な忠実度を大幅に向上させた。
論文 参考訳(メタデータ) (2024-11-27T12:15:52Z) - MotionGPT-2: A General-Purpose Motion-Language Model for Motion Generation and Understanding [76.30210465222218]
MotionGPT-2は、MLMLM(Large Motion-Language Model)である。
LLM(Large Language Models)によるマルチモーダル制御をサポートしている。
難易度の高い3次元全体運動生成タスクに高い適応性を持つ。
論文 参考訳(メタデータ) (2024-10-29T05:25:34Z) - TrackDiffusion: Tracklet-Conditioned Video Generation via Diffusion Models [75.20168902300166]
微粒な軌跡条件の運動制御が可能な新しい映像生成フレームワークであるTrackDiffusionを提案する。
TrackDiffusionの重要なコンポーネントは、複数のオブジェクトのフレーム間の一貫性を明確に保証するインスタンスエンハンサーである。
TrackDiffusionによって生成されたビデオシーケンスは、視覚知覚モデルのトレーニングデータとして使用できる。
論文 参考訳(メタデータ) (2023-12-01T15:24:38Z) - DiverseMotion: Towards Diverse Human Motion Generation via Discrete
Diffusion [70.33381660741861]
テキスト記述に基づく高品質な人間の動作を合成するための新しいアプローチであるDiverseMotionを提案する。
我々のDiverseMotionは、最先端のモーション品質と競争力の多様性を達成できることを示す。
論文 参考訳(メタデータ) (2023-09-04T05:43:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。