論文の概要: DreamID-Omni: Unified Framework for Controllable Human-Centric Audio-Video Generation
- arxiv url: http://arxiv.org/abs/2602.12160v1
- Date: Thu, 12 Feb 2026 16:41:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-13 21:07:25.944879
- Title: DreamID-Omni: Unified Framework for Controllable Human-Centric Audio-Video Generation
- Title(参考訳): DreamID-Omni: 制御可能な人間中心オーディオビデオ生成のための統一フレームワーク
- Authors: Xu Guo, Fulong Ye, Qichao Sun, Liyang Chen, Bingchuan Li, Pengze Zhang, Jiawei Liu, Songtao Zhao, Qian He, Xiangwang Hou,
- Abstract要約: 制御可能な人中心オーディオビデオ生成のための統一的なフレームワークを提案する。
DreamID-Omniは、ビデオ、オーディオ、オーディオ・ビジュアルの一貫性をまたいだ総合的な最先端のパフォーマンスを実現する。
学術研究と商用レベルのアプリケーションの間のギャップを埋めるために、コードを公開します。
- 参考スコア(独自算出の注目度): 23.171175300622675
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent advancements in foundation models have revolutionized joint audio-video generation. However, existing approaches typically treat human-centric tasks including reference-based audio-video generation (R2AV), video editing (RV2AV) and audio-driven video animation (RA2V) as isolated objectives. Furthermore, achieving precise, disentangled control over multiple character identities and voice timbres within a single framework remains an open challenge. In this paper, we propose DreamID-Omni, a unified framework for controllable human-centric audio-video generation. Specifically, we design a Symmetric Conditional Diffusion Transformer that integrates heterogeneous conditioning signals via a symmetric conditional injection scheme. To resolve the pervasive identity-timbre binding failures and speaker confusion in multi-person scenarios, we introduce a Dual-Level Disentanglement strategy: Synchronized RoPE at the signal level to ensure rigid attention-space binding, and Structured Captions at the semantic level to establish explicit attribute-subject mappings. Furthermore, we devise a Multi-Task Progressive Training scheme that leverages weakly-constrained generative priors to regularize strongly-constrained tasks, preventing overfitting and harmonizing disparate objectives. Extensive experiments demonstrate that DreamID-Omni achieves comprehensive state-of-the-art performance across video, audio, and audio-visual consistency, even outperforming leading proprietary commercial models. We will release our code to bridge the gap between academic research and commercial-grade applications.
- Abstract(参考訳): 基礎モデルの最近の進歩は、ジョイントオーディオビデオ生成に革命をもたらした。
しかしながら、既存のアプローチでは、参照ベースのオーディオビデオ生成(R2AV)、ビデオ編集(RV2AV)、オーディオ駆動型ビデオアニメーション(RA2V)などの人間中心のタスクを孤立した目的として扱うのが一般的である。
さらに、1つのフレームワーク内で複数の文字の同一性や音声の音色に対する正確で不整合な制御を実現することは、未解決の課題である。
本稿では,人間中心のオーディオビデオ生成を制御可能な統合フレームワークであるDreamID-Omniを提案する。
具体的には、対称条件注入方式により不均一な条件信号を統合する対称条件拡散変換器を設計する。
信号レベルでのRoPEの同期化により,厳密なアテンション空間のバインドを保証するとともに,意味レベルでのStructured Captionsを導入し,明示的な属性オブジェクトマッピングを確立する。
さらに,制約の弱い生成前処理を活用して,制約の強いタスクを規則化し,過度な適合を防止し,異なる目的を調和させるマルチタスクプログレッシブトレーニング手法を考案した。
大規模な実験により、DreamID-Omniは、ビデオ、オーディオ、オーディオ視覚の整合性、さらには主要なプロプライエタリな商用モデルよりも優れた、総合的な最先端のパフォーマンスを実現している。
学術研究と商用レベルのアプリケーションの間のギャップを埋めるために、コードを公開します。
関連論文リスト
- GMS-CAVP: Improving Audio-Video Correspondence with Multi-Scale Contrastive and Generative Pretraining [64.72014392166625]
GMS-CAVPは、マルチスケールビデオ・オーディオアライメントとマルチスケール空間時間拡散に基づく事前学習目的を組み合わせた、新しいフレームワークである。
まず、GMS-CAVPは、様々な粒度にわたる意味的および時間的関係をキャプチャするマルチスケールのコントラスト学習戦略を導入する。
第2に、拡散に基づく生成目的を組み込むことにより、従来のコントラスト学習を超越し、ビデオとオーディオ間のモダリティ変換と合成を可能にする。
論文 参考訳(メタデータ) (2026-01-27T13:43:32Z) - Omni2Sound: Towards Unified Video-Text-to-Audio Generation [56.11583645408007]
Video-to-audio (V2A), text-to-audio (T2A), joint video-text-to-audio (VT2A) を統合した統一モデルのトレーニングは,アプリケーションの柔軟性を向上する。
SoundAtlasは大規模なデータセット(470万ペア)で、既存のベンチマークや品質の専門家よりもはるかに優れています。
フレキシブルな入力モダリティをサポートする統一VT2A拡散モデルであるOmni2Soundを提案する。
論文 参考訳(メタデータ) (2026-01-06T05:49:41Z) - In-Context Audio Control of Video Diffusion Transformers [28.911323185865186]
本稿では,ビデオ拡散変換器(ICAC)の音環境制御について述べる。
本稿では,FullDiTに似た統合されたフルアテンションアーキテクチャにおいて,音声による映像生成のための音声信号の統合について検討する。
本研究では,注意パターンを制約して時間的アライメントを強制し,安定したトレーニングと優れたパフォーマンスを実現するMasked 3D Attention機構を提案する。
論文 参考訳(メタデータ) (2025-12-21T15:22:28Z) - JoVA: Unified Multimodal Learning for Joint Video-Audio Generation [23.0536211998086]
本稿では,ジョイント・ビデオ・オーディオ・ジェネレーションのための統合フレームワークJoVAを提案する。
これらの問題に対処するため、JoVAはトランスフォーマー層内のビデオトークンとオーディオトークンをまたいだ共同自己アテンションを採用している。
高品質な唇-音声同期を実現するために,顔のキーポイント検出に基づく簡易かつ効果的な口-面積損失を導入する。
論文 参考訳(メタデータ) (2025-12-15T18:58:18Z) - StableDub: Taming Diffusion Prior for Generalized and Efficient Visual Dubbing [63.72095377128904]
視覚的ダビングタスクは、運転音声と同期した口の動きを生成することを目的としている。
音声のみの運転パラダイムは、話者固有の唇習慣を不十分に捉えている。
Blind-inpaintingアプローチは、障害を処理する際に視覚的なアーティファクトを生成する。
論文 参考訳(メタデータ) (2025-09-26T05:23:31Z) - HuMo: Human-Centric Video Generation via Collaborative Multi-Modal Conditioning [33.868900473146496]
本稿では,協調型マルチモーダル制御のためのフレームワークであるHuMoを紹介する。
HuMoはサブタスクにおける専門的な最先端メソッドを超越している。
論文 参考訳(メタデータ) (2025-09-10T11:54:29Z) - InfiniteTalk: Audio-driven Video Generation for Sparse-Frame Video Dubbing [66.48064661467781]
我々は、アイデンティティ、象徴的なジェスチャー、カメラ軌跡を維持するために参照を戦略的に保存する新しいパラダイムであるスパースフレームビデオダビングを導入する。
無限長長列ダビング用に設計されたストリーミングオーディオ駆動型ジェネレータであるInfiniteTalkを提案する。
HDTF、CelebV-HQ、EMTDデータセットの総合評価は、最先端の性能を示している。
論文 参考訳(メタデータ) (2025-08-19T17:55:23Z) - FaceChain-ImagineID: Freely Crafting High-Fidelity Diverse Talking Faces from Disentangled Audio [45.71036380866305]
我々は、音声を聴く人々の過程を抽象化し、意味のある手がかりを抽出し、単一の音声から動的に音声に一貫性のある発話顔を生成する。
ひとつはアイデンティティ、コンテンツ、感情をエンタングルドオーディオから効果的に切り離すことであり、もう一つは動画内多様性とビデオ間の一貫性を維持することである。
本稿では,3つのトレーニング可能なアダプタと凍結遅延拡散モデルとのフレキシブルな統合を含む,制御可能なコヒーレントフレーム生成を提案する。
論文 参考訳(メタデータ) (2024-03-04T09:59:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。