論文の概要: UniAVGen: Unified Audio and Video Generation with Asymmetric Cross-Modal Interactions
- arxiv url: http://arxiv.org/abs/2511.03334v1
- Date: Wed, 05 Nov 2025 10:06:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-06 18:19:32.402229
- Title: UniAVGen: Unified Audio and Video Generation with Asymmetric Cross-Modal Interactions
- Title(参考訳): UniAVGen:非対称なクロスモーダルインタラクションを備えた統一オーディオとビデオ生成
- Authors: Guozhen Zhang, Zixiang Zhou, Teng Hu, Ziqiao Peng, Youliang Zhang, Yi Chen, Yuan Zhou, Qinglin Lu, Limin Wang,
- Abstract要約: UniAVGenは、ジョイントオーディオとビデオ生成のための統一されたフレームワークである。
UniAVGenは、オーディオオーディオ同期、音色、感情の一貫性において全体的なアドバンテージを提供する。
- 参考スコア(独自算出の注目度): 34.27531187147479
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Due to the lack of effective cross-modal modeling, existing open-source audio-video generation methods often exhibit compromised lip synchronization and insufficient semantic consistency. To mitigate these drawbacks, we propose UniAVGen, a unified framework for joint audio and video generation. UniAVGen is anchored in a dual-branch joint synthesis architecture, incorporating two parallel Diffusion Transformers (DiTs) to build a cohesive cross-modal latent space. At its heart lies an Asymmetric Cross-Modal Interaction mechanism, which enables bidirectional, temporally aligned cross-attention, thus ensuring precise spatiotemporal synchronization and semantic consistency. Furthermore, this cross-modal interaction is augmented by a Face-Aware Modulation module, which dynamically prioritizes salient regions in the interaction process. To enhance generative fidelity during inference, we additionally introduce Modality-Aware Classifier-Free Guidance, a novel strategy that explicitly amplifies cross-modal correlation signals. Notably, UniAVGen's robust joint synthesis design enables seamless unification of pivotal audio-video tasks within a single model, such as joint audio-video generation and continuation, video-to-audio dubbing, and audio-driven video synthesis. Comprehensive experiments validate that, with far fewer training samples (1.3M vs. 30.1M), UniAVGen delivers overall advantages in audio-video synchronization, timbre consistency, and emotion consistency.
- Abstract(参考訳): 効果的なクロスモーダルモデリングが欠如しているため、既存のオープンソースオーディオビデオ生成手法では、リップ同期が損なわれ、セマンティック一貫性が不十分な場合が多い。
これらの欠点を軽減するために,共同音声・ビデオ生成のための統合フレームワークUniAVGenを提案する。
UniAVGen は2つの並列拡散変換器 (DiT) を組み込んだ二重分岐結合合成アーキテクチャに固定されている。
中心には非対称なクロスモーダル相互作用機構があり、双方向で時間的に整列されたクロスアテンションを可能にし、正確な時空間同期とセマンティック一貫性を確保する。
さらに、このクロスモーダル相互作用はFace-Aware Modulationモジュールによって強化され、インタラクションプロセスにおける正常な領域を動的に優先順位付けする。
推論における生成の忠実度を高めるために,モーダリティ・アウェア・クラシファイア・フリー・ガイダンスを導入する。
特筆すべきは、UniAVGenの堅牢なジョイント合成設計は、ジョイントオーディオビデオの生成と継続、ビデオからオーディオへのダビング、オーディオ駆動のビデオ合成など、単一のモデル内で重要なオーディオビデオタスクをシームレスに統合することを可能にすることである。
総合的な実験では、トレーニングサンプル(1.3M対30.1M)がはるかに少ないため、UniAVGenはオーディオビデオ同期、音色の一貫性、感情の一貫性において全体的な優位性を提供する。
関連論文リスト
- Complementary and Contrastive Learning for Audio-Visual Segmentation [74.11434759171199]
本稿では,ローカル情報とグローバル情報の両方を処理可能な新しいフレームワークであるComplementary and Contrastive Transformer(CCFormer)を提案する。
提案手法は,S4, MS3, AVSSデータセットにまたがる最先端のベンチマークを新たに設定する。
論文 参考訳(メタデータ) (2025-10-11T06:36:59Z) - AudioGen-Omni: A Unified Multimodal Diffusion Transformer for Video-Synchronized Audio, Speech, and Song Generation [24.799628787198397]
AudioGen-Omniは、入力ビデオとコヒーレントに同期した高忠実度オーディオ、音声、歌を生成する。
ジョイントトレーニングパラダイムは、大規模ビデオテキストオーディオコーパスを統合している。
密度フレームレベルの表現は、AdaLNベースのジョイントアテンション機構を用いて融合する。
推測時間は8秒間1.91秒であり、効率と一般性の両方で大幅に改善されている。
論文 参考訳(メタデータ) (2025-08-01T16:03:57Z) - MirrorMe: Towards Realtime and High Fidelity Audio-Driven Halfbody Animation [21.216297567167036]
MirrorMeは、LTXビデオモデル上に構築されたリアルタイムで制御可能なフレームワークである。
MirrorMeは映像を空間的に時間的に圧縮し、効率的な遅延空間をデノイングする。
EMTDベンチマークの実験では、MirrorMeの忠実さ、リップシンク精度、時間的安定性が実証されている。
論文 参考訳(メタデータ) (2025-06-27T09:57:23Z) - AsynFusion: Towards Asynchronous Latent Consistency Models for Decoupled Whole-Body Audio-Driven Avatars [71.90109867684025]
全体オーディオ駆動型アバターポーズと表現生成は、生命に似たデジタル人間を作るための重要なタスクである。
本稿では,拡散変換器を応用し,結合表現とジェスチャ合成を実現する新しいフレームワークAsynFusionを提案する。
AsynFusionは、リアルタイムで同期された全身アニメーションを生成する際に最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2025-05-21T03:28:53Z) - AV-Link: Temporally-Aligned Diffusion Features for Cross-Modal Audio-Video Generation [49.6922496382879]
本稿では,A2V(Video-to-Audio)生成とA2V(Audio-to-Video)生成のための統合フレームワークを提案する。
我々のフレームワークの鍵は、ビデオとオーディオの拡散モデル間の双方向情報交換を容易にするFusion Blockである。
論文 参考訳(メタデータ) (2024-12-19T18:57:21Z) - MM-Diffusion: Learning Multi-Modal Diffusion Models for Joint Audio and
Video Generation [70.74377373885645]
本稿では,視聴体験と視聴体験を同時に実現する,初の共同音声ビデオ生成フレームワークを提案する。
MM拡散(MM-Diffusion)は、設計による共同記述プロセスのための連続的なマルチモーダルなU-Netで構成されている。
実験は、無条件のオーディオビデオ生成とゼロショット条件付タスクにおいて優れた結果を示す。
論文 参考訳(メタデータ) (2022-12-19T14:11:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。