論文の概要: Harmony: Harmonizing Audio and Video Generation through Cross-Task Synergy
- arxiv url: http://arxiv.org/abs/2511.21579v2
- Date: Fri, 28 Nov 2025 12:25:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-01 15:47:02.765611
- Title: Harmony: Harmonizing Audio and Video Generation through Cross-Task Synergy
- Title(参考訳): Harmony:クロスタスクのシナジーによるオーディオとビデオ生成の調和
- Authors: Teng Hu, Zhentao Yu, Guozhen Zhang, Zihan Su, Zhengguang Zhou, Youliang Zhang, Yuan Zhou, Qinglin Lu, Ran Yi,
- Abstract要約: Harmonyは、機械的に音声と視覚の同期を強制する新しいフレームワークである。
それは新しい最先端技術を確立し、生成忠実度と重要な点の両方において既存の方法よりもはるかに優れており、きめ細かいオーディオと視覚の同期を実現している。
- 参考スコア(独自算出の注目度): 39.04292189640444
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The synthesis of synchronized audio-visual content is a key challenge in generative AI, with open-source models facing challenges in robust audio-video alignment. Our analysis reveals that this issue is rooted in three fundamental challenges of the joint diffusion process: (1) Correspondence Drift, where concurrently evolving noisy latents impede stable learning of alignment; (2) inefficient global attention mechanisms that fail to capture fine-grained temporal cues; and (3) the intra-modal bias of conventional Classifier-Free Guidance (CFG), which enhances conditionality but not cross-modal synchronization. To overcome these challenges, we introduce Harmony, a novel framework that mechanistically enforces audio-visual synchronization. We first propose a Cross-Task Synergy training paradigm to mitigate drift by leveraging strong supervisory signals from audio-driven video and video-driven audio generation tasks. Then, we design a Global-Local Decoupled Interaction Module for efficient and precise temporal-style alignment. Finally, we present a novel Synchronization-Enhanced CFG (SyncCFG) that explicitly isolates and amplifies the alignment signal during inference. Extensive experiments demonstrate that Harmony establishes a new state-of-the-art, significantly outperforming existing methods in both generation fidelity and, critically, in achieving fine-grained audio-visual synchronization.
- Abstract(参考訳): 同期オーディオ映像コンテンツの合成は、生成AIにおいて重要な課題であり、オープンソースのモデルは、堅牢なオーディオ映像アライメントの課題に直面している。
本研究は,(1)共用拡散過程の3つの基本的課題に根ざしていることが明らかとなった。(1)共用拡散過程において,共用ドリフト(共用ドリフト),(2)微粒な時間的手がかりを捕捉できない非効率なグローバルアテンション機構,(3)常用クラシファイア・フリー・ガイダンス(CFG)のモーダルバイアスは条件性を高めるが,相互同期ではない。
これらの課題を克服するために,機械的に音声と視覚の同期を強制する新しいフレームワークであるHarmonyを紹介した。
まず,音声駆動型映像と映像駆動型音声生成タスクの強い監視信号を活用することでドリフトを緩和するクロスタスク・シナジー・トレーニング・パラダイムを提案する。
そこで我々は,効率的かつ高精度な時間的アライメントのためのグローバル・ローカル・デカップリング・インタラクション・モジュールを設計した。
最後に、推論中にアライメント信号を明確に分離し増幅する、シンクロナイゼーション強化CFG(SyncCFG)を提案する。
広範にわたる実験により、ハーモニーは新たな最先端の手法を確立し、音像の微妙な同期を実現するために、生成忠実さと重要な両方の既存手法を著しく上回っていることが示されている。
関連論文リスト
- UniAVGen: Unified Audio and Video Generation with Asymmetric Cross-Modal Interactions [34.27531187147479]
UniAVGenは、ジョイントオーディオとビデオ生成のための統一されたフレームワークである。
UniAVGenは、オーディオオーディオ同期、音色、感情の一貫性において全体的なアドバンテージを提供する。
論文 参考訳(メタデータ) (2025-11-05T10:06:51Z) - Taming Text-to-Sounding Video Generation via Advanced Modality Condition and Interaction [28.20791917022439]
本研究は,テキスト・トゥ・サウンド・ビデオ(T2SV)生成という課題に焦点をあてる。
テキスト条件から同期された音声でビデオを生成することを目的としており、両方のモダリティがテキストに一致していることを保証する。
1)ビデオ用テキストが音声用テキストと等しい1つの共有テキストキャプションは、しばしばモーダル干渉を引き起こす。
論文 参考訳(メタデータ) (2025-10-03T15:43:56Z) - MirrorMe: Towards Realtime and High Fidelity Audio-Driven Halfbody Animation [21.216297567167036]
MirrorMeは、LTXビデオモデル上に構築されたリアルタイムで制御可能なフレームワークである。
MirrorMeは映像を空間的に時間的に圧縮し、効率的な遅延空間をデノイングする。
EMTDベンチマークの実験では、MirrorMeの忠実さ、リップシンク精度、時間的安定性が実証されている。
論文 参考訳(メタデータ) (2025-06-27T09:57:23Z) - AsynFusion: Towards Asynchronous Latent Consistency Models for Decoupled Whole-Body Audio-Driven Avatars [71.90109867684025]
全体オーディオ駆動型アバターポーズと表現生成は、生命に似たデジタル人間を作るための重要なタスクである。
本稿では,拡散変換器を応用し,結合表現とジェスチャ合成を実現する新しいフレームワークAsynFusionを提案する。
AsynFusionは、リアルタイムで同期された全身アニメーションを生成する際に最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2025-05-21T03:28:53Z) - Tuning-Free Multi-Event Long Video Generation via Synchronized Coupled Sampling [81.37449968164692]
ビデオ全体にわたってデノイングパスを同期する新しい推論フレームワークであるシンクロナイズド結合サンプリング(SynCoS)を提案する。
提案手法は, シームレスな局所遷移を保証し, グローバルコヒーレンスを強制する2つの相補的なサンプリング戦略を組み合わせる。
大規模な実験により、SynCoSは、よりスムーズな遷移とより優れた長距離コヒーレンスを実現し、マルチイベント長ビデオ生成を大幅に改善することが示された。
論文 参考訳(メタデータ) (2025-03-11T16:43:45Z) - Synchformer: Efficient Synchronization from Sparse Cues [100.89656994681934]
コントリビューションには、新しい音声-視覚同期モデル、同期モデルからの抽出を分離するトレーニングが含まれる。
このアプローチは、濃密な設定とスパース設定の両方において最先端の性能を実現する。
また,100万スケールの 'in-the-wild' データセットに同期モデルのトレーニングを拡張し,解釈可能性に対するエビデンス属性技術を調査し,同期モデルの新たな機能であるオーディオ-視覚同期性について検討する。
論文 参考訳(メタデータ) (2024-01-29T18:59:55Z) - Looking into Your Speech: Learning Cross-modal Affinity for Audio-visual
Speech Separation [73.1652905564163]
本稿では,音声-視覚的ニューラル処理を用いて音声信号と映像を分離する問題に対処する。
従来の手法では、フレームワイドマッチング基準を用いて、音声とビデオの共有情報を抽出する。
音声と視覚ストリーム間の局所的な親和性だけでなく,グローバル通信を学習するクロスモーダル親和性ネットワーク(CaffNet)を提案する。
論文 参考訳(メタデータ) (2021-03-25T15:39:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。