論文の概要: JoVA: Unified Multimodal Learning for Joint Video-Audio Generation
- arxiv url: http://arxiv.org/abs/2512.13677v1
- Date: Mon, 15 Dec 2025 18:58:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-16 17:54:56.827833
- Title: JoVA: Unified Multimodal Learning for Joint Video-Audio Generation
- Title(参考訳): JoVA:ジョイントビデオオーディオ生成のための統合マルチモーダル学習
- Authors: Xiaohu Huang, Hao Zhou, Qiangpeng Yang, Shilei Wen, Kai Han,
- Abstract要約: 本稿では,ジョイント・ビデオ・オーディオ・ジェネレーションのための統合フレームワークJoVAを提案する。
これらの問題に対処するため、JoVAはトランスフォーマー層内のビデオトークンとオーディオトークンをまたいだ共同自己アテンションを採用している。
高品質な唇-音声同期を実現するために,顔のキーポイント検出に基づく簡易かつ効果的な口-面積損失を導入する。
- 参考スコア(独自算出の注目度): 23.0536211998086
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we present JoVA, a unified framework for joint video-audio generation. Despite recent encouraging advances, existing methods face two critical limitations. First, most existing approaches can only generate ambient sounds and lack the capability to produce human speech synchronized with lip movements. Second, recent attempts at unified human video-audio generation typically rely on explicit fusion or modality-specific alignment modules, which introduce additional architecture design and weaken the model simplicity of the original transformers. To address these issues, JoVA employs joint self-attention across video and audio tokens within each transformer layer, enabling direct and efficient cross-modal interaction without the need for additional alignment modules. Furthermore, to enable high-quality lip-speech synchronization, we introduce a simple yet effective mouth-area loss based on facial keypoint detection, which enhances supervision on the critical mouth region during training without compromising architectural simplicity. Extensive experiments on benchmarks demonstrate that JoVA outperforms or is competitive with both unified and audio-driven state-of-the-art methods in lip-sync accuracy, speech quality, and overall video-audio generation fidelity. Our results establish JoVA as an elegant framework for high-quality multimodal generation.
- Abstract(参考訳): 本稿では,ジョイント・ビデオ・オーディオ・ジェネレーションのための統合フレームワークであるJoVAを提案する。
最近の奨励的な進歩にもかかわらず、既存の方法には2つの限界がある。
第一に、既存のほとんどのアプローチは周囲の音のみを発生させることができ、唇の動きと同期した人間の音声を生成する能力が欠如している。
第二に、人間のビデオオーディオ生成を統一しようとする最近の試みは、通常、明示的な融合やモダリティ固有のアライメントモジュールに依存しており、アーキテクチャ設計が追加され、オリジナルのトランスフォーマーのモデル単純さが弱まる。
これらの問題に対処するため、JoVAはトランスフォーマー層内のビデオトークンとオーディオトークンをまたいだ共同自己アテンションを採用し、追加のアライメントモジュールを必要とせずに、直接的で効率的な相互モーダルインタラクションを可能にする。
さらに,高品質な口唇音声同期を実現するために,顔のキーポイント検出に基づく簡易かつ効果的な口面積損失を導入し,建築的単純さを損なうことなく,訓練中の口領域の監督を強化する。
ベンチマークによる大規模な実験により、JoVAはリップシンク精度、音声品質、全ビデオオーディオ生成忠実度において、統一的およびオーディオ駆動の最先端手法よりも優れ、競争力があることが示された。
その結果,高品質なマルチモーダル生成のためのエレガントなフレームワークとしてJoVAを確立した。
関連論文リスト
- UniAVGen: Unified Audio and Video Generation with Asymmetric Cross-Modal Interactions [34.27531187147479]
UniAVGenは、ジョイントオーディオとビデオ生成のための統一されたフレームワークである。
UniAVGenは、オーディオオーディオ同期、音色、感情の一貫性において全体的なアドバンテージを提供する。
論文 参考訳(メタデータ) (2025-11-05T10:06:51Z) - StableDub: Taming Diffusion Prior for Generalized and Efficient Visual Dubbing [63.72095377128904]
視覚的ダビングタスクは、運転音声と同期した口の動きを生成することを目的としている。
音声のみの運転パラダイムは、話者固有の唇習慣を不十分に捉えている。
Blind-inpaintingアプローチは、障害を処理する際に視覚的なアーティファクトを生成する。
論文 参考訳(メタデータ) (2025-09-26T05:23:31Z) - AudioGen-Omni: A Unified Multimodal Diffusion Transformer for Video-Synchronized Audio, Speech, and Song Generation [24.799628787198397]
AudioGen-Omniは、入力ビデオとコヒーレントに同期した高忠実度オーディオ、音声、歌を生成する。
ジョイントトレーニングパラダイムは、大規模ビデオテキストオーディオコーパスを統合している。
密度フレームレベルの表現は、AdaLNベースのジョイントアテンション機構を用いて融合する。
推測時間は8秒間1.91秒であり、効率と一般性の両方で大幅に改善されている。
論文 参考訳(メタデータ) (2025-08-01T16:03:57Z) - AlignDiT: Multimodal Aligned Diffusion Transformer for Synchronized Speech Generation [65.06374691172061]
マルチモーダル・トゥ・音声タスクは、映画製作、ダビング、仮想アバターなど、幅広い応用によって注目を集めている。
既存の手法は、音声の了解性、音声とビデオの同期、音声の自然さ、および参照話者との音声類似性の制限に悩まされている。
本稿では,アライメントされたマルチモーダル入力から正確な,同期化,自然な音声を生成するマルチモーダルアラインド拡散変換器AlignDiTを提案する。
論文 参考訳(メタデータ) (2025-04-29T10:56:24Z) - Seeing and Hearing: Open-domain Visual-Audio Generation with Diffusion
Latent Aligners [69.70590867769408]
ビデオとオーディオのコンテンツ制作は、映画産業とプロのユーザーにとって重要な技術である。
既存の拡散に基づく手法は、ビデオと音声を別々に生成する。
本研究では,このギャップを埋めることを目的として,クロス・ビジュアル・オーディオとジョイント・ヴィジュアル・オーディオ生成のためのフレームワークを慎重に設計した。
論文 参考訳(メタデータ) (2024-02-27T17:57:04Z) - Improving Audio-Visual Speech Recognition by Lip-Subword Correlation
Based Visual Pre-training and Cross-Modal Fusion Encoder [58.523884148942166]
本稿では,事前学習および微調整訓練の枠組みの下で,音声視覚音声認識(AVSR)を改善するための2つの新しい手法を提案する。
まず, マンダリンにおける口唇形状と音節レベルサブワード単位の相関について検討し, 口唇形状から良好なフレームレベル音節境界を確立する。
次に,音声誘導型クロスモーダルフュージョンエンコーダ(CMFE)ニューラルネットワークを提案する。
論文 参考訳(メタデータ) (2023-08-14T08:19:24Z) - MM-Diffusion: Learning Multi-Modal Diffusion Models for Joint Audio and
Video Generation [70.74377373885645]
本稿では,視聴体験と視聴体験を同時に実現する,初の共同音声ビデオ生成フレームワークを提案する。
MM拡散(MM-Diffusion)は、設計による共同記述プロセスのための連続的なマルチモーダルなU-Netで構成されている。
実験は、無条件のオーディオビデオ生成とゼロショット条件付タスクにおいて優れた結果を示す。
論文 参考訳(メタデータ) (2022-12-19T14:11:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。