論文の概要: Diffusion Models for Joint Audio-Video Generation
- arxiv url: http://arxiv.org/abs/2603.16093v1
- Date: Tue, 17 Mar 2026 03:31:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-18 17:42:07.088837
- Title: Diffusion Models for Joint Audio-Video Generation
- Title(参考訳): 共同音声映像生成のための拡散モデル
- Authors: Alejandro Paredes La Torre,
- Abstract要約: 高品質でペアのオーディオビデオデータセットを2つリリースします。
データセットのスクラッチからMM-拡散アーキテクチャをトレーニングします。
逐次2段階のテキスト・オーディオ・ビデオ生成パイプラインを提案する。
- 参考スコア(独自算出の注目度): 51.56484100374058
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Multimodal generative models have shown remarkable progress in single-modality video and audio synthesis, yet truly joint audio-video generation remains an open challenge. In this paper, I explore four key contributions to advance this field. First, I release two high-quality, paired audio-video datasets. The datasets consisting on 13 hours of video-game clips and 64 hours of concert performances, each segmented into consistent 34-second samples to facilitate reproducible research. Second, I train the MM-Diffusion architecture from scratch on our datasets, demonstrating its ability to produce semantically coherent audio-video pairs and quantitatively evaluating alignment on rapid actions and musical cues. Third, I investigate joint latent diffusion by leveraging pretrained video and audio encoder-decoders, uncovering challenges and inconsistencies in the multimodal decoding stage. Finally, I propose a sequential two-step text-to-audio-video generation pipeline: first generating video, then conditioning on both the video output and the original prompt to synthesize temporally synchronized audio. My experiments show that this modular approach yields high-fidelity generations of audio video generation.
- Abstract(参考訳): マルチモーダル生成モデルは、単一モダリティビデオとオーディオ合成において顕著な進歩を見せているが、真の共同オーディオビデオ生成は未解決の課題である。
本稿では,この分野を前進させるための4つの重要な貢献について考察する。
まず、高品質のペアオーディオビデオデータセットを2つリリースします。
13時間のビデオゲームクリップと64時間のコンサートパフォーマンスからなるデータセットは、それぞれ、再現可能な研究を促進するために、一貫した34秒のサンプルに分割された。
第2に、MM-Diffusionアーキテクチャをデータセットのスクラッチからトレーニングし、セマンティックなコヒーレントなオーディオビデオペアを生成し、迅速なアクションと音楽的手がかりに基づいてアライメントを定量的に評価できることを示します。
第3に,予め訓練されたビデオエンコーダとオーディオエンコーダデコーダを併用し,マルチモーダルデコーダにおける課題と不整合を明らかにすることで,共同潜伏拡散について検討する。
最後に、まずビデオを生成し、その後、ビデオ出力と元のプロンプトの両方を条件付けして、時間同期音声を合成する、2段階のテキスト・オーディオ・ビデオ生成パイプラインを提案する。
私の実験は、このモジュラーアプローチが高忠実度なオーディオビデオ生成を生み出すことを示している。
関連論文リスト
- HunyuanVideo-Foley: Multimodal Diffusion with Representation Alignment for High-Fidelity Foley Audio Generation [14.921126281071544]
HunyuanVideo-Foleyはエンドツーエンドのテキスト・ビデオ・オーディオ・フレームワークである。
高忠実度オーディオを視覚力学や意味文脈と正確に整合させて合成する。
音声の忠実度、視覚的セマンティックなアライメント、時間的アライメント、分布マッチングにまたがる新しい最先端パフォーマンスを実現する。
論文 参考訳(メタデータ) (2025-08-23T07:30:18Z) - Diverse and Aligned Audio-to-Video Generation via Text-to-Video Model
Adaptation [89.96013329530484]
本研究では,多様な意味クラスから自然音声サンプルによってガイドされる多種多様なリアルなビデオを生成するタスクについて考察する。
既存のテキスト条件付きビデオ生成モデルと事前学習されたオーディオエンコーダモデルを利用する。
提案手法は,音声映像サンプルの有意な意味的多様性を示す3つのデータセットに対して広範に検証する。
論文 参考訳(メタデータ) (2023-09-28T13:26:26Z) - Large-scale unsupervised audio pre-training for video-to-speech
synthesis [64.86087257004883]
音声合成は、話者の無声映像から音声信号を再構成する作業である。
本稿では,24kHzで3,500時間以上のオーディオデータをエンコーダ・デコーダモデルでトレーニングすることを提案する。
次に、事前学習したデコーダを用いて、音声合成タスクの音声デコーダを初期化する。
論文 参考訳(メタデータ) (2023-06-27T13:31:33Z) - MM-Diffusion: Learning Multi-Modal Diffusion Models for Joint Audio and
Video Generation [70.74377373885645]
本稿では,視聴体験と視聴体験を同時に実現する,初の共同音声ビデオ生成フレームワークを提案する。
MM拡散(MM-Diffusion)は、設計による共同記述プロセスのための連続的なマルチモーダルなU-Netで構成されている。
実験は、無条件のオーディオビデオ生成とゼロショット条件付タスクにおいて優れた結果を示す。
論文 参考訳(メタデータ) (2022-12-19T14:11:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。