論文の概要: MM-Diffusion: Learning Multi-Modal Diffusion Models for Joint Audio and
Video Generation
- arxiv url: http://arxiv.org/abs/2212.09478v2
- Date: Fri, 24 Mar 2023 12:13:52 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-27 17:53:14.024220
- Title: MM-Diffusion: Learning Multi-Modal Diffusion Models for Joint Audio and
Video Generation
- Title(参考訳): MM拡散:共同音声・ビデオ生成のための多モード拡散モデル学習
- Authors: Ludan Ruan and Yiyang Ma and Huan Yang and Huiguo He and Bei Liu and
Jianlong Fu and Nicholas Jing Yuan and Qin Jin and Baining Guo
- Abstract要約: 本稿では,視聴体験と視聴体験を同時に実現する,初の共同音声ビデオ生成フレームワークを提案する。
MM拡散(MM-Diffusion)は、設計による共同記述プロセスのための連続的なマルチモーダルなU-Netで構成されている。
実験は、無条件のオーディオビデオ生成とゼロショット条件付タスクにおいて優れた結果を示す。
- 参考スコア(独自算出の注目度): 70.74377373885645
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We propose the first joint audio-video generation framework that brings
engaging watching and listening experiences simultaneously, towards
high-quality realistic videos. To generate joint audio-video pairs, we propose
a novel Multi-Modal Diffusion model (i.e., MM-Diffusion), with two-coupled
denoising autoencoders. In contrast to existing single-modal diffusion models,
MM-Diffusion consists of a sequential multi-modal U-Net for a joint denoising
process by design. Two subnets for audio and video learn to gradually generate
aligned audio-video pairs from Gaussian noises. To ensure semantic consistency
across modalities, we propose a novel random-shift based attention block
bridging over the two subnets, which enables efficient cross-modal alignment,
and thus reinforces the audio-video fidelity for each other. Extensive
experiments show superior results in unconditional audio-video generation, and
zero-shot conditional tasks (e.g., video-to-audio). In particular, we achieve
the best FVD and FAD on Landscape and AIST++ dancing datasets. Turing tests of
10k votes further demonstrate dominant preferences for our model. The code and
pre-trained models can be downloaded at
https://github.com/researchmm/MM-Diffusion.
- Abstract(参考訳): 本稿では,高品質なリアルなビデオにエンゲージメントと聴取体験を同時にもたらす,初の共同音声ビデオ生成フレームワークを提案する。
音声とビデオの併用ペアを生成するために,二結合脱音オートエンコーダを用いたマルチモーダル拡散モデル(mm-diffusion)を提案する。
既存の単一モード拡散モデルとは対照的に、MM拡散は設計による共同記述プロセスのための逐次多モードU-Netで構成されている。
音声とビデオの2つのサブネットは、ガウス雑音から徐々にアライメントされたオーディオビデオペアを生成する。
モダリティ間の意味的一貫性を確保するために,2つのサブネット上にランダムシフトに基づくアテンションブロックを橋渡しし,効率的なクロスモーダルアライメントを実現することにより,相互に音声・映像の忠実度を高めることを提案する。
広汎な実験は、無条件のオーディオビデオ生成やゼロショット条件タスク(例えば、ビデオからオーディオ)において優れた結果を示す。
特にランドスケープとAIST++のダンスデータセットで最高のFVDとFADを実現する。
10k票のチューリングテストは、我々のモデルに支配的な選好を示す。
コードと事前訓練されたモデルはhttps://github.com/researchmm/MM-Diffusion.comでダウンロードできる。
関連論文リスト
- UniForm: A Unified Diffusion Transformer for Audio-Video Generation [46.1185397912308]
UniFormは、クロスモーダル整合性を高めるために設計された統合拡散変換器である。
聴覚情報と視覚情報を結合することにより、UniFormは音声と映像を同時に生成することを学ぶ。
実験では, 共同音声合成, オーディオ誘導映像生成, 映像誘導音声生成タスクにおいて, 提案手法の優れた性能を示す。
論文 参考訳(メタデータ) (2025-02-06T09:18:30Z) - Taming Multimodal Joint Training for High-Quality Video-to-Audio Synthesis [56.01110988816489]
マルチモーダル・ジョイント・トレーニング・フレームワークであるMMAudioを用いて、高品質で同期化された音声、ビデオ、オプションのテキスト条件を合成することを提案する。
MMAudioは大規模で手軽に利用できるテキストオーディオデータを共同でトレーニングし、セマンティックに整合した高品質なオーディオサンプルを生成する。
MMAudioはテキスト・オーディオ・ジェネレーションにおいて驚くほどの競争力を発揮し、ジョイントトレーニングが単一モダリティのパフォーマンスを妨げないことを示す。
論文 参考訳(メタデータ) (2024-12-19T18:59:55Z) - YingSound: Video-Guided Sound Effects Generation with Multi-modal Chain-of-Thought Controls [10.429203168607147]
YingSoundは、ビデオ誘導音声生成のための基礎モデルである。
数ショット設定で高品質なオーディオ生成をサポートする。
本稿では,YingSoundが自動評価と人間の研究を通じて,高品質な同期音を効果的に生成できることを示す。
論文 参考訳(メタデータ) (2024-12-12T10:55:57Z) - A Simple but Strong Baseline for Sounding Video Generation: Effective Adaptation of Audio and Video Diffusion Models for Joint Generation [15.29891397291197]
オーディオとビデオのベース拡散モデルを考えると,これらを1つのモデルに追加モジュールに統合し,モデルが共同でオーディオとビデオを生成するように訓練する。
音声とビデオのペア間のアライメントを高めるために,本モデルでは2つの新しいメカニズムを導入する。
論文 参考訳(メタデータ) (2024-09-26T05:39:52Z) - SF-V: Single Forward Video Generation Model [57.292575082410785]
そこで本稿では,単段階ビデオ生成モデルを得るための新しい手法を提案する。
実験により,提案手法は計算オーバーヘッドを大幅に低減した合成ビデオの競合生成品質を実現することを示す。
論文 参考訳(メタデータ) (2024-06-06T17:58:27Z) - Frieren: Efficient Video-to-Audio Generation Network with Rectified Flow Matching [51.70360630470263]
Video-to-audio (V2A) は、サイレントビデオからコンテンツマッチング音声を合成することを目的としている。
本稿では,修正フローマッチングに基づくV2AモデルであるFrierenを提案する。
実験により、フリーレンは世代品質と時間的アライメントの両方で最先端のパフォーマンスを達成することが示された。
論文 参考訳(メタデータ) (2024-06-01T06:40:22Z) - Mirasol3B: A Multimodal Autoregressive model for time-aligned and contextual modalities [67.89368528234394]
マルチモーダル学習の主な課題の1つは、異質なモダリティを組み合わせる必要があることである。
ビデオとオーディオはテキストよりもはるかに高いレートで取得され、ほぼ時間内に整列される。
我々の手法は、確立されたマルチモーダルベンチマークの最先端性を達成し、はるかに大きなモデルより優れている。
論文 参考訳(メタデータ) (2023-11-09T19:15:12Z) - Diverse and Aligned Audio-to-Video Generation via Text-to-Video Model
Adaptation [89.96013329530484]
本研究では,多様な意味クラスから自然音声サンプルによってガイドされる多種多様なリアルなビデオを生成するタスクについて考察する。
既存のテキスト条件付きビデオ生成モデルと事前学習されたオーディオエンコーダモデルを利用する。
提案手法は,音声映像サンプルの有意な意味的多様性を示す3つのデータセットに対して広範に検証する。
論文 参考訳(メタデータ) (2023-09-28T13:26:26Z) - Diff-Foley: Synchronized Video-to-Audio Synthesis with Latent Diffusion
Models [12.898486592791604]
Diff-Foley, a synchronized Video-to-Audio synthesis method with a Latent diffusion model (LDM)について述べる。
我々はDiff-Foleyが現在の大規模V2Aデータセット上で最先端のV2A性能を達成することを示す。
論文 参考訳(メタデータ) (2023-06-29T12:39:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。