Fugu-MT 論文翻訳(概要): MM-Diffusion: Learning Multi-Modal Diffusion Models for Joint Audio and Video Generation

論文の概要: MM-Diffusion: Learning Multi-Modal Diffusion Models for Joint Audio and Video Generation

arxiv url: http://arxiv.org/abs/2212.09478v2
Date: Fri, 24 Mar 2023 12:13:52 GMT
ステータス: 翻訳完了
システム内更新日: 2023-03-27 17:53:14.024220
Title: MM-Diffusion: Learning Multi-Modal Diffusion Models for Joint Audio and Video Generation
Title（参考訳）: MM拡散:共同音声・ビデオ生成のための多モード拡散モデル学習
Authors: Ludan Ruan and Yiyang Ma and Huan Yang and Huiguo He and Bei Liu and Jianlong Fu and Nicholas Jing Yuan and Qin Jin and Baining Guo
Abstract要約: 本稿では,視聴体験と視聴体験を同時に実現する,初の共同音声ビデオ生成フレームワークを提案する。 MM拡散(MM-Diffusion)は、設計による共同記述プロセスのための連続的なマルチモーダルなU-Netで構成されている。実験は、無条件のオーディオビデオ生成とゼロショット条件付タスクにおいて優れた結果を示す。
参考スコア（独自算出の注目度）: 70.74377373885645
License: http://creativecommons.org/licenses/by/4.0/
Abstract: We propose the first joint audio-video generation framework that brings engaging watching and listening experiences simultaneously, towards high-quality realistic videos. To generate joint audio-video pairs, we propose a novel Multi-Modal Diffusion model (i.e., MM-Diffusion), with two-coupled denoising autoencoders. In contrast to existing single-modal diffusion models, MM-Diffusion consists of a sequential multi-modal U-Net for a joint denoising process by design. Two subnets for audio and video learn to gradually generate aligned audio-video pairs from Gaussian noises. To ensure semantic consistency across modalities, we propose a novel random-shift based attention block bridging over the two subnets, which enables efficient cross-modal alignment, and thus reinforces the audio-video fidelity for each other. Extensive experiments show superior results in unconditional audio-video generation, and zero-shot conditional tasks (e.g., video-to-audio). In particular, we achieve the best FVD and FAD on Landscape and AIST++ dancing datasets. Turing tests of 10k votes further demonstrate dominant preferences for our model. The code and pre-trained models can be downloaded at https://github.com/researchmm/MM-Diffusion.
Abstract（参考訳）: 本稿では,高品質なリアルなビデオにエンゲージメントと聴取体験を同時にもたらす,初の共同音声ビデオ生成フレームワークを提案する。音声とビデオの併用ペアを生成するために,二結合脱音オートエンコーダを用いたマルチモーダル拡散モデル(mm-diffusion)を提案する。既存の単一モード拡散モデルとは対照的に、MM拡散は設計による共同記述プロセスのための逐次多モードU-Netで構成されている。音声とビデオの2つのサブネットは、ガウス雑音から徐々にアライメントされたオーディオビデオペアを生成する。モダリティ間の意味的一貫性を確保するために,2つのサブネット上にランダムシフトに基づくアテンションブロックを橋渡しし,効率的なクロスモーダルアライメントを実現することにより,相互に音声・映像の忠実度を高めることを提案する。広汎な実験は、無条件のオーディオビデオ生成やゼロショット条件タスク(例えば、ビデオからオーディオ)において優れた結果を示す。特にランドスケープとAIST++のダンスデータセットで最高のFVDとFADを実現する。 10k票のチューリングテストは、我々のモデルに支配的な選好を示す。コードと事前訓練されたモデルはhttps://github.com/researchmm/MM-Diffusion.comでダウンロードできる。

関連論文リスト

AudioGen-Omni: A Unified Multimodal Diffusion Transformer for Video-Synchronized Audio, Speech, and Song Generation [24.799628787198397]
AudioGen-Omniは、入力ビデオとコヒーレントに同期した高忠実度オーディオ、音声、歌を生成する。ジョイントトレーニングパラダイムは、大規模ビデオテキストオーディオコーパスを統合している。密度フレームレベルの表現は、AdaLNベースのジョイントアテンション機構を用いて融合する。推測時間は8秒間1.91秒であり、効率と一般性の両方で大幅に改善されている。
論文参考訳（メタデータ） (2025-08-01T16:03:57Z)
UniForm: A Unified Multi-Task Diffusion Transformer for Audio-Video Generation [44.21422404659117]
UniFormはマルチタスク拡散変換器であり、共有潜在空間における音声と視覚のモダリティを共同で生成する。単一の拡散プロセスは、音声とビデオの両方をモデル化し、音と視覚の固有の相関をキャプチャする。大規模言語モデルと大規模テキスト・オーディオ・ビデオ複合データセットを活用することで、UniFormは以前のアプローチよりも優れた生成多様性を実現する。
論文参考訳（メタデータ） (2025-02-06T09:18:30Z)
AV-Link: Temporally-Aligned Diffusion Features for Cross-Modal Audio-Video Generation [49.6922496382879]
本稿では,A2V(Video-to-Audio)生成とA2V(Audio-to-Video)生成のための統合フレームワークを提案する。我々のフレームワークの鍵は、ビデオとオーディオの拡散モデル間の双方向情報交換を容易にするFusion Blockである。
論文参考訳（メタデータ） (2024-12-19T18:57:21Z)
YingSound: Video-Guided Sound Effects Generation with Multi-modal Chain-of-Thought Controls [10.429203168607147]
YingSoundは、ビデオ誘導音声生成のための基礎モデルである。数ショット設定で高品質なオーディオ生成をサポートする。本稿では,YingSoundが自動評価と人間の研究を通じて,高品質な同期音を効果的に生成できることを示す。
論文参考訳（メタデータ） (2024-12-12T10:55:57Z)
MM-LDM: Multi-Modal Latent Diffusion Model for Sounding Video Generation [14.28357169715152]
本稿では,新しい多モード潜在拡散モデル(MM-LDM)を提案する。まず、音声とビデオデータの表現を、それらを1つか2つの画像に変換することによって統一する。次に,階層型マルチモーダルオートエンコーダを導入し,各モダリティに対する低レベルの知覚潜在空間と共有高レベルの意味的特徴空間を構築する。
論文参考訳（メタデータ） (2024-10-02T14:32:24Z)
A Simple but Strong Baseline for Sounding Video Generation: Effective Adaptation of Audio and Video Diffusion Models for Joint Generation [15.29891397291197]
オーディオとビデオのベース拡散モデルを考えると,これらを1つのモデルに追加モジュールに統合し,モデルが共同でオーディオとビデオを生成するように訓練する。音声とビデオのペア間のアライメントを高めるために,本モデルでは2つの新しいメカニズムを導入する。
論文参考訳（メタデータ） (2024-09-26T05:39:52Z)
SF-V: Single Forward Video Generation Model [57.292575082410785]
そこで本稿では,単段階ビデオ生成モデルを得るための新しい手法を提案する。実験により,提案手法は計算オーバーヘッドを大幅に低減した合成ビデオの競合生成品質を実現することを示す。
論文参考訳（メタデータ） (2024-06-06T17:58:27Z)
Frieren: Efficient Video-to-Audio Generation Network with Rectified Flow Matching [51.70360630470263]
Video-to-audio (V2A) は、サイレントビデオからコンテンツマッチング音声を合成することを目的としている。本稿では,修正フローマッチングに基づくV2AモデルであるFrierenを提案する。実験により、フリーレンは世代品質と時間的アライメントの両方で最先端のパフォーマンスを達成することが示された。
論文参考訳（メタデータ） (2024-06-01T06:40:22Z)
Seeing and Hearing: Open-domain Visual-Audio Generation with Diffusion Latent Aligners [69.70590867769408]
ビデオとオーディオのコンテンツ制作は、映画産業とプロのユーザーにとって重要な技術である。既存の拡散に基づく手法は、ビデオと音声を別々に生成する。本研究では,このギャップを埋めることを目的として,クロス・ビジュアル・オーディオとジョイント・ヴィジュアル・オーディオ生成のためのフレームワークを慎重に設計した。
論文参考訳（メタデータ） (2024-02-27T17:57:04Z)
Mirasol3B: A Multimodal Autoregressive model for time-aligned and contextual modalities [67.89368528234394]
マルチモーダル学習の主な課題の1つは、異質なモダリティを組み合わせる必要があることである。ビデオとオーディオはテキストよりもはるかに高いレートで取得され、ほぼ時間内に整列される。我々の手法は、確立されたマルチモーダルベンチマークの最先端性を達成し、はるかに大きなモデルより優れている。
論文参考訳（メタデータ） (2023-11-09T19:15:12Z)
Diverse and Aligned Audio-to-Video Generation via Text-to-Video Model Adaptation [89.96013329530484]
本研究では,多様な意味クラスから自然音声サンプルによってガイドされる多種多様なリアルなビデオを生成するタスクについて考察する。既存のテキスト条件付きビデオ生成モデルと事前学習されたオーディオエンコーダモデルを利用する。提案手法は,音声映像サンプルの有意な意味的多様性を示す3つのデータセットに対して広範に検証する。
論文参考訳（メタデータ） (2023-09-28T13:26:26Z)
AudioFormer: Audio Transformer learns audio feature representations from discrete acoustic codes [6.375996974877916]
離散音響符号の取得により音声特徴表現を学習するAudioFormerという手法を提案する。以上の結果から,AudioFormerはモノモーダル音声分類モデルに比べて性能が大幅に向上したことが示された。
論文参考訳（メタデータ） (2023-08-14T15:47:25Z)
Diff-Foley: Synchronized Video-to-Audio Synthesis with Latent Diffusion Models [12.898486592791604]
Diff-Foley, a synchronized Video-to-Audio synthesis method with a Latent diffusion model (LDM)について述べる。我々はDiff-Foleyが現在の大規模V2Aデータセット上で最先端のV2A性能を達成することを示す。
論文参考訳（メタデータ） (2023-06-29T12:39:58Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。