論文の概要: MM-LDM: Multi-Modal Latent Diffusion Model for Sounding Video Generation
- arxiv url: http://arxiv.org/abs/2410.01594v1
- Date: Wed, 02 Oct 2024 14:32:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-03 15:22:18.331227
- Title: MM-LDM: Multi-Modal Latent Diffusion Model for Sounding Video Generation
- Title(参考訳): MM-LDM:音声映像生成のための多モード潜時拡散モデル
- Authors: Mingzhen Sun, Weining Wang, Yanyuan Qiao, Jiahui Sun, Zihan Qin, Longteng Guo, Xinxin Zhu, Jing Liu,
- Abstract要約: 本稿では,新しい多モード潜在拡散モデル(MM-LDM)を提案する。
まず、音声とビデオデータの表現を、それらを1つか2つの画像に変換することによって統一する。
次に,階層型マルチモーダルオートエンコーダを導入し,各モダリティに対する低レベルの知覚潜在空間と共有高レベルの意味的特徴空間を構築する。
- 参考スコア(独自算出の注目度): 14.28357169715152
- License:
- Abstract: Sounding Video Generation (SVG) is an audio-video joint generation task challenged by high-dimensional signal spaces, distinct data formats, and different patterns of content information. To address these issues, we introduce a novel multi-modal latent diffusion model (MM-LDM) for the SVG task. We first unify the representation of audio and video data by converting them into a single or a couple of images. Then, we introduce a hierarchical multi-modal autoencoder that constructs a low-level perceptual latent space for each modality and a shared high-level semantic feature space. The former space is perceptually equivalent to the raw signal space of each modality but drastically reduces signal dimensions. The latter space serves to bridge the information gap between modalities and provides more insightful cross-modal guidance. Our proposed method achieves new state-of-the-art results with significant quality and efficiency gains. Specifically, our method achieves a comprehensive improvement on all evaluation metrics and a faster training and sampling speed on Landscape and AIST++ datasets. Moreover, we explore its performance on open-domain sounding video generation, long sounding video generation, audio continuation, video continuation, and conditional single-modal generation tasks for a comprehensive evaluation, where our MM-LDM demonstrates exciting adaptability and generalization ability.
- Abstract(参考訳): Sounding Video Generation (SVG) は、高次元信号空間、異なるデータフォーマット、およびコンテンツ情報の異なるパターンに挑戦される、オーディオとビデオの共同生成タスクである。
これらの課題に対処するために,SVGタスクのための新しい多モード潜在拡散モデル(MM-LDM)を提案する。
まず、音声とビデオデータの表現を、それらを1つか2つの画像に変換することによって統一する。
次に,階層型マルチモーダルオートエンコーダを導入し,各モダリティに対する低レベルの知覚潜在空間と共有高レベルの意味的特徴空間を構築する。
前者の空間は、各モダリティの生信号空間と知覚的に等価であるが、信号次元を劇的に減少させる。
後者の空間は、モダリティ間の情報ギャップを埋め、より洞察に富んだクロスモーダルガイダンスを提供するのに役立つ。
提案手法は, 高い品質と効率性を有する新しい最先端結果を実現する。
具体的には,すべての評価指標を総合的に改善し,ランドスケープとAIST++データセットの学習とサンプリングの高速化を実現している。
さらに,オープンドメイン音声生成,長時間音声生成,音声継続,映像継続,条件付き単一モーダル生成タスクの性能を総合評価し,MM-LDMはエキサイティングな適応性と一般化能力を示す。
関連論文リスト
- IDOL: Unified Dual-Modal Latent Diffusion for Human-Centric Joint Video-Depth Generation [136.5813547244979]
高品質な人中心型ビデオ深度生成のためのIDOL(unIfied Dual-mOdal Latent diffusion)を提案する。
我々のIDOLは2つの新しい設計で構成されている。第一に、デュアルモーダル生成を可能にし、ビデオと深度生成の間の情報交換を最大化する。
次に,映像と深度特徴運動場との整合性を実現する動きの整合性損失を提案する。
論文 参考訳(メタデータ) (2024-07-15T17:36:54Z) - VIMI: Grounding Video Generation through Multi-modal Instruction [89.90065445082442]
既存のテキスト間拡散モデルは、事前訓練のためにテキストのみのエンコーダにのみ依存する。
検索手法を用いて大規模マルチモーダル・プロンプト・データセットを構築し,テキスト・プロンプトとテキスト・プロンプトのペア化を行う。
マルチモーダル命令を組み込んだ3つのビデオ生成タスクにおいて,第1ステージからモデルを微調整する。
論文 参考訳(メタデータ) (2024-07-08T18:12:49Z) - Multimodal Variational Auto-encoder based Audio-Visual Segmentation [46.67599800471001]
ECMVAEは、各モダリティの表現をモダリティ共有表現とモダリティ固有表現で分解する。
当社のアプローチでは,3.84mIOUの性能向上を図りながら,音声・視覚的セグメンテーションのための新たな最先端技術が実現されている。
論文 参考訳(メタデータ) (2023-10-12T13:09:40Z) - Diverse and Aligned Audio-to-Video Generation via Text-to-Video Model
Adaptation [89.96013329530484]
本研究では,多様な意味クラスから自然音声サンプルによってガイドされる多種多様なリアルなビデオを生成するタスクについて考察する。
既存のテキスト条件付きビデオ生成モデルと事前学習されたオーディオエンコーダモデルを利用する。
提案手法は,音声映像サンプルの有意な意味的多様性を示す3つのデータセットに対して広範に検証する。
論文 参考訳(メタデータ) (2023-09-28T13:26:26Z) - OmniDataComposer: A Unified Data Structure for Multimodal Data Fusion
and Infinite Data Generation [8.149870655785955]
OmniDataComposerは、マルチモーダルデータ融合と無制限データ生成のための革新的なアプローチである。
6400以上のオブジェクトを識別でき、視覚情報のスペクトルを大幅に広げる。
多様なモダリティを網羅し、モダリティ間の相互強化を促進し、モダリティ間のデータ修正を容易にする。
論文 参考訳(メタデータ) (2023-08-08T08:30:16Z) - Swap Attention in Spatiotemporal Diffusions for Text-to-Video Generation [55.36617538438858]
本研究では,空間的知覚と時間的知覚の相互作用を強化する新しいアプローチを提案する。
我々はHD-VG-130Mという大規模かつオープンソースのビデオデータセットをキュレートする。
論文 参考訳(メタデータ) (2023-05-18T11:06:15Z) - MM-Diffusion: Learning Multi-Modal Diffusion Models for Joint Audio and
Video Generation [70.74377373885645]
本稿では,視聴体験と視聴体験を同時に実現する,初の共同音声ビデオ生成フレームワークを提案する。
MM拡散(MM-Diffusion)は、設計による共同記述プロセスのための連続的なマルチモーダルなU-Netで構成されている。
実験は、無条件のオーディオビデオ生成とゼロショット条件付タスクにおいて優れた結果を示す。
論文 参考訳(メタデータ) (2022-12-19T14:11:52Z) - Attention Bottlenecks for Multimodal Fusion [90.75885715478054]
機械知覚モデルは典型的にはモダリティに特化しており、単調なベンチマークのために最適化されている。
複数の層でのモジュラリティ融合に「融合」を用いる新しいトランスフォーマーアーキテクチャを導入する。
我々は、徹底的なアブレーション研究を行い、複数のオーディオ視覚分類ベンチマークで最先端の結果を得る。
論文 参考訳(メタデータ) (2021-06-30T22:44:12Z) - See, Hear, Read: Leveraging Multimodality with Guided Attention for
Abstractive Text Summarization [14.881597737762316]
我々は,NDSS,ICML,NeurIPSなどの著名な学術カンファレンスのプレゼンテーションから収集した,様々な期間のビデオを用いた抽象テキスト要約のための最初の大規模データセットを紹介する。
次に,多モード変換器をベースとしたデコーダのみの言語モデルであるnameを提案し,テキスト要約タスクの様々な入力モードにおけるモーダル内およびモーダル間ダイナミクスを本質的にキャプチャする。
論文 参考訳(メタデータ) (2021-05-20T08:56:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。