論文の概要: Synchronized Video-to-Audio Generation via Mel Quantization-Continuum Decomposition
- arxiv url: http://arxiv.org/abs/2503.06984v1
- Date: Mon, 10 Mar 2025 07:04:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-11 15:45:20.793771
- Title: Synchronized Video-to-Audio Generation via Mel Quantization-Continuum Decomposition
- Title(参考訳): メル量子化連続分解による音声合成
- Authors: Juncheng Wang, Chao Xu, Cheng Yu, Lei Shang, Zhe Hu, Shujun Wang, Liefeng Bo,
- Abstract要約: 我々はメルスペクトルを3種類の信号に分解し、量子化や連続性を利用する。
開発したV2X(V2X)予測器により,映像から効果的に予測できる。
そして、予測信号を再分解して制御ネットに入力し、テキスト反転設計を行い、音声生成プロセスを制御する。
- 参考スコア(独自算出の注目度): 31.25956665297592
- License:
- Abstract: Video-to-audio generation is essential for synthesizing realistic audio tracks that synchronize effectively with silent videos. Following the perspective of extracting essential signals from videos that can precisely control the mature text-to-audio generative diffusion models, this paper presents how to balance the representation of mel-spectrograms in terms of completeness and complexity through a new approach called Mel Quantization-Continuum Decomposition (Mel-QCD). We decompose the mel-spectrogram into three distinct types of signals, employing quantization or continuity to them, we can effectively predict them from video by a devised video-to-all (V2X) predictor. Then, the predicted signals are recomposed and fed into a ControlNet, along with a textual inversion design, to control the audio generation process. Our proposed Mel-QCD method demonstrates state-of-the-art performance across eight metrics, evaluating dimensions such as quality, synchronization, and semantic consistency. Our codes and demos will be released at \href{Website}{https://wjc2830.github.io/MelQCD/}.
- Abstract(参考訳): サイレントビデオと効果的に同期するリアルなオーディオトラックを合成するためには、ビデオ音声生成が不可欠である。
そこで本研究では,Mel Quantization-Continuum Decomposition (Mel-QCD) と呼ばれる新しい手法により,メルスペクトルの完全性と複雑性の両立を両立させる方法について述べる。
我々は,メルスペクトルを3種類の信号に分解し,量子化や連続性を利用して,V2X(V2X)予測器によって映像から効果的に予測することができる。
そして、予測信号を再分解して制御ネットに入力し、テキスト反転設計を行い、音声生成プロセスを制御する。
提案手法は,8つの指標にまたがる最先端性能を実証し,品質,同期性,セマンティック一貫性などの次元を評価する。
私たちのコードとデモは \href{Website}{https://wjc2830.github.io/MelQCD/} で公開されます。
関連論文リスト
- Video-Foley: Two-Stage Video-To-Sound Generation via Temporal Event Condition For Foley Sound [6.638504164134713]
音声合成はマルチメディア生産に不可欠であり、音声とビデオの同期によってユーザエクスペリエンスを向上させる。
ビデオから音声生成によるこの労働集約プロセスの自動化に関する最近の研究は、重大な課題に直面している。
本稿では,Root Mean Square (RMS) を用いた音声合成システムであるVideo-Foleyを提案する。
論文 参考訳(メタデータ) (2024-08-21T18:06:15Z) - Masked Generative Video-to-Audio Transformers with Enhanced Synchronicity [12.848371604063168]
本稿では,V2A生成モデルであるMaskVATを提案する。
提案手法は,高品質なオーディオ・ビジュアル特徴とシーケンス・ツー・シーケンス並列構造を組み合わせることで,高い同期性が得られることを示す。
論文 参考訳(メタデータ) (2024-07-15T01:49:59Z) - Mirasol3B: A Multimodal Autoregressive model for time-aligned and contextual modalities [67.89368528234394]
マルチモーダル学習の主な課題の1つは、異質なモダリティを組み合わせる必要があることである。
ビデオとオーディオはテキストよりもはるかに高いレートで取得され、ほぼ時間内に整列される。
我々の手法は、確立されたマルチモーダルベンチマークの最先端性を達成し、はるかに大きなモデルより優れている。
論文 参考訳(メタデータ) (2023-11-09T19:15:12Z) - Diverse and Aligned Audio-to-Video Generation via Text-to-Video Model
Adaptation [89.96013329530484]
本研究では,多様な意味クラスから自然音声サンプルによってガイドされる多種多様なリアルなビデオを生成するタスクについて考察する。
既存のテキスト条件付きビデオ生成モデルと事前学習されたオーディオエンコーダモデルを利用する。
提案手法は,音声映像サンプルの有意な意味的多様性を示す3つのデータセットに対して広範に検証する。
論文 参考訳(メタデータ) (2023-09-28T13:26:26Z) - Sounding Video Generator: A Unified Framework for Text-guided Sounding
Video Generation [24.403772976932487]
Sounding Video Generator (SVG) は、オーディオ信号とともにリアルな映像を生成するための統合されたフレームワークである。
VQGANは、視覚フレームとオーディオメロメログラムを離散トークンに変換する。
トランスフォーマーベースのデコーダは、テキスト、ビジュアルフレーム、オーディオ信号間の関連をモデル化するために使用される。
論文 参考訳(メタデータ) (2023-03-29T09:07:31Z) - MM-Diffusion: Learning Multi-Modal Diffusion Models for Joint Audio and
Video Generation [70.74377373885645]
本稿では,視聴体験と視聴体験を同時に実現する,初の共同音声ビデオ生成フレームワークを提案する。
MM拡散(MM-Diffusion)は、設計による共同記述プロセスのための連続的なマルチモーダルなU-Netで構成されている。
実験は、無条件のオーディオビデオ生成とゼロショット条件付タスクにおいて優れた結果を示す。
論文 参考訳(メタデータ) (2022-12-19T14:11:52Z) - SVTS: Scalable Video-to-Speech Synthesis [105.29009019733803]
本稿では,ビデオ・トゥ・スペクトログラム予測器と事前学習したニューラルボコーダの2つのコンポーネントからなるスケーラブルなビデオ音声合成フレームワークを提案する。
私たちは、挑戦的なLSS3データセットで不可解な結果を示す最初の人です。
論文 参考訳(メタデータ) (2022-05-04T13:34:07Z) - End to End Lip Synchronization with a Temporal AutoEncoder [95.94432031144716]
ビデオ中の唇の動きをオーディオストリームと同期させる問題について検討する。
両領域再帰型ニューラルネットワークを用いて最適アライメントを求める。
アプリケーションとして、既存のビデオストリームとテキストから音声までの音声を強力にアライメントする能力を実証する。
論文 参考訳(メタデータ) (2022-03-30T12:00:18Z) - End-to-End Video-To-Speech Synthesis using Generative Adversarial
Networks [54.43697805589634]
GAN(Generative Adversarial Networks)に基づくエンドツーエンドビデオ音声合成モデルを提案する。
本モデルは,生映像を入力として受信し,音声を生成するエンコーダ・デコーダアーキテクチャで構成されている。
このモデルは,グリッドなどの制約付きデータセットに対して,顕著なリアリズムで音声を再構成できることを示す。
論文 参考訳(メタデータ) (2021-04-27T17:12:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。