論文の概要: SINGER: Vivid Audio-driven Singing Video Generation with Multi-scale Spectral Diffusion Model
- arxiv url: http://arxiv.org/abs/2412.03430v1
- Date: Wed, 04 Dec 2024 16:19:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-05 15:09:05.688465
- Title: SINGER: Vivid Audio-driven Singing Video Generation with Multi-scale Spectral Diffusion Model
- Title(参考訳): SINGER:マルチスケールスペクトル拡散モデルによるオーディオ駆動歌唱映像の可視化
- Authors: Yan Li, Ziya Zhou, Zhiqiang Wang, Wei Xue, Wenhan Luo, Yike Guo,
- Abstract要約: 歌声ビデオ生成は 未発見のままです
高品質な現実世界の歌声フェースビデオの欠如は、歌声ビデオ生成コミュニティの発展を妨げている。
SINGERは、鮮やかな歌唱ビデオを生成し、客観的評価と主観評価の両方において最先端の手法より優れている。
- 参考スコア(独自算出の注目度): 33.998989929228514
- License:
- Abstract: Recent advancements in generative models have significantly enhanced talking face video generation, yet singing video generation remains underexplored. The differences between human talking and singing limit the performance of existing talking face video generation models when applied to singing. The fundamental differences between talking and singing-specifically in audio characteristics and behavioral expressions-limit the effectiveness of existing models. We observe that the differences between singing and talking audios manifest in terms of frequency and amplitude. To address this, we have designed a multi-scale spectral module to help the model learn singing patterns in the spectral domain. Additionally, we develop a spectral-filtering module that aids the model in learning the human behaviors associated with singing audio. These two modules are integrated into the diffusion model to enhance singing video generation performance, resulting in our proposed model, SINGER. Furthermore, the lack of high-quality real-world singing face videos has hindered the development of the singing video generation community. To address this gap, we have collected an in-the-wild audio-visual singing dataset to facilitate research in this area. Our experiments demonstrate that SINGER is capable of generating vivid singing videos and outperforms state-of-the-art methods in both objective and subjective evaluations.
- Abstract(参考訳): 生成モデルの最近の進歩は、音声音声生成を著しく向上させたが、歌唱ビデオ生成は未解明のままである。
人間の話し声と歌声の違いは、歌唱に適用した場合に既存の話し声ビデオ生成モデルの性能を制限する。
音声特性と行動表現における発声と歌唱の基本的な相違は,既存のモデルの有効性を制限している。
歌声と話し声の違いが周波数と振幅で表されるのを観察する。
そこで我々は,モデルがスペクトル領域の歌唱パターンを学習するのを支援するために,マルチスケールのスペクトルモジュールを設計した。
さらに,歌唱音声に関連する人間の行動の学習を支援するスペクトルフィルタリングモジュールを開発した。
これら2つのモジュールを拡散モデルに統合し,歌唱ビデオ生成性能を向上させることにより,提案モデルであるSINGERを提案する。
さらに、高品質な現実世界の歌声フェースビデオの欠如は、歌声ビデオ生成コミュニティの発展を妨げている。
このギャップに対処するため、我々は、この領域の研究を容易にするために、現在進行中の音声視覚歌唱データセットを収集した。
実験により,SINGERは鮮やかな歌唱ビデオを生成することができ,客観的および主観的評価において最先端の手法より優れることが示された。
関連論文リスト
- SongCreator: Lyrics-based Universal Song Generation [53.248473603201916]
SongCreatorは、声楽と伴奏の両方で曲を生成するという課題に取り組むために設計された曲生成システムである。
モデルには2つの新しいデザインがある: ボーカルの情報と伴奏を収録するための巧妙に設計された二重系列言語モデル (M) と、DSLMのための一連の注意マスク戦略である。
実験では,8つのタスクすべてに対して,最先端ないし競争的なパフォーマンスを実現することにより,SongCreatorの有効性を示す。
論文 参考訳(メタデータ) (2024-09-09T19:37:07Z) - Seeing and Hearing: Open-domain Visual-Audio Generation with Diffusion
Latent Aligners [69.70590867769408]
ビデオとオーディオのコンテンツ制作は、映画産業とプロのユーザーにとって重要な技術である。
既存の拡散に基づく手法は、ビデオと音声を別々に生成する。
本研究では,このギャップを埋めることを目的として,クロス・ビジュアル・オーディオとジョイント・ヴィジュアル・オーディオ生成のためのフレームワークを慎重に設計した。
論文 参考訳(メタデータ) (2024-02-27T17:57:04Z) - StyleSinger: Style Transfer for Out-of-Domain Singing Voice Synthesis [63.18764165357298]
ドメイン外歌唱音声合成(SVS)のためのスタイル転送は、目に見えないスタイルで高品質な歌唱音声を生成することに焦点を当てている。
StyleSingerは、ドメイン外参照音声サンプルのゼロショットスタイル転送のための最初の歌声合成モデルである。
ゼロショット・スタイル・トランスファーにおける評価は、StyleSingerが基準歌唱音声サンプルの音質と類似性の両方でベースライン・モデルより優れていることを不確実に証明している。
論文 参考訳(メタデータ) (2023-12-17T15:26:16Z) - MBTFNet: Multi-Band Temporal-Frequency Neural Network For Singing Voice
Enhancement [8.782080886602145]
歌声強調のための新しい時間周波数ニューラルネットワーク(MBTFNet)を提案する。
MBTFNetは、バックグラウンド音楽、ノイズ、さらにはボーカルを歌唱録音から削除する。
実験により,提案モデルがいくつかの最先端SEモデルとMSSモデルより有意に優れていることが示された。
論文 参考訳(メタデータ) (2023-10-06T16:44:47Z) - HiddenSinger: High-Quality Singing Voice Synthesis via Neural Audio
Codec and Latent Diffusion Models [25.966328901566815]
ニューラルオーディオと潜時拡散モデルを用いた高品質な歌声合成システムHiddenSingerを提案する。
さらに,提案手法を教師なし音声学習フレームワークであるHiddenSinger-Uに拡張し,モデルを訓練する。
実験結果から,従来のモデルよりも音質が優れていたことが示唆された。
論文 参考訳(メタデータ) (2023-06-12T01:21:41Z) - Speech Driven Video Editing via an Audio-Conditioned Diffusion Model [1.6763474728913939]
本稿では,デノナイズ拡散モデルを用いたエンドツーエンド音声駆動ビデオ編集手法を提案する。
音声メルスペクトル特徴量にデノナイジング拡散モデルを適用して、顔の動きを同期させることにより、これを実現できることを示す。
我々の知る限りでは、音声駆動ビデオ編集のタスクにエンド・ツー・エンド・エンド・デノナイズ・ディノナイズ・ディフュージョン・モデルの適用可能性を実証し、検証する最初の試みである。
論文 参考訳(メタデータ) (2023-01-10T12:01:20Z) - Diffused Heads: Diffusion Models Beat GANs on Talking-Face Generation [54.68893964373141]
顔の生成は、これまで、追加の参照ビデオからのガイダンスなしで、頭の動きや自然な表情を作り出すのに苦労してきた。
拡散に基づく生成モデルの最近の発展は、より現実的で安定したデータ合成を可能にする。
本稿では,現実的な人間の頭部の映像を生成するために,1つのアイデンティティ画像と音声シーケンスのみを必要とする自己回帰拡散モデルを提案する。
論文 参考訳(メタデータ) (2023-01-06T14:16:54Z) - VocaLiST: An Audio-Visual Synchronisation Model for Lips and Voices [4.167459103689587]
人間の顔と声を含むビデオにおける唇声の同期の問題に対処する。
我々のアプローチは、ビデオ中の唇の動きと声が同期しているかどうかを判断することに基づいている。
本稿では,複数のベースラインモデルより優れた音響-視覚間変換器モデルを提案する。
論文 参考訳(メタデータ) (2022-04-05T10:02:39Z) - Unsupervised Cross-Domain Singing Voice Conversion [105.1021715879586]
任意の同一性から音声変換を行うタスクに対して,wav-to-wav生成モデルを提案する。
提案手法は,自動音声認識のタスクのために訓練された音響モデルとメロディ抽出機能の両方を用いて波形ベースジェネレータを駆動する。
論文 参考訳(メタデータ) (2020-08-06T18:29:11Z) - Adversarially Trained Multi-Singer Sequence-To-Sequence Singing
Synthesizer [11.598416444452619]
我々は、異なる歌手の既存の歌唱データを全て活用するマルチシンガー・フレームワークを設計する。
我々は、エンコーダ出力が歌手依存を減らすために、シンガー分類の逆タスクを組み込んだ。
提案するシンセサイザーはベースラインよりも高品質な歌唱音声を生成することができる。
論文 参考訳(メタデータ) (2020-06-18T07:20:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。