論文の概要: ERNIE-Music: Text-to-Waveform Music Generation with Diffusion Models
- arxiv url: http://arxiv.org/abs/2302.04456v1
- Date: Thu, 9 Feb 2023 06:27:09 GMT
- ステータス: 処理完了
- システム内更新日: 2023-02-10 16:37:40.989441
- Title: ERNIE-Music: Text-to-Waveform Music Generation with Diffusion Models
- Title(参考訳): ERNIE-Music:拡散モデルを用いたテキスト・波形音楽生成
- Authors: Pengfei Zhu, Chao Pang, Shuohuan Wang, Yekun Chai, Yu Sun, Hao Tian,
Hua Wu
- Abstract要約: 拡散モデルを用いて任意のテキストを受信できる最初のテキスト-波形音楽生成モデルを提案する。
インターネットからテキストと音楽のペアのデータセットを収集します。
波形領域で生成された音楽は、多様性、品質、およびテキスト・音楽の関連性において、これまでの作品よりも大幅に優れていた。
- 参考スコア(独自算出の注目度): 54.94478011644999
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In recent years, there has been an increased popularity in image and speech
generation using diffusion models. However, directly generating music waveforms
from free-form text prompts is still under-explored. In this paper, we propose
the first text-to-waveform music generation model that can receive arbitrary
texts using diffusion models. We incorporate the free-form textual prompt as
the condition to guide the waveform generation process of diffusion models. To
solve the problem of lacking such text-music parallel data, we collect a
dataset of text-music pairs from the Internet with weak supervision. Besides,
we compare the effect of two prompt formats of conditioning texts (music tags
and free-form texts) and prove the superior performance of our method in terms
of text-music relevance. We further demonstrate that our generated music in the
waveform domain outperforms previous works by a large margin in terms of
diversity, quality, and text-music relevance.
- Abstract(参考訳): 近年,拡散モデルを用いた画像生成や音声生成が盛んに行われている。
しかし、自由形式のテキストプロンプトから直接音楽波形を生成することは、まだ未定である。
本稿では,拡散モデルを用いて任意のテキストを受信できる最初のテキスト・波形音楽生成モデルを提案する。
拡散モデルの波形生成過程を導出する条件として,自由形式のテキストプロンプトを組み込む。
このようなテキスト・音楽並列データの欠如を解決するため,インターネットからテキスト・音楽ペアのデータセットを弱監督下で収集する。
さらに,2つの条件付きテキスト(音楽タグと自由形式テキスト)の効果を比較し,テキスト関連性の観点から,本手法の優れた性能を証明した。
さらに、波形領域における我々の生成した音楽は、多様性、品質、およびテキスト音楽の関連性において、以前の作品よりもはるかに優れていることを示す。
関連論文リスト
- ExpGest: Expressive Speaker Generation Using Diffusion Model and Hybrid Audio-Text Guidance [11.207513771079705]
本稿では,テキストと音声情報を同期して表現力のあるフルボディジェスチャーを生成する新しいフレームワークExpGestを紹介する。
AdaINやワンホットの符号化法とは異なり、対向方向雑音を最適化するためのノイズ感情分類器を設計する。
我々は, ExpGestが, 最先端モデルと比較して, 話者の表現力, 自然な, 制御可能なグローバルな動きを実現することを示す。
論文 参考訳(メタデータ) (2024-10-12T07:01:17Z) - The Interpretation Gap in Text-to-Music Generation Models [1.2565093324944228]
本稿では,制御の表現,解釈,実行を含む音楽対話プロセスを記述する枠組みを提案する。
既存のテキスト-音楽モデルとミュージシャンの主なギャップは、モデルがミュージシャンの制御を解釈する能力に欠ける解釈段階にある、と我々は主張する。
論文 参考訳(メタデータ) (2024-07-14T20:51:08Z) - Contextualized Diffusion Models for Text-Guided Image and Video Generation [67.69171154637172]
条件拡散モデルは高忠実度テキスト誘導視覚生成および編集において優れた性能を示した。
本研究では,テキスト条件と視覚的サンプル間の相互作用とアライメントを包含するクロスモーダルコンテキストを組み込むことにより,コンテキスト拡散モデル(ContextDiff)を提案する。
理論的導出を伴うDDPMとDDIMの両方にモデルを一般化し、テキスト・ツー・イメージ生成とテキスト・ツー・ビデオ編集という2つの課題を伴う評価において、モデルの有効性を実証する。
論文 参考訳(メタデータ) (2024-02-26T15:01:16Z) - MusicMagus: Zero-Shot Text-to-Music Editing via Diffusion Models [24.582948932985726]
本稿では,テキスト・ツー・ミュージック・モデルによって生成される音楽の編集に対する新しいアプローチを提案する。
本手法は,テキスト編集をテキストテンプレート空間操作に変換するとともに,一貫性を強制する余分な制約を加える。
実験により, ゼロショットと特定の教師付きベースラインの双方に対して, スタイルおよび音色伝達評価において優れた性能を示した。
論文 参考訳(メタデータ) (2024-02-09T04:34:08Z) - StemGen: A music generation model that listens [9.489938613869864]
音楽の文脈に耳を傾けたり反応したりできる音楽生成モデルを作成するための代替パラダイムを提案する。
本稿では,非自己回帰型トランスフォーマーモデルアーキテクチャを用いて,そのようなモデルを構築する方法について述べる。
得られたモデルは、最先端のテキスト条件付きモデルの音質に到達し、その文脈と強い音楽的コヒーレンスを示す。
論文 参考訳(メタデータ) (2023-12-14T08:09:20Z) - A Survey on Audio Diffusion Models: Text To Speech Synthesis and
Enhancement in Generative AI [64.71397830291838]
生成AIは様々な分野で印象的な性能を示しており、音声合成は興味深い方向である。
拡散モデルを最も一般的な生成モデルとし、テキストから音声への拡張と音声への拡張という2つのアクティブなタスクを試みている。
本研究は,既存の調査を補完する音声拡散モデルに関する調査を行う。
論文 参考訳(メタデータ) (2023-03-23T15:17:15Z) - Text-to-image Diffusion Models in Generative AI: A Survey [86.11421833017693]
本調査は,テキストから画像を生成する際の拡散モデルの進展を概観する。
ビデオなどの様々なモダリティのためのテキスト誘導生成や、テキスト誘導画像編集など、画像生成以外の応用について論じる。
論文 参考訳(メタデータ) (2023-03-14T13:49:54Z) - Noise2Music: Text-conditioned Music Generation with Diffusion Models [73.74580231353684]
本研究では,テキストプロンプトから高品質な30秒音楽クリップを生成するために,一連の拡散モデルを訓練するNoss2Musicを紹介する。
生成した音声は、ジャンル、テンポ、楽器、ムード、時代など、テキストプロンプトの重要な要素を忠実に反映できるだけでなく、テキストプロンプトを忠実に反映できる。
トレーニングセットのオーディオのためにペア化されたテキストを生成し、拡散モデルによって取り込まれたテキストプロンプトの埋め込みを抽出するために使用される。
論文 参考訳(メタデータ) (2023-02-08T07:27:27Z) - Mo\^usai: Text-to-Music Generation with Long-Context Latent Diffusion [27.567536688166776]
我々はテキストから音楽への生成モデルを通じてテキストと音楽をブリッジする。
具体的には、テキスト記述から48kHzで高品質なステレオ音楽の複数分間を生成できるカスケード2段階潜時拡散モデルであるMousaiを開発する。
論文 参考訳(メタデータ) (2023-01-27T14:52:53Z) - Exploring the Efficacy of Pre-trained Checkpoints in Text-to-Music
Generation Task [86.72661027591394]
テキスト記述から完全で意味論的に一貫したシンボリック音楽の楽譜を生成する。
テキスト・音楽生成タスクにおける自然言語処理のための公開チェックポイントの有効性について検討する。
実験結果から, BLEUスコアと編集距離の類似性において, 事前学習によるチェックポイントの使用による改善が統計的に有意であることが示唆された。
論文 参考訳(メタデータ) (2022-11-21T07:19:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。