論文の概要: ERNIE-Music: Text-to-Waveform Music Generation with Diffusion Models
- arxiv url: http://arxiv.org/abs/2302.04456v2
- Date: Thu, 21 Sep 2023 09:30:00 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-22 19:55:26.297032
- Title: ERNIE-Music: Text-to-Waveform Music Generation with Diffusion Models
- Title(参考訳): ERNIE-Music:拡散モデルを用いたテキスト・波形音楽生成
- Authors: Pengfei Zhu, Chao Pang, Yekun Chai, Lei Li, Shuohuan Wang, Yu Sun, Hao
Tian, Hua Wu
- Abstract要約: 本稿では拡散モデルの利用を基盤としたテキストから波形への音楽生成モデルを提案する。
本手法は,波形生成プロセスの指針となる条件因子として,自由形式のテキストプロンプトの革新的導入を前提としている。
波形領域における我々の生成した音楽は、多様性、品質、およびテキスト音楽の関連性において、以前の作品よりも大きなマージンで優れていたことを実証する。
- 参考スコア(独自算出の注目度): 67.66825818489406
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In recent years, the burgeoning interest in diffusion models has led to
significant advances in image and speech generation. Nevertheless, the direct
synthesis of music waveforms from unrestricted textual prompts remains a
relatively underexplored domain. In response to this lacuna, this paper
introduces a pioneering contribution in the form of a text-to-waveform music
generation model, underpinned by the utilization of diffusion models. Our
methodology hinges on the innovative incorporation of free-form textual prompts
as conditional factors to guide the waveform generation process within the
diffusion model framework. Addressing the challenge of limited text-music
parallel data, we undertake the creation of a dataset by harnessing web
resources, a task facilitated by weak supervision techniques. Furthermore, a
rigorous empirical inquiry is undertaken to contrast the efficacy of two
distinct prompt formats for text conditioning, namely, music tags and
unconstrained textual descriptions. The outcomes of this comparative analysis
affirm the superior performance of our proposed model in terms of enhancing
text-music relevance. Finally, our work culminates in a demonstrative
exhibition of the excellent capabilities of our model in text-to-music
generation. We further demonstrate that our generated music in the waveform
domain outperforms previous works by a large margin in terms of diversity,
quality, and text-music relevance.
- Abstract(参考訳): 近年、拡散モデルへの関心が急速に高まり、画像と音声の生成が著しい進歩を遂げている。
それでも、制限のないテキストプロンプトから音楽波形を直接合成することは、比較的未探索の領域である。
そこで,本稿では,拡散モデルの利用を基盤としたテキストから波形への音楽生成モデルとして,先駆的な貢献を述べる。
本手法は, 拡散モデルにおける波形生成過程を導く条件因子として, 自由形式テキストプロンプトの革新的導入にかかっている。
限られたテキストと音楽の並列データの課題に対処し、弱い監督技術によって容易になるwebリソースを利用してデータセットの作成を行う。
さらに、厳密な経験的調査を行い、テキストコンディショニング、すなわち音楽タグと制約なしテキスト記述のための2つの異なるプロンプトフォーマットの有効性を対比した。
この比較分析の結果は,テキスト・音楽関連性の向上の観点から,提案モデルの優れた性能を裏付けるものである。
最後に,本研究は,テキストから音楽への生成におけるモデルの優れた能力の実証展示に結実する。
さらに、波形領域における我々の生成した音楽は、多様性、品質、およびテキスト音楽の関連性において、以前の作品よりもはるかに優れていることを示す。
関連論文リスト
- ExpGest: Expressive Speaker Generation Using Diffusion Model and Hybrid Audio-Text Guidance [11.207513771079705]
本稿では,テキストと音声情報を同期して表現力のあるフルボディジェスチャーを生成する新しいフレームワークExpGestを紹介する。
AdaINやワンホットの符号化法とは異なり、対向方向雑音を最適化するためのノイズ感情分類器を設計する。
我々は, ExpGestが, 最先端モデルと比較して, 話者の表現力, 自然な, 制御可能なグローバルな動きを実現することを示す。
論文 参考訳(メタデータ) (2024-10-12T07:01:17Z) - The Interpretation Gap in Text-to-Music Generation Models [1.2565093324944228]
本稿では,制御の表現,解釈,実行を含む音楽対話プロセスを記述する枠組みを提案する。
既存のテキスト-音楽モデルとミュージシャンの主なギャップは、モデルがミュージシャンの制御を解釈する能力に欠ける解釈段階にある、と我々は主張する。
論文 参考訳(メタデータ) (2024-07-14T20:51:08Z) - Contextualized Diffusion Models for Text-Guided Image and Video Generation [67.69171154637172]
条件拡散モデルは高忠実度テキスト誘導視覚生成および編集において優れた性能を示した。
本研究では,テキスト条件と視覚的サンプル間の相互作用とアライメントを包含するクロスモーダルコンテキストを組み込むことにより,コンテキスト拡散モデル(ContextDiff)を提案する。
理論的導出を伴うDDPMとDDIMの両方にモデルを一般化し、テキスト・ツー・イメージ生成とテキスト・ツー・ビデオ編集という2つの課題を伴う評価において、モデルの有効性を実証する。
論文 参考訳(メタデータ) (2024-02-26T15:01:16Z) - MusicMagus: Zero-Shot Text-to-Music Editing via Diffusion Models [24.582948932985726]
本稿では,テキスト・ツー・ミュージック・モデルによって生成される音楽の編集に対する新しいアプローチを提案する。
本手法は,テキスト編集をテキストテンプレート空間操作に変換するとともに,一貫性を強制する余分な制約を加える。
実験により, ゼロショットと特定の教師付きベースラインの双方に対して, スタイルおよび音色伝達評価において優れた性能を示した。
論文 参考訳(メタデータ) (2024-02-09T04:34:08Z) - StemGen: A music generation model that listens [9.489938613869864]
音楽の文脈に耳を傾けたり反応したりできる音楽生成モデルを作成するための代替パラダイムを提案する。
本稿では,非自己回帰型トランスフォーマーモデルアーキテクチャを用いて,そのようなモデルを構築する方法について述べる。
得られたモデルは、最先端のテキスト条件付きモデルの音質に到達し、その文脈と強い音楽的コヒーレンスを示す。
論文 参考訳(メタデータ) (2023-12-14T08:09:20Z) - A Survey on Audio Diffusion Models: Text To Speech Synthesis and
Enhancement in Generative AI [64.71397830291838]
生成AIは様々な分野で印象的な性能を示しており、音声合成は興味深い方向である。
拡散モデルを最も一般的な生成モデルとし、テキストから音声への拡張と音声への拡張という2つのアクティブなタスクを試みている。
本研究は,既存の調査を補完する音声拡散モデルに関する調査を行う。
論文 参考訳(メタデータ) (2023-03-23T15:17:15Z) - Text-to-image Diffusion Models in Generative AI: A Survey [86.11421833017693]
本調査は,テキストから画像を生成する際の拡散モデルの進展を概観する。
ビデオなどの様々なモダリティのためのテキスト誘導生成や、テキスト誘導画像編集など、画像生成以外の応用について論じる。
論文 参考訳(メタデータ) (2023-03-14T13:49:54Z) - Noise2Music: Text-conditioned Music Generation with Diffusion Models [73.74580231353684]
本研究では,テキストプロンプトから高品質な30秒音楽クリップを生成するために,一連の拡散モデルを訓練するNoss2Musicを紹介する。
生成した音声は、ジャンル、テンポ、楽器、ムード、時代など、テキストプロンプトの重要な要素を忠実に反映できるだけでなく、テキストプロンプトを忠実に反映できる。
トレーニングセットのオーディオのためにペア化されたテキストを生成し、拡散モデルによって取り込まれたテキストプロンプトの埋め込みを抽出するために使用される。
論文 参考訳(メタデータ) (2023-02-08T07:27:27Z) - Mo\^usai: Text-to-Music Generation with Long-Context Latent Diffusion [27.567536688166776]
我々はテキストから音楽への生成モデルを通じてテキストと音楽をブリッジする。
具体的には、テキスト記述から48kHzで高品質なステレオ音楽の複数分間を生成できるカスケード2段階潜時拡散モデルであるMousaiを開発する。
論文 参考訳(メタデータ) (2023-01-27T14:52:53Z) - Exploring the Efficacy of Pre-trained Checkpoints in Text-to-Music
Generation Task [86.72661027591394]
テキスト記述から完全で意味論的に一貫したシンボリック音楽の楽譜を生成する。
テキスト・音楽生成タスクにおける自然言語処理のための公開チェックポイントの有効性について検討する。
実験結果から, BLEUスコアと編集距離の類似性において, 事前学習によるチェックポイントの使用による改善が統計的に有意であることが示唆された。
論文 参考訳(メタデータ) (2022-11-21T07:19:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。