論文の概要: Melody Is All You Need For Music Generation
- arxiv url: http://arxiv.org/abs/2409.20196v3
- Date: Mon, 25 Nov 2024 13:43:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-26 14:14:13.485667
- Title: Melody Is All You Need For Music Generation
- Title(参考訳): 音楽のジェネレーションに必要なメロディー
- Authors: Shaopeng Wei, Manzhen Wei, Haoyu Wang, Yu Zhao, Gang Kou,
- Abstract要約: 本稿では,メロディを用いたテキスト・ツー・ミュージック・ジェネレーションの新たなアプローチであるメロディ・ガイドド・ミュージック・ジェネレーション(MG2)モデルを提案する。
提案したMG2モデルは、既存のオープンソースのテキストから音楽への生成モデルを超え、パラメータの1/3未満とトレーニングデータの1/200未満を活用している。
- 参考スコア(独自算出の注目度): 10.366088659024685
- License:
- Abstract: We present the Melody Guided Music Generation (MG2) model, a novel approach using melody to guide the text-to-music generation that, despite a pretty simple method and extremely limited resources, achieves excellent performance. Specifically, we first align the text with audio waveforms and their associated melodies using the newly proposed Contrastive Language-Music Pretraining, enabling the learned text representation fused with implicit melody information. Subsequently, we condition the retrieval-augmented diffusion module on both text prompt and retrieved melody. This allows MG2to generate music that reflects the content of the given text description, meantime keeping the intrinsic harmony under the guidance of explicit melody information. We conducted extensive experiments on two public datasets: MusicCaps and MusicBench. The experimental results demonstrate that the proposed MG2 model surpasses current open-source text-to-music generation models, utilizing fewer than 1/3 of the parameters and less than 1/200 of the training data compared to state-of-the-art counterparts. Furthermore, we carried out comprehensive human evaluations to explore the potential applications of MG2 in real-world scenarios.
- Abstract(参考訳): 本稿では,メロディを用いたメロディ・ガイドド・ミュージック・ジェネレーション(MG2)モデルを提案する。
具体的には、新たに提案したContrastive Language-Music Pretrainingを用いて、まずテキストを音声波形とその関連するメロディと整列させ、暗黙のメロディ情報と融合した学習テキスト表現を可能にする。
その後、テキストプロンプトと検索メロディの両方に対して、検索拡張拡散モジュールを条件付けする。
これにより、MG2は与えられたテキスト記述の内容を反映した音楽を生成することができ、一方、固有の調和は明示的なメロディ情報のガイダンスの下で維持される。
我々は、MusicCapsとMusicBenchの2つの公開データセットについて広範な実験を行った。
実験により,提案したMG2モデルは現行のオープンソーステキスト・音楽生成モデルを超え,パラメータの1/3未満,トレーニングデータの1/200未満を利用できた。
さらに,実世界のシナリオにおけるMG2の応用の可能性を探るため,包括的人間評価を行った。
関連論文リスト
- SongGLM: Lyric-to-Melody Generation with 2D Alignment Encoding and Multi-Task Pre-Training [7.3026780262967685]
SongGLMは2次元アライメント符号化とマルチタスク事前学習を利用する歌詞からメロディ生成システムである。
我々は,20万曲以上の英曲を事前学習と微調整に用いた大規模歌詞・旋律ペアデータセットを構築した。
論文 参考訳(メタデータ) (2024-12-24T02:30:07Z) - MeLFusion: Synthesizing Music from Image and Language Cues using Diffusion Models [57.47799823804519]
私たちは、ミュージシャンが映画の脚本だけでなく、視覚化を通して音楽を作る方法にインスピレーションを受けています。
本稿では,テキスト記述と対応する画像からの手がかりを効果的に利用して音楽を合成するモデルであるMeLFusionを提案する。
音楽合成パイプラインに視覚情報を加えることで、生成した音楽の質が大幅に向上することを示す。
論文 参考訳(メタデータ) (2024-06-07T06:38:59Z) - LOAF-M2L: Joint Learning of Wording and Formatting for Singable Melody-to-Lyric Generation [7.102743887290909]
本稿では,メロディ・トゥ・リリック・トレーニングにおいて,歌いやすい歌詞を生成するための新たなアプローチにより,歌いやすさのギャップを埋める。
一般ドメイン事前訓練後,提案手法はテキストのみの大規模歌詞コーパスから長さ認識を得る。
次に,メロディと歌詞の関係に関する音楽学的研究から,メロディから歌詞への訓練において,モデルがメロディの詳細な形式要件を学習できるようにする新たな目的を提案する。
論文 参考訳(メタデータ) (2023-07-05T09:42:47Z) - Controllable Lyrics-to-Melody Generation [14.15838552524433]
ユーザは好みの音楽スタイルで歌詞からリアルなメロディを生成できる、制御可能な歌詞・メロディ生成ネットワークであるConL2Mを提案する。
本研究は,音楽属性の依存関係を複数のシーケンスをまたいでモデル化するため,マルチブランチスタック型LSTMアーキテクチャ間の情報フローを実現するためにメモリ間融合(Memofu)を提案し,参照スタイル埋め込み(RSE)を提案し,生成したメロディの音楽スタイルを制御し,シーケンスレベルの統計的損失(SeqLoss)をモデルがシーケンスレベルを学習するのに役立つように提案した。
論文 参考訳(メタデータ) (2023-06-05T06:14:08Z) - Unsupervised Melody-to-Lyric Generation [91.29447272400826]
本稿では,メロディ・歌詞データを学習することなく高品質な歌詞を生成する手法を提案する。
我々は、メロディと歌詞のセグメンテーションとリズムアライメントを利用して、与えられたメロディをデコード制約にコンパイルする。
我々のモデルは、強いベースラインよりもオントピー的、歌いやすく、知性があり、一貫性のある高品質な歌詞を生成することができる。
論文 参考訳(メタデータ) (2023-05-30T17:20:25Z) - Unsupervised Melody-Guided Lyrics Generation [84.22469652275714]
メロディと歌詞の一致したデータを学習することなく、楽しく聴ける歌詞を生成することを提案する。
メロディと歌詞間の重要なアライメントを活用し、与えられたメロディを制約にコンパイルし、生成プロセスを導く。
論文 参考訳(メタデータ) (2023-05-12T20:57:20Z) - Noise2Music: Text-conditioned Music Generation with Diffusion Models [73.74580231353684]
本研究では,テキストプロンプトから高品質な30秒音楽クリップを生成するために,一連の拡散モデルを訓練するNoss2Musicを紹介する。
生成した音声は、ジャンル、テンポ、楽器、ムード、時代など、テキストプロンプトの重要な要素を忠実に反映できるだけでなく、テキストプロンプトを忠実に反映できる。
トレーニングセットのオーディオのためにペア化されたテキストを生成し、拡散モデルによって取り込まれたテキストプロンプトの埋め込みを抽出するために使用される。
論文 参考訳(メタデータ) (2023-02-08T07:27:27Z) - Re-creation of Creations: A New Paradigm for Lyric-to-Melody Generation [158.54649047794794]
Re-creation of Creations (ROC)は、歌詞からメロディ生成のための新しいパラダイムである。
ROCは、Lyric-to-Meody生成において、優れたLyric-Meody特徴アライメントを実現する。
論文 参考訳(メタデータ) (2022-08-11T08:44:47Z) - TeleMelody: Lyric-to-Melody Generation with a Template-Based Two-Stage
Method [92.36505210982648]
TeleMelody(テレメロディ)は、音楽テンプレートを備えた2段階の歌詞からメロディ生成システムである。
高品質で、制御性が良く、ペアリングされた歌詞・メロディデータに対する要求も少ないメロディを生成する。
論文 参考訳(メタデータ) (2021-09-20T15:19:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。