論文の概要: Whole-Song Hierarchical Generation of Symbolic Music Using Cascaded Diffusion Models
- arxiv url: http://arxiv.org/abs/2405.09901v1
- Date: Thu, 16 May 2024 08:48:23 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-17 14:51:34.641272
- Title: Whole-Song Hierarchical Generation of Symbolic Music Using Cascaded Diffusion Models
- Title(参考訳): Cascaded Diffusion Model を用いた全音階層的シンボリック音楽の生成
- Authors: Ziyu Wang, Lejun Min, Gus Xia,
- Abstract要約: 我々は,作曲階層の実現の下で,完全な楽曲をモデル化する最初の試みを行う。
ハイレベル言語は全曲形式、フレーズ、ケイデンスを示し、低レベル言語は音符、和音、およびそれらの局所パターンに焦点を当てている。
実験と分析により,我々のモデルは,グローバルなヴァースコーラス構造とケイデンスを認識可能なフルピース音楽を生成することができることを示した。
- 参考スコア(独自算出の注目度): 5.736540322759929
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent deep music generation studies have put much emphasis on long-term generation with structures. However, we are yet to see high-quality, well-structured whole-song generation. In this paper, we make the first attempt to model a full music piece under the realization of compositional hierarchy. With a focus on symbolic representations of pop songs, we define a hierarchical language, in which each level of hierarchy focuses on the semantics and context dependency at a certain music scope. The high-level languages reveal whole-song form, phrase, and cadence, whereas the low-level languages focus on notes, chords, and their local patterns. A cascaded diffusion model is trained to model the hierarchical language, where each level is conditioned on its upper levels. Experiments and analysis show that our model is capable of generating full-piece music with recognizable global verse-chorus structure and cadences, and the music quality is higher than the baselines. Additionally, we show that the proposed model is controllable in a flexible way. By sampling from the interpretable hierarchical languages or adjusting pre-trained external representations, users can control the music flow via various features such as phrase harmonic structures, rhythmic patterns, and accompaniment texture.
- Abstract(参考訳): 近年のディープ・ミュージック・ジェネレーションの研究は、構造を持つ長期的な音楽制作に重点を置いている。
しかし、我々はまだ高品質でよく構造化された全曲の世代を見ていない。
本稿では,作曲階層を実現する上で,完全な楽曲をモデル化するための最初の試みを行う。
ポップソングの象徴的表現に焦点をあて、階層言語を定義し、各階層構造は特定の音楽範囲における意味論と文脈依存性に焦点をあてる。
ハイレベル言語は全曲形式、フレーズ、ケイデンスを示し、低レベル言語は音符、和音、およびそれらの局所パターンに焦点を当てている。
カスケード拡散モデルは階層言語をモデル化するために訓練され、各レベルはその上位レベルに条件付けられている。
実験と分析により,本モデルでは,グローバルなヴァースコーラス構造とケイデンスを認識可能なフルピース音楽の生成が可能であり,音楽の質がベースラインよりも高いことを示す。
さらに,提案手法は柔軟に制御可能であることを示す。
解釈可能な階層言語からサンプリングしたり、事前訓練された外部表現を調整することで、ユーザーはフレーズ調和構造、リズムパターン、伴奏テクスチャといった様々な特徴によって音楽の流れを制御できる。
関連論文リスト
- Musical Form Generation [0.0]
本稿では,任意の長さの楽曲を任意に生成する手法を提案する。
このアプローチの中心は、条件付き生成モデルを用いた音楽セグメントの作成である。
ハイレベルな構成を決定するプロンプトの生成は、より微細で低レベルな詳細の作成とは異なる。
論文 参考訳(メタデータ) (2023-10-30T08:02:08Z) - Syllable-level lyrics generation from melody exploiting character-level
language model [14.851295355381712]
シンボリック・メロディから音節レベルの歌詞を生成するための微調整文字レベル言語モデルを提案する。
特に,言語モデルの言語知識を音節レベルのトランスフォーマー生成ネットワークのビームサーチプロセスに組み込む手法を提案する。
論文 参考訳(メタデータ) (2023-10-02T02:53:29Z) - Graph-based Polyphonic Multitrack Music Generation [9.701208207491879]
本稿では,音楽のための新しいグラフ表現と,音楽グラフの構造と内容を別々に生成する深部変分オートエンコーダを提案する。
音楽グラフの構造と内容を分離することにより、特定のタイミングでどの楽器が演奏されているかを指定することで条件生成が可能となる。
論文 参考訳(メタデータ) (2023-07-27T15:18:50Z) - Simple and Controllable Music Generation [94.61958781346176]
MusicGenは単一の言語モデル(LM)であり、圧縮された離散的な音楽表現、すなわちトークンの複数のストリームで動作する。
以前の作業とは異なり、MusicGenはシングルステージのトランスフォーマーLMと効率的なトークンインターリービングパターンで構成されている。
論文 参考訳(メタデータ) (2023-06-08T15:31:05Z) - Unsupervised Melody-to-Lyric Generation [91.29447272400826]
本稿では,メロディ・歌詞データを学習することなく高品質な歌詞を生成する手法を提案する。
我々は、メロディと歌詞のセグメンテーションとリズムアライメントを利用して、与えられたメロディをデコード制約にコンパイルする。
我々のモデルは、強いベースラインよりもオントピー的、歌いやすく、知性があり、一貫性のある高品質な歌詞を生成することができる。
論文 参考訳(メタデータ) (2023-05-30T17:20:25Z) - Grokking of Hierarchical Structure in Vanilla Transformers [72.45375959893218]
トランスフォーマー言語モデルでは,極端に長い訓練期間を経て階層的に一般化できることが示される。
中間深度モデルは、非常に深い変圧器と非常に浅い変圧器の両方よりも良く一般化される。
論文 参考訳(メタデータ) (2023-05-30T04:34:13Z) - Unsupervised Melody-Guided Lyrics Generation [84.22469652275714]
メロディと歌詞の一致したデータを学習することなく、楽しく聴ける歌詞を生成することを提案する。
メロディと歌詞間の重要なアライメントを活用し、与えられたメロディを制約にコンパイルし、生成プロセスを導く。
論文 参考訳(メタデータ) (2023-05-12T20:57:20Z) - Noise2Music: Text-conditioned Music Generation with Diffusion Models [73.74580231353684]
本研究では,テキストプロンプトから高品質な30秒音楽クリップを生成するために,一連の拡散モデルを訓練するNoss2Musicを紹介する。
生成した音声は、ジャンル、テンポ、楽器、ムード、時代など、テキストプロンプトの重要な要素を忠実に反映できるだけでなく、テキストプロンプトを忠実に反映できる。
トレーニングセットのオーディオのためにペア化されたテキストを生成し、拡散モデルによって取り込まれたテキストプロンプトの埋め込みを抽出するために使用される。
論文 参考訳(メタデータ) (2023-02-08T07:27:27Z) - Re-creation of Creations: A New Paradigm for Lyric-to-Melody Generation [158.54649047794794]
Re-creation of Creations (ROC)は、歌詞からメロディ生成のための新しいパラダイムである。
ROCは、Lyric-to-Meody生成において、優れたLyric-Meody特徴アライメントを実現する。
論文 参考訳(メタデータ) (2022-08-11T08:44:47Z) - The Power of Reuse: A Multi-Scale Transformer Model for Structural
Dynamic Segmentation in Symbolic Music Generation [6.0949335132843965]
シンボリック・ミュージック・ジェネレーションは、生成モデルの文脈表現能力に依存している。
粗大デコーダと細小デコーダを用いて,グローバルおよびセクションレベルのコンテキストをモデル化するマルチスケールトランスフォーマを提案する。
本モデルは2つのオープンMIDIデータセットで評価され,実験により,同時代のシンボリック・ミュージック・ジェネレーション・モデルよりも優れた性能を示した。
論文 参考訳(メタデータ) (2022-05-17T18:48:14Z) - Controllable deep melody generation via hierarchical music structure
representation [14.891975420982511]
MusicFrameworksは階層的な音楽構造表現であり、フル長のメロディを作成するための多段階の生成プロセスである。
各フレーズでメロディを生成するために、2つの異なるトランスフォーマーベースネットワークを用いてリズムとベーシックメロディを生成する。
さまざまな曲をカスタマイズしたり追加したりするために、音楽フレームワークのコード、基本的なメロディ、リズム構造を変更して、それに応じてネットワークがメロディを生成する。
論文 参考訳(メタデータ) (2021-09-02T01:31:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。