論文の概要: Do Music Generation Models Encode Music Theory?
- arxiv url: http://arxiv.org/abs/2410.00872v1
- Date: Tue, 1 Oct 2024 17:06:30 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-05 03:46:09.166636
- Title: Do Music Generation Models Encode Music Theory?
- Title(参考訳): 音楽生成モデルは音楽理論を符号化しているか?
- Authors: Megan Wei, Michael Freeman, Chris Donahue, Chen Sun,
- Abstract要約: テンポ、時間シグネチャ、音符、インターバル、スケール、コード、コード進行の概念からなる合成MIDIおよびオーディオ音楽理論のデータセットであるSynTheoryを紹介する。
次に,音楽基盤モデルにおけるこれらの音楽理論の概念を探索し,それらの概念が内部表現の中でいかに強くエンコードされているかを評価する枠組みを提案する。
以上の結果から,音楽理論の概念は基礎モデルにおいて識別可能であり,検出できる程度はモデルのサイズや層によって異なることが示唆された。
- 参考スコア(独自算出の注目度): 10.987131058422742
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Music foundation models possess impressive music generation capabilities. When people compose music, they may infuse their understanding of music into their work, by using notes and intervals to craft melodies, chords to build progressions, and tempo to create a rhythmic feel. To what extent is this true of music generation models? More specifically, are fundamental Western music theory concepts observable within the "inner workings" of these models? Recent work proposed leveraging latent audio representations from music generation models towards music information retrieval tasks (e.g. genre classification, emotion recognition), which suggests that high-level musical characteristics are encoded within these models. However, probing individual music theory concepts (e.g. tempo, pitch class, chord quality) remains under-explored. Thus, we introduce SynTheory, a synthetic MIDI and audio music theory dataset, consisting of tempos, time signatures, notes, intervals, scales, chords, and chord progressions concepts. We then propose a framework to probe for these music theory concepts in music foundation models (Jukebox and MusicGen) and assess how strongly they encode these concepts within their internal representations. Our findings suggest that music theory concepts are discernible within foundation models and that the degree to which they are detectable varies by model size and layer.
- Abstract(参考訳): 音楽ファンデーションモデルは印象的な音楽生成能力を持っている。
音楽を作曲する際には、音符とインターバルを使って旋律を作り、コードで進行を作らせ、テンポでリズムの感覚を創り出す。
これは音楽生成モデルにどの程度当てはまるのか?
より具体的には、基本西洋音楽理論の概念はこれらのモデルの「インナーワーク」の中で観測可能であるか?
近年の研究では、音楽生成モデルからの潜在音声表現を音楽情報検索タスク(例えばジャンル分類、感情認識)に活用することを提案し、これらのモデルにハイレベルな音楽特性が符号化されていることを示唆している。
しかし、個々の音楽理論の概念(例えばテンポ、ピッチクラス、コード品質)はいまだ探索されていない。
そこで我々は, テンポ, 時間署名, 音符, 間隔, 音階, 和音, コード進行, コード進行の概念からなるMIDIとオーディオ音楽理論の合成データセットであるSynTheoryを紹介する。
次に、音楽基礎モデル(JukeboxとMusicGen)におけるこれらの音楽理論の概念を探索し、それらの概念が内部表現の中でいかに強くエンコードされているかを評価する枠組みを提案する。
以上の結果から,音楽理論の概念は基礎モデルにおいて識別可能であり,検出できる程度はモデルのサイズや層によって異なることが示唆された。
関連論文リスト
- MusicFlow: Cascaded Flow Matching for Text Guided Music Generation [53.63948108922333]
MusicFlowは、フローマッチングに基づくケースドテキストから音楽への生成モデルである。
学習目的としてマスク予測を活用することで,音楽の充実や継続といった他のタスクにモデルを一般化することができる。
論文 参考訳(メタデータ) (2024-10-27T15:35:41Z) - Foundation Models for Music: A Survey [77.77088584651268]
ファンデーションモデル(FM)は音楽を含む様々な分野に大きな影響を与えている。
本総説では,音楽の事前学習モデルと基礎モデルについて概観する。
論文 参考訳(メタデータ) (2024-08-26T15:13:14Z) - MeLFusion: Synthesizing Music from Image and Language Cues using Diffusion Models [57.47799823804519]
私たちは、ミュージシャンが映画の脚本だけでなく、視覚化を通して音楽を作る方法にインスピレーションを受けています。
本稿では,テキスト記述と対応する画像からの手がかりを効果的に利用して音楽を合成するモデルであるMeLFusionを提案する。
音楽合成パイプラインに視覚情報を加えることで、生成した音楽の質が大幅に向上することを示す。
論文 参考訳(メタデータ) (2024-06-07T06:38:59Z) - MuPT: A Generative Symbolic Music Pretrained Transformer [56.09299510129221]
音楽の事前学習におけるLarge Language Models (LLM) の適用について検討する。
生成過程の異なるトラックからの不整合対策に関連する課題に対処するために,SMT-ABC Notation(Synchronized Multi-Track ABC Notation)を提案する。
私たちのコントリビューションには、最大8192個のトークンを処理可能な一連のモデルが含まれており、トレーニングセットの象徴的な音楽データの90%をカバーしています。
論文 参考訳(メタデータ) (2024-04-09T15:35:52Z) - Graph-based Polyphonic Multitrack Music Generation [9.701208207491879]
本稿では,音楽のための新しいグラフ表現と,音楽グラフの構造と内容を別々に生成する深部変分オートエンコーダを提案する。
音楽グラフの構造と内容を分離することにより、特定のタイミングでどの楽器が演奏されているかを指定することで条件生成が可能となる。
論文 参考訳(メタデータ) (2023-07-27T15:18:50Z) - A Dataset for Greek Traditional and Folk Music: Lyra [69.07390994897443]
本稿では,80時間程度で要約された1570曲を含むギリシャの伝統音楽と民俗音楽のデータセットについて述べる。
このデータセットにはYouTubeのタイムスタンプ付きリンクが組み込まれており、オーディオやビデオの検索や、インスツルメンテーション、地理、ジャンルに関する豊富なメタデータ情報が含まれている。
論文 参考訳(メタデータ) (2022-11-21T14:15:43Z) - Models of Music Cognition and Composition [0.0]
まず、音楽が認知科学者に関係している理由を動機付け、音楽認知の計算モデリングへのアプローチの概要を述べる。
次に,非コンピュータモデル,非認知モデル,計算認知モデルなど,音楽知覚の様々なモデルに関する文献をレビューする。
論文 参考訳(メタデータ) (2022-08-14T16:27:59Z) - MusicBERT: Symbolic Music Understanding with Large-Scale Pre-Training [97.91071692716406]
シンボリック・ミュージックの理解(シンボリック・ミュージックの理解)とは、シンボリック・データから音楽を理解することを指す。
MusicBERTは、音楽理解のための大規模な事前訓練モデルである。
論文 参考訳(メタデータ) (2021-06-10T10:13:05Z) - Music Embedding: A Tool for Incorporating Music Theory into
Computational Music Applications [0.3553493344868413]
音楽理論と簡潔な方法で音楽をデジタル的に表現することが重要である。
音楽理論の活用の観点からは、既存の音楽表現のアプローチは効果がない。
論文 参考訳(メタデータ) (2021-04-24T04:32:45Z) - Learning to Generate Music With Sentiment [1.8275108630751844]
本稿では,特定の感情で音楽を構成するための生成的深層学習モデルを提案する。
音楽生成の他に、シンボリック音楽の感情分析にも同じモデルを用いることができる。
論文 参考訳(メタデータ) (2021-03-09T03:16:52Z) - Using a Bi-directional LSTM Model with Attention Mechanism trained on
MIDI Data for Generating Unique Music [0.25559196081940677]
本稿では,MIDIデータに基づく類似音楽を生成するためのアテンション機構を備えた双方向LSTMモデルを提案する。
モデルが生成する音楽は、モデルがトレーニングする音楽のテーマ/スタイルに従う。
論文 参考訳(メタデータ) (2020-11-02T06:43:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。