論文の概要: Discovering "Words" in Music: Unsupervised Learning of Compositional Sparse Code for Symbolic Music
- arxiv url: http://arxiv.org/abs/2509.24603v1
- Date: Mon, 29 Sep 2025 11:10:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-30 22:32:19.933819
- Title: Discovering "Words" in Music: Unsupervised Learning of Compositional Sparse Code for Symbolic Music
- Title(参考訳): 音楽における「言葉」の発見:シンボリック音楽のための合成スパースコードの教師なし学習
- Authors: Tianle Wang, Sirui Zhang, Xinyi Tong, Peiyang Yu, Jishang Chen, Liangke Zhao, Xinpu Gao, Yves Zhu, Tiezheng Ge, Bo Zheng, Duo Xu, Yang Liu, Xin Jin, Feng Yu, Songchun Zhu,
- Abstract要約: 本稿では,記号的音楽データから「音楽単語」と呼ばれる繰り返しパターンを識別する教師なし機械学習アルゴリズムを提案する。
本稿では,音楽単語発見の課題を統計的最適化問題として定式化し,二段階予測最大化(EM)に基づく学習フレームワークを提案する。
- 参考スコア(独自算出の注目度): 50.87225308217594
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper presents an unsupervised machine learning algorithm that identifies recurring patterns -- referred to as ``music-words'' -- from symbolic music data. These patterns are fundamental to musical structure and reflect the cognitive processes involved in composition. However, extracting these patterns remains challenging because of the inherent semantic ambiguity in musical interpretation. We formulate the task of music-word discovery as a statistical optimization problem and propose a two-stage Expectation-Maximization (EM)-based learning framework: 1. Developing a music-word dictionary; 2. Reconstructing the music data. When evaluated against human expert annotations, the algorithm achieved an Intersection over Union (IoU) score of 0.61. Our findings indicate that minimizing code length effectively addresses semantic ambiguity, suggesting that human optimization of encoding systems shapes musical semantics. This approach enables computers to extract ``basic building blocks'' from music data, facilitating structural analysis and sparse encoding. The method has two primary applications. First, in AI music, it supports downstream tasks such as music generation, classification, style transfer, and improvisation. Second, in musicology, it provides a tool for analyzing compositional patterns and offers insights into the principle of minimal encoding across diverse musical styles and composers.
- Abstract(参考訳): 本稿では,記号的音楽データから「音楽語」と呼ばれる繰り返しパターンを識別する教師なし機械学習アルゴリズムを提案する。
これらのパターンは音楽構造の基本であり、構成に関わる認知過程を反映している。
しかし、これらのパターンを抽出することは、音楽解釈に固有の意味的曖昧さのため、依然として困難である。
統計的最適化問題として音楽単語発見の課題を定式化し、2段階予測最大化(EM)に基づく学習フレームワークを提案する。
1.音楽語辞書の作成
2.音楽データの再構成
人間の専門家のアノテーションに対して評価すると、このアルゴリズムはIoU(Intersection over Union)スコア0.61を達成した。
コード長の最小化は意味的あいまいさに効果的に対処し,人間の符号化システムの最適化が音楽的意味論を形作ることを示唆している。
このアプローチにより、コンピュータは音楽データから ``basic building block'' を抽出し、構造解析とスパース符号化を容易にする。
この方法には2つの主要な応用がある。
第一に、AI音楽では、音楽生成、分類、スタイル転送、即興化といった下流タスクをサポートする。
第二に、音楽学において、作曲パターンを分析するためのツールを提供し、様々な音楽スタイルや作曲家にまたがる最小のエンコーディングの原理に関する洞察を提供する。
関連論文リスト
- Towards an AI Musician: Synthesizing Sheet Music Problems for Musical Reasoning [69.78158549955384]
本稿では,ビートやインターバルをプログラム関数として扱うような,コア音楽理論のルールを扱う新しいアプローチを提案する。
このアプローチは、テキストと視覚の両方で検証可能な楽譜の質問を生成する。
SSMR-Benchの評価結果は,楽譜の解釈における重要な役割を浮き彫りにした。
論文 参考訳(メタデータ) (2025-09-04T09:42:17Z) - Towards Explainable and Interpretable Musical Difficulty Estimation: A Parameter-efficient Approach [49.2787113554916]
音楽コレクションの整理には曲の難易度を推定することが重要である。
シンボリックな音楽表現の難易度推定には説明可能な記述子を用いる。
ピアノレパートリーで評価したアプローチは,平均2乗誤差(MSE)が1.7。
論文 参考訳(メタデータ) (2024-08-01T11:23:42Z) - From Words to Music: A Study of Subword Tokenization Techniques in
Symbolic Music Generation [1.9188864062289432]
サブワードのトークン化は、Transformerベースのモデルを用いたテキストベースの自然言語処理タスクで広く成功している。
楽後トークン化方式にサブワードトークン化を適用し,より長い曲を同時に生成できることを見出した。
本研究は,サブワードのトークン化が記号的音楽生成の有望な手法であり,作曲に広範な影響を及ぼす可能性を示唆している。
論文 参考訳(メタデータ) (2023-04-18T12:46:12Z) - Pitchclass2vec: Symbolic Music Structure Segmentation with Chord
Embeddings [0.8701566919381222]
シンボリックコードアノテーションに基づく新しい楽曲セグメンテーション手法であるpitchclass2vecを提案する。
提案アルゴリズムは,Long-Short term memory(LSTM)ニューラルネットワークをベースとして,現場における記号コードアノテーションに基づく最先端技術より優れている。
論文 参考訳(メタデータ) (2023-03-24T10:23:15Z) - In-depth analysis of music structure as a text network [7.735597173716555]
音楽の基本的要素に着目し,自然言語としての音楽の観点から進化的ネットワークを構築する。
我々は,様々な時代の音楽の構造的差異を理解することを目指しており,より科学的に音楽を探究することができる。
論文 参考訳(メタデータ) (2023-03-21T08:39:56Z) - MusicBERT: Symbolic Music Understanding with Large-Scale Pre-Training [97.91071692716406]
シンボリック・ミュージックの理解(シンボリック・ミュージックの理解)とは、シンボリック・データから音楽を理解することを指す。
MusicBERTは、音楽理解のための大規模な事前訓練モデルである。
論文 参考訳(メタデータ) (2021-06-10T10:13:05Z) - Music Harmony Generation, through Deep Learning and Using a
Multi-Objective Evolutionary Algorithm [0.0]
本稿では,ポリフォニック音楽生成のための遺伝的多目的進化最適化アルゴリズムを提案する。
ゴールの1つは音楽の規則と規則であり、他の2つのゴール、例えば音楽の専門家や普通のリスナーのスコアとともに、最も最適な反応を得るために進化のサイクルに適合する。
その結果,提案手法は,聞き手を引き寄せながら文法に従う調和音とともに,所望のスタイルや長さの難易度と快適さを生み出すことができることがわかった。
論文 参考訳(メタデータ) (2021-02-16T05:05:54Z) - dMelodies: A Music Dataset for Disentanglement Learning [70.90415511736089]
我々は、研究者が様々な領域でアルゴリズムの有効性を実証するのに役立つ新しいシンボリック・ミュージック・データセットを提案する。
これはまた、音楽用に特別に設計されたアルゴリズムを評価する手段を提供する。
データセットは、遠絡学習のためのディープネットワークのトレーニングとテストに十分な大きさ(約13万データポイント)である。
論文 参考訳(メタデータ) (2020-07-29T19:20:07Z) - Music Gesture for Visual Sound Separation [121.36275456396075]
ミュージック・ジェスチャ(Music Gesture)は、音楽演奏時の演奏者の身体と指の動きを明示的にモデル化するキーポイントに基づく構造化表現である。
まず、コンテキスト対応グラフネットワークを用いて、視覚的コンテキストと身体力学を統合し、その後、身体の動きと対応する音声信号とを関連付けるために、音声-視覚融合モデルを適用する。
論文 参考訳(メタデータ) (2020-04-20T17:53:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。