論文の概要: Barwise Section Boundary Detection in Symbolic Music Using Convolutional Neural Networks
- arxiv url: http://arxiv.org/abs/2509.16566v1
- Date: Sat, 20 Sep 2025 07:52:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-23 18:58:15.86444
- Title: Barwise Section Boundary Detection in Symbolic Music Using Convolutional Neural Networks
- Title(参考訳): 畳み込みニューラルネットワークを用いたシンボリック音楽のバーワイズ境界検出
- Authors: Omar Eldeeb, Martin Malandro,
- Abstract要約: セクション境界検出のための人手によるMIDIデータセットを提案する。
第2に、固定長の音楽窓におけるセクション境界の存在を分類するために、深層学習モデルを訓練する。
本モデルではF1スコアの0.77を達成し,類似した音声に基づく教師あり学習手法を改良した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Current methods for Music Structure Analysis (MSA) focus primarily on audio data. While symbolic music can be synthesized into audio and analyzed using existing MSA techniques, such an approach does not exploit symbolic music's rich explicit representation of pitch, timing, and instrumentation. A key subproblem of MSA is section boundary detection-determining whether a given point in time marks the transition between musical sections. In this paper, we study automatic section boundary detection for symbolic music. First, we introduce a human-annotated MIDI dataset for section boundary detection, consisting of metadata from 6134 MIDI files that we manually curated from the Lakh MIDI dataset. Second, we train a deep learning model to classify the presence of section boundaries within a fixed-length musical window. Our data representation involves a novel encoding scheme based on synthesized overtones to encode arbitrary MIDI instrumentations into 3-channel piano rolls. Our model achieves an F1 score of 0.77, improving over the analogous audio-based supervised learning approach and the unsupervised block-matching segmentation (CBM) audio approach by 0.22 and 0.31, respectively. We release our dataset, code, and models.
- Abstract(参考訳): 音楽構造解析(MSA)の現在の手法は、主に音声データに焦点を当てている。
シンボリック音楽は音声に合成され、既存のMSA技術を用いて分析されるが、このようなアプローチは、シンボリック音楽のピッチ、タイミング、楽器表現の豊かな明示的表現を活用できない。
MSAの鍵となるサブプロブレムは、時間内の所定の点が楽節間の遷移を示すかどうかを判断する区間境界検出である。
本稿では,記号音楽における区間境界の自動検出について検討する。
まず,Lakh MIDIデータセットから手作業でキュレートした6134MIDIファイルのメタデータからなる,セクション境界検出のための人手によるMIDIデータセットを提案する。
第2に、固定長の音楽窓におけるセクション境界の存在を分類するために、深層学習モデルを訓練する。
我々のデータ表現は、任意のMIDIインスツルメンテーションを3チャンネルピアノロールにエンコードする合成オーバトーンに基づく新しい符号化方式を含む。
本モデルはF1スコアの0.77を達成し、類似の音声に基づく教師あり学習アプローチと、教師なしブロックマッチングセグメンテーション(CBM)オーディオアプローチをそれぞれ0.22と0.31に改善する。
データセット、コード、モデルをリリースします。
関連論文リスト
- RUMAA: Repeat-Aware Unified Music Audio Analysis for Score-Performance Alignment, Transcription, and Mistake Detection [17.45655063331199]
RUMAAは、音楽パフォーマンス分析のためのトランスフォーマーベースのフレームワークである。
スコア・ツー・パフォーマンス・アライメント、スコア・インフォームド・書き起こし、ミス検出をほぼエンドツーエンドで統一する。
論文 参考訳(メタデータ) (2025-07-16T12:13:13Z) - Aria-MIDI: A Dataset of Piano MIDI Files for Symbolic Music Modeling [1.3812010983144802]
ピアノ演奏の録音を音符に書き起こして作成したMIDIファイルのデータセットについて紹介する。
私たちが使っているデータパイプラインはマルチステージで、インターネットから自律的にクロールしてオーディオ録音をスコアする言語モデルを採用しています。
得られたデータセットには100万以上の異なるMIDIファイルが含まれており、約10万時間の音声が書き起こされている。
論文 参考訳(メタデータ) (2025-04-21T12:59:40Z) - Toward a More Complete OMR Solution [49.74172035862698]
光音楽認識は、音楽の表記をデジタル形式に変換することを目的としている。
OMRに取り組む1つのアプローチは、画像内の視覚音楽の表記要素を最初に検出するマルチステージパイプラインである。
YOLOv8に基づく音楽オブジェクト検出器を導入し,検出性能を向上する。
第2に、検出出力に基づいて記法組立段階を完了する教師付きトレーニングパイプラインを導入する。
論文 参考訳(メタデータ) (2024-08-31T01:09:12Z) - MuPT: A Generative Symbolic Music Pretrained Transformer [56.09299510129221]
音楽の事前学習におけるLarge Language Models (LLM) の適用について検討する。
生成過程の異なるトラックからの不整合対策に関連する課題に対処するために,SMT-ABC Notation(Synchronized Multi-Track ABC Notation)を提案する。
私たちのコントリビューションには、最大8192個のトークンを処理可能な一連のモデルが含まれており、トレーニングセットの象徴的な音楽データの90%をカバーしています。
論文 参考訳(メタデータ) (2024-04-09T15:35:52Z) - Simple and Controllable Music Generation [94.61958781346176]
MusicGenは単一の言語モデル(LM)であり、圧縮された離散的な音楽表現、すなわちトークンの複数のストリームで動作する。
以前の作業とは異なり、MusicGenはシングルステージのトランスフォーマーLMと効率的なトークンインターリービングパターンで構成されている。
論文 参考訳(メタデータ) (2023-06-08T15:31:05Z) - Symbolic Music Structure Analysis with Graph Representations and
Changepoint Detection Methods [1.1677169430445211]
シンボリック音楽の形式や構造を,ノルム,G-PELT,G-Windowの3つの手法を提案する。
我々は,記号曲をグラフ表現で符号化し,隣接行列の斬新さを計算することで,記号曲の構造をうまく表現できることを発見した。
論文 参考訳(メタデータ) (2023-03-24T09:45:11Z) - Multi-instrument Music Synthesis with Spectrogram Diffusion [19.81982315173444]
我々は、MIDIシーケンスから任意の組み合わせの楽器をリアルタイムで生成できるニューラルシンセサイザーの中盤に焦点を当てる。
MIDIはエンコーダ・デコーダ変換器でスペクトログラム、次いでGAN(Generative Adversarial Network)スペクトルインバータでスペクトログラムからオーディオへ分光する。
これは、楽器と音符の任意の組み合わせのための対話的で表現力のあるニューラルシンセシスに向けた、有望な第一歩である。
論文 参考訳(メタデータ) (2022-06-11T03:26:15Z) - Differential Music: Automated Music Generation Using LSTM Networks with
Representation Based on Melodic and Harmonic Intervals [0.0]
本稿では,LSTMネットワークを用いた自動作曲のための生成AIモデルを提案する。
絶対的なピッチではなく音楽の動きに基づく音楽情報の符号化に新しいアプローチをとる。
実験結果は、音楽やトーンを聴くと約束を示す。
論文 参考訳(メタデータ) (2021-08-23T23:51:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。