論文の概要: Training chord recognition models on artificially generated audio
- arxiv url: http://arxiv.org/abs/2508.05878v1
- Date: Thu, 07 Aug 2025 22:01:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-11 20:39:06.020981
- Title: Training chord recognition models on artificially generated audio
- Title(参考訳): 人工音声によるコード認識モデルの訓練
- Authors: Martyna Majchrzak, Jacek Mańdziuk,
- Abstract要約: 本研究では,2つのトランスフォーマーベースニューラルネットワークモデルを用いて,音声録音におけるコードシーケンス認識について比較した。
実験により、人工的に生成された音楽と人間の構成音楽の間には複雑さと構造の違いがあるにもかかわらず、前者は特定のシナリオで有用であることが証明された。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: One of the challenging problems in Music Information Retrieval is the acquisition of enough non-copyrighted audio recordings for model training and evaluation. This study compares two Transformer-based neural network models for chord sequence recognition in audio recordings and examines the effectiveness of using an artificially generated dataset for this purpose. The models are trained on various combinations of Artificial Audio Multitracks (AAM), Schubert's Winterreise Dataset, and the McGill Billboard Dataset and evaluated with three metrics: Root, MajMin and Chord Content Metric (CCM). The experiments prove that even though there are certainly differences in complexity and structure between artificially generated and human-composed music, the former can be useful in certain scenarios. Specifically, AAM can enrich a smaller training dataset of music composed by a human or can even be used as a standalone training set for a model that predicts chord sequences in pop music, if no other data is available.
- Abstract(参考訳): 音楽情報検索における課題の1つは、モデルトレーニングと評価のための十分な非コピーライトオーディオレコードの取得である。
本研究では,音声録音におけるコードシーケンス認識のためのトランスフォーマーベースニューラルネットワークモデル2つを比較し,この目的のために人工的に生成されたデータセットの有効性を検討する。
モデルは、Artificial Audio Multitracks (AAM)、Schubert's Winterreise Dataset、McGill Billboard Datasetの様々な組み合わせでトレーニングされ、Root、MagMin、Cord Content Metric (CCM)の3つのメトリクスで評価される。
実験により、人工的に生成した音楽と人間の構成した音楽の間には、明らかに複雑さと構造の違いがあるにもかかわらず、前者は特定のシナリオで有用であることが証明された。
具体的には、AAMは人間によって構成されるより小さな音楽のトレーニングデータセットを豊かにしたり、あるいは他のデータが得られない場合、ポップ音楽のコードシーケンスを予測するモデルのためのスタンドアロンのトレーニングセットとして使用することもできる。
関連論文リスト
- Automatic Identification of Samples in Hip-Hop Music via Multi-Loss Training and an Artificial Dataset [0.29998889086656577]
人工データセットでトレーニングされた畳み込みニューラルネットワークは、商用ヒップホップ音楽の実際のサンプルを識別できることを示す。
共同分類とメートル法学習損失を用いてモデルを最適化し,実世界のサンプリングの精度を13%向上することを示す。
論文 参考訳(メタデータ) (2025-02-10T11:30:35Z) - Naturalistic Music Decoding from EEG Data via Latent Diffusion Models [14.882764251306094]
本研究は,非侵襲的脳波データを用いて,高品質な音楽再生を実現するための最初の試みである。
我々は、パブリックなNMED-Tデータセットでモデルをトレーニングし、ニューラルネットワークベースのメトリクスを提案する定量的評価を行う。
論文 参考訳(メタデータ) (2024-05-15T03:26:01Z) - Self-Supervised Contrastive Learning for Robust Audio-Sheet Music
Retrieval Systems [3.997809845676912]
自己指導型コントラスト学習は、実際の音楽コンテンツからの注釈付きデータの不足を軽減することができることを示す。
クロスモーダルなピース識別の高レベルなタスクにスニペットを埋め込む。
本研究では,実際の音楽データが存在する場合,検索品質が30%から100%に向上することが観察された。
論文 参考訳(メタデータ) (2023-09-21T14:54:48Z) - MERT: Acoustic Music Understanding Model with Large-Scale Self-supervised Training [74.32603591331718]
本稿では,MLMスタイルの音響事前学習において,教師モデルと擬似ラベルを組み込んだ大規模自己教師型学習(MERT)を用いた音響音楽理解モデルを提案する。
実験結果から,本モデルでは14曲の楽曲理解タスクを一般化し,性能を向上し,SOTA(State-of-the-art)全体のスコアを達成できることが示唆された。
論文 参考訳(メタデータ) (2023-05-31T18:27:43Z) - Exploring the Efficacy of Pre-trained Checkpoints in Text-to-Music
Generation Task [86.72661027591394]
テキスト記述から完全で意味論的に一貫したシンボリック音楽の楽譜を生成する。
テキスト・音楽生成タスクにおける自然言語処理のための公開チェックポイントの有効性について検討する。
実験結果から, BLEUスコアと編集距離の類似性において, 事前学習によるチェックポイントの使用による改善が統計的に有意であることが示唆された。
論文 参考訳(メタデータ) (2022-11-21T07:19:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。