論文の概要: Wavelet-Filtering of Symbolic Music Representations for Folk Tune Segmentation and Classification
- arxiv url: http://arxiv.org/abs/2504.20522v1
- Date: Tue, 29 Apr 2025 08:02:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-02 19:15:54.805159
- Title: Wavelet-Filtering of Symbolic Music Representations for Folk Tune Segmentation and Classification
- Title(参考訳): 民俗音節分割と分類のためのシンボリック音楽表現のウェーブレットフィルタリング
- Authors: Gissel Velarde, Tillman Weyde, David Meredith,
- Abstract要約: 本研究の目的は,民謡の記号表現を分類し,ハールウェーブレットフィルタリングを用いたチューンファミリーに分類する機械学習手法を評価することである。
連続ウェーブレット変換(CWT)をハールウェーブレットに特定のスケールで適用し、特定の時間スケールで情報を強調するメロディのフィルタ版を得る。
その結果,ピッチ信号のウェーブレットに基づくセグメンテーションとウェーブレットフィルタリングにより,時間スケールや他のパラメータが最適化された場合のクロスバリデーション評価において,分類精度が向上することが判明した。
- 参考スコア(独自算出の注目度): 2.4774640776820105
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The aim of this study is to evaluate a machine-learning method in which symbolic representations of folk songs are segmented and classified into tune families with Haar-wavelet filtering. The method is compared with previously proposed Gestalt-based method. Melodies are represented as discrete symbolic pitch-time signals. We apply the continuous wavelet transform (CWT) with the Haar wavelet at specific scales, obtaining filtered versions of melodies emphasizing their information at particular time-scales. We use the filtered signal for representation and segmentation, using the wavelet coefficients' local maxima to indicate local boundaries and classify segments by means of k-nearest neighbours based on standard vector-metrics (Euclidean, cityblock), and compare the results to a Gestalt-based segmentation method and metrics applied directly to the pitch signal. We found that the wavelet based segmentation and wavelet-filtering of the pitch signal lead to better classification accuracy in cross-validated evaluation when the time-scale and other parameters are optimized.
- Abstract(参考訳): 本研究の目的は,民謡の記号表現を分類し,ハールウェーブレットフィルタリングを用いたチューンファミリーに分類する機械学習手法を評価することである。
提案手法を従来提案していたゲシュタルト法と比較した。
メロディーは離散的なシンボリックピッチタイム信号として表現される。
連続ウェーブレット変換(CWT)をハールウェーブレットに特定のスケールで適用し、特定の時間スケールで情報を強調するメロディのフィルタ版を得る。
本研究では,このフィルタ信号を用いて局所的境界を示すウェーブレット係数の局所的最大値を用いて,標準ベクトルメトリック(ユークリッド,都市ブロック)に基づいて,局所的境界とセグメントの分類を行い,その結果をゲシュタルトに基づくセグメンテーション法およびピッチ信号に直接適用したメトリクスと比較する。
その結果,ピッチ信号のウェーブレットに基づくセグメンテーションとウェーブレットフィルタリングにより,時間スケールや他のパラメータが最適化された場合のクロスバリデーション評価において,分類精度が向上することが判明した。
関連論文リスト
- An approach to melodic segmentation and classification based on filtering with the Haar-wavelet [2.4774640776820105]
記号表現におけるメロディーの分類とセグメンテーションの新しい手法を提案する。
この方法はハールウェーブレットを用いた信号としてピッチをフィルタリングする。
オランダの民謡360曲を26曲に分類する際には、ピッチ信号に匹敵する。
論文 参考訳(メタデータ) (2025-04-29T14:41:03Z) - Review of wavelet-based unsupervised texture segmentation, advantage of adaptive wavelets [8.144703798082293]
経験的ウェーブレットの適応性は,従来のウェーブレットよりも優れた結果が得られることを示す。
提案手法は,一般的なテクスチャ画像に基づいて,6つの古典的ベンチマークで検証される。
論文 参考訳(メタデータ) (2024-10-24T22:48:28Z) - Decision Forest Based EMG Signal Classification with Low Volume Dataset
Augmented with Random Variance Gaussian Noise [51.76329821186873]
我々は6種類の手振りを限定的なサンプル数で分類できるモデルを作成し、より広い聴衆によく一般化する。
信号のランダムなバウンドの使用など、より基本的な手法のセットにアピールするが、これらの手法がオンライン環境で持てる力を示したいと考えている。
論文 参考訳(メタデータ) (2022-06-29T23:22:18Z) - Music Enhancement via Image Translation and Vocoding [14.356705444361832]
本稿では,低品質音楽録音の深層学習手法を提案する。
本稿では,メル-スペクトログラム表現における音声操作のイメージ・ツー・イメージ変換モデルと,合成したメル-スペクトログラムを知覚的に現実的な波形にマッピングする音楽ボコーディングモデルを組み合わせる。
メル-スペクトログラム逆変換の古典的手法と、ノイズ波形をクリーンな波形に直接マッピングするエンドツーエンドアプローチを用いて、この手法はベースラインよりも優れることがわかった。
論文 参考訳(メタデータ) (2022-04-28T05:00:07Z) - Speech segmentation using multilevel hybrid filters [0.0]
マルチレベルハイブリッド(平均/最小)フィルタ(MHF)に基づく音声分割の新しい手法を提案する。
提案手法はスペクトル変化に基づいて,音声を均質な音響セグメントに分割することを目的としている。
このアルゴリズムは、音声合成された音声コーダに使われ、良好な結果が得られている。
論文 参考訳(メタデータ) (2022-02-24T00:03:02Z) - WaveGrad: Estimating Gradients for Waveform Generation [55.405580817560754]
WaveGradは、データ密度の勾配を推定する波形生成の条件モデルである。
ガウスのホワイトノイズ信号から始まり、メル・スペクトログラムに条件付けされた勾配に基づくサンプリング器を通じて繰り返し信号の精製を行う。
6回の反復で高忠実度音声サンプルを生成できることが判明した。
論文 参考訳(メタデータ) (2020-09-02T17:44:10Z) - Change Point Detection in Time Series Data using Autoencoders with a
Time-Invariant Representation [69.34035527763916]
変化点検出(CPD)は、時系列データにおける急激な特性変化を見つけることを目的としている。
近年のCDD法は、深層学習技術を用いる可能性を示したが、信号の自己相関統計学におけるより微妙な変化を識別する能力に欠けることが多い。
我々は、新しい損失関数を持つオートエンコーダに基づく手法を用い、使用済みオートエンコーダは、CDDに適した部分的な時間不変表現を学習する。
論文 参考訳(メタデータ) (2020-08-21T15:03:21Z) - Learning Noise-Aware Encoder-Decoder from Noisy Labels by Alternating
Back-Propagation for Saliency Detection [54.98042023365694]
本稿では,ノイズを考慮したエンコーダ・デコーダ・フレームワークを提案する。
提案モデルはニューラルネットワークによってパラメータ化された2つのサブモデルから構成される。
論文 参考訳(メタデータ) (2020-07-23T18:47:36Z) - Localized Spectral Graph Filter Frames: A Unifying Framework, Survey of
Design Considerations, and Numerical Comparison (Extended Cut) [1.52292571922932]
グラフ上に存在するデータを、ビルディングブロック信号の線形結合として表現することで、データの効率的で洞察に富んだ視覚的あるいは統計的分析を可能にする。
我々は、局所スペクトルグラフフィルタフレームと呼ばれる特定の種類の辞書を調査した。
我々は,大きな疎グラフ上のデータに対して,結果の変換とその逆を確実に適用できる計算効率のよい手法を強調した。
論文 参考訳(メタデータ) (2020-06-19T16:49:33Z) - Offline detection of change-points in the mean for stationary graph
signals [55.98760097296213]
グラフ信号定常性の概念に依存するオフライン手法を提案する。
我々の検出器は、漸近的でない不等式オラクルの証拠を伴っている。
論文 参考訳(メタデータ) (2020-06-18T15:51:38Z) - Transforming Spectrum and Prosody for Emotional Voice Conversion with
Non-Parallel Training Data [91.92456020841438]
多くの研究は、実生活では実用的ではない異なる感情パターン間の並列音声データを必要とする。
非並列トレーニングデータから最適な擬似ペアを見つけるために,CycleGANネットワークを提案する。
また、連続ウェーブレット変換(CWT)を用いてF0を10時間スケールに分解し、異なる時間分解における音声韻律を記述する。
論文 参考訳(メタデータ) (2020-02-01T12:36:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。