論文の概要: Extract fundamental frequency based on CNN combined with PYIN
- arxiv url: http://arxiv.org/abs/2208.08354v1
- Date: Wed, 17 Aug 2022 15:34:54 GMT
- ステータス: 処理完了
- システム内更新日: 2022-08-18 13:38:19.708997
- Title: Extract fundamental frequency based on CNN combined with PYIN
- Title(参考訳): CNNとPYINを組み合わせた基本周波数の抽出
- Authors: Ruowei Xing, Shengchen Li
- Abstract要約: PYINは、トレーニングされたCNNモデルから抽出されたF0を補足して、これらの2つのアルゴリズムの利点を組み合わせる。
2つのヴァイオリンによって演奏される4つのピースを使用し、抽出されたF0曲線の平坦度に応じてモデルの性能を評価する。
- 参考スコア(独自算出の注目度): 5.837881923712393
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper refers to the extraction of multiple fundamental frequencies
(multiple F0) based on PYIN, an algorithm for extracting the fundamental
frequency (F0) of monophonic music, and a trained convolutional neural networks
(CNN) model, where a pitch salience function of the input signal is produced to
estimate the multiple F0. The implementation of these two algorithms and their
corresponding advantages and disadvantages are discussed in this article.
Analysing the different performance of these two methods, PYIN is applied to
supplement the F0 extracted from the trained CNN model to combine the
advantages of these two algorithms. For evaluation, four pieces played by two
violins are used, and the performance of the models are evaluated accoring to
the flatness of the F0 curve extracted. The result shows the combined model
outperforms the original algorithms when extracting F0 from monophonic music
and polyphonic music.
- Abstract(参考訳): 本稿では、PYINに基づく複数の基本周波数(多重F0)の抽出、モノラル音楽の基本周波数(F0)を抽出するアルゴリズム、および入力信号のピッチセージェンス関数を生成して複数のF0を推定する訓練された畳み込みニューラルネットワーク(CNN)モデルについて述べる。
本稿では,これら2つのアルゴリズムの実装とその利点とデメリットについて述べる。
これら2つの手法の異なる性能を解析し、PYINを用いてトレーニングされたCNNモデルから抽出したF0を補足し、これらの2つのアルゴリズムの利点を組み合わせる。
評価には、2つのバイオリンが演奏する4曲を使用し、抽出したf0曲線の平坦性に合わせてモデルの性能を評価する。
その結果,単音素音楽とポリフォニック音楽からf0を抽出する際に,合成モデルが元のアルゴリズムを上回ったことを示す。
関連論文リスト
- Deepfake Audio Detection Using Spectrogram-based Feature and Ensemble of Deep Learning Models [42.39774323584976]
本稿では,ディープフェイク音声検出作業のためのディープラーニングベースシステムを提案する。
特に、ドロー入力オーディオは、まず様々なスペクトログラムに変換される。
我々は、Whisper、Seamless、Speechbrain、Pyannoteといった最先端のオーディオ事前訓練モデルを利用して、オーディオ埋め込みを抽出する。
論文 参考訳(メタデータ) (2024-07-01T20:10:43Z) - Transform Once: Efficient Operator Learning in Frequency Domain [69.74509540521397]
本研究では、周波数領域の構造を利用して、空間や時間における長距離相関を効率的に学習するために設計されたディープニューラルネットワークについて検討する。
この研究は、単一変換による周波数領域学習のための青写真を導入している。
論文 参考訳(メタデータ) (2022-11-26T01:56:05Z) - Semantic Similarity Computing Model Based on Multi Model Fine-Grained
Nonlinear Fusion [30.71123144365683]
本稿では, テキストの意味をグローバルな視点から把握するために, マルチモデル非線形融合に基づく新しいモデルを提案する。
このモデルは、音声の一部に基づくジャカード係数、TF-IDF(Term Frequency-Inverse Document Frequency)およびWord2vec-CNNアルゴリズムを用いて、文の類似度を測定する。
実験の結果,複数モデルの非線形融合に基づく文類似度計算手法のマッチングは84%,モデルのF1値は75%であった。
論文 参考訳(メタデータ) (2022-02-05T03:12:37Z) - Win the Lottery Ticket via Fourier Analysis: Frequencies Guided Network
Pruning [50.232218214751455]
最適ネットワークプルーニングは、数学的にはNPハード問題である非自明なタスクである。
本稿では,MBP(Magnitude-Based Pruning)方式について検討し,新しい視点から解析する。
また,新たな2段階プルーニング手法を提案し,その1段階はプルーニングネットワークのトポロジ的構造を取得し,もう1段階はプルーニングネットワークを再訓練し,キャパシティを回復させる。
論文 参考訳(メタデータ) (2022-01-30T03:42:36Z) - Learning Frequency Domain Approximation for Binary Neural Networks [68.79904499480025]
フーリエ周波数領域における符号関数の勾配を正弦関数の組み合わせを用いて推定し,BNNの訓練を行う。
いくつかのベンチマークデータセットとニューラルネットワークの実験により、この手法で学習したバイナリネットワークが最先端の精度を達成することが示されている。
論文 参考訳(メタデータ) (2021-03-01T08:25:26Z) - Connecting Weighted Automata, Tensor Networks and Recurrent Neural
Networks through Spectral Learning [58.14930566993063]
我々は、形式言語と言語学からの重み付き有限オートマトン(WFA)、機械学習で使用されるリカレントニューラルネットワーク、テンソルネットワークの3つのモデル間の接続を提示する。
本稿では,連続ベクトル入力の列上に定義された線形2-RNNに対する最初の証明可能な学習アルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-10-19T15:28:00Z) - Fast accuracy estimation of deep learning based multi-class musical
source separation [79.10962538141445]
本稿では,ニューラルネットワークのトレーニングやチューニングを行うことなく,任意のデータセットにおける楽器の分離性を評価する手法を提案する。
理想的な比マスクを持つオラクルの原理に基づいて、我々の手法は最先端のディープラーニング手法の分離性能を推定するための優れたプロキシである。
論文 参考訳(メタデータ) (2020-10-19T13:05:08Z) - Multiple F0 Estimation in Vocal Ensembles using Convolutional Neural
Networks [7.088324036549911]
本稿では、畳み込みニューラルネットワーク(CNN)を用いたポリフォニックとカペラの発声性能から複数のF0値の抽出について述べる。
入力信号のピッチサリエンス関数を生成するために,既存のアーキテクチャを構築した。
トレーニングのために、F0アノテーション付きボーカル四重奏団の複数トラックデータセットからなるデータセットを構築した。
論文 参考訳(メタデータ) (2020-09-09T09:11:49Z) - Score-informed Networks for Music Performance Assessment [64.12728872707446]
MPAモデルにスコア情報を組み込んだディープニューラルネットワークに基づく手法はまだ研究されていない。
スコアインフォームド性能評価が可能な3つのモデルを提案する。
論文 参考訳(メタデータ) (2020-08-01T07:46:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。