論文の概要: DEEPF0: End-To-End Fundamental Frequency Estimation for Music and Speech
Signals
- arxiv url: http://arxiv.org/abs/2102.06306v1
- Date: Thu, 11 Feb 2021 23:11:22 GMT
- ステータス: 処理完了
- システム内更新日: 2021-02-15 13:15:12.619746
- Title: DEEPF0: End-To-End Fundamental Frequency Estimation for Music and Speech
Signals
- Title(参考訳): DEEPF0:音楽信号と音声信号の基本周波数推定
- Authors: Satwinder Singh, Ruili Wang, Yuanhang Qiu
- Abstract要約: DeepF0と呼ばれる新しいピッチ推定手法を提案する。
利用可能な注釈付きデータを活用して、データ駆動方式で生のオーディオから直接学習する。
- 参考スコア(独自算出の注目度): 11.939409227407769
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We propose a novel pitch estimation technique called DeepF0, which leverages
the available annotated data to directly learns from the raw audio in a
data-driven manner. F0 estimation is important in various speech processing and
music information retrieval applications. Existing deep learning models for
pitch estimations have relatively limited learning capabilities due to their
shallow receptive field. The proposed model addresses this issue by extending
the receptive field of a network by introducing the dilated convolutional
blocks into the network. The dilation factor increases the network receptive
field exponentially without increasing the parameters of the model
exponentially. To make the training process more efficient and faster, DeepF0
is augmented with residual blocks with residual connections. Our empirical
evaluation demonstrates that the proposed model outperforms the baselines in
terms of raw pitch accuracy and raw chroma accuracy even using 77.4% fewer
network parameters. We also show that our model can capture reasonably well
pitch estimation even under the various levels of accompaniment noise.
- Abstract(参考訳): 我々は、利用可能な注釈付きデータを利用して、生音声から直接データ駆動で学習する、DeepF0と呼ばれる新しいピッチ推定手法を提案する。
f0推定は様々な音声処理や音楽情報検索において重要である。
ピッチ推定のための既存のディープラーニングモデルは、浅い受容領域のために比較的限られた学習能力を有する。
提案モデルは,拡張畳み込みブロックをネットワークに導入することにより,ネットワークの受容領域を拡張することでこの問題に対処する。
拡張係数は、モデルパラメータを指数関数的に増加させることなく、ネットワーク受容場を指数関数的に増加させる。
トレーニングプロセスをより効率的かつ高速にするために、deepf0は、残留接続を持つ残留ブロックで拡張される。
本実験では,77.4%少ないネットワークパラメータを用いても,生ピッチ精度と生クロマ精度でベースラインを上回っていることを実証した。
また, 種々の伴奏雑音の下でも, 適切なピッチ推定が可能であることを示す。
関連論文リスト
- Bayesian Deep Learning for Remaining Useful Life Estimation via Stein
Variational Gradient Descent [14.784809634505903]
本研究では,スタイン変分勾配勾配を用いたベイズ学習モデルが収束速度と予測性能に対して一貫して優れていたことを示す。
ベイズモデルが提供する不確実性情報に基づく性能向上手法を提案する。
論文 参考訳(メタデータ) (2024-02-02T02:21:06Z) - Parallel and Limited Data Voice Conversion Using Stochastic Variational
Deep Kernel Learning [2.5782420501870296]
本稿では,限られたデータを扱う音声変換手法を提案する。
変分深層学習(SVDKL)に基づく。
非滑らかでより複雑な関数を推定することができる。
論文 参考訳(メタデータ) (2023-09-08T16:32:47Z) - Simple Pooling Front-ends For Efficient Audio Classification [56.59107110017436]
入力音声特徴量における時間的冗長性を排除することは,効率的な音声分類に有効な方法である可能性が示唆された。
本稿では、単純な非パラメトリックプーリング操作を用いて冗長な情報を削減する単純なプールフロントエンド(SimPFs)のファミリーを提案する。
SimPFは、市販オーディオニューラルネットワークの浮動小数点演算数の半数以上を削減できる。
論文 参考訳(メタデータ) (2022-10-03T14:00:41Z) - Learning Summary Statistics for Bayesian Inference with Autoencoders [58.720142291102135]
我々は,ディープニューラルネットワークに基づくオートエンコーダの内部次元を要約統計として利用する。
パラメータ関連情報を全て符号化するエンコーダのインセンティブを作成するため,トレーニングデータの生成に使用した暗黙的情報にデコーダがアクセスできるようにする。
論文 参考訳(メタデータ) (2022-01-28T12:00:31Z) - Self-supervised Audiovisual Representation Learning for Remote Sensing Data [96.23611272637943]
遠隔センシングにおける深層ニューラルネットワークの事前学習のための自己教師型アプローチを提案する。
ジオタグ付きオーディオ記録とリモートセンシングの対応を利用して、これは完全にラベルなしの方法で行われる。
提案手法は,既存のリモートセンシング画像の事前学習方法よりも優れていることを示す。
論文 参考訳(メタデータ) (2021-08-02T07:50:50Z) - SignalNet: A Low Resolution Sinusoid Decomposition and Estimation
Network [79.04274563889548]
本稿では,正弦波数を検出するニューラルネットワークアーキテクチャであるSignalNetを提案する。
基礎となるデータ分布と比較して,ネットワークの結果を比較するための最悪の学習しきい値を導入する。
シミュレーションでは、我々のアルゴリズムは常に3ビットデータのしきい値を超えることができるが、しばしば1ビットデータのしきい値を超えることはできない。
論文 参考訳(メタデータ) (2021-06-10T04:21:20Z) - High-Fidelity and Low-Latency Universal Neural Vocoder based on
Multiband WaveRNN with Data-Driven Linear Prediction for Discrete Waveform
Modeling [38.828260316517536]
本稿では、離散波形モデリング(MWDLP)のためのデータ駆動線形予測を用いたマルチバンドWaveRNNに基づく新しいユニバーサルニューラルネットワークボコーダフレームワークを提案する。
提案したMWDLPフレームワークは、クリーンでノイズの多い残響条件を含む300人の話者のトレーニングデータに対して、見知らぬ話者や/または言語に対して高忠実な合成音声を生成することを示す。
論文 参考訳(メタデータ) (2021-05-20T16:02:45Z) - Fast accuracy estimation of deep learning based multi-class musical
source separation [79.10962538141445]
本稿では,ニューラルネットワークのトレーニングやチューニングを行うことなく,任意のデータセットにおける楽器の分離性を評価する手法を提案する。
理想的な比マスクを持つオラクルの原理に基づいて、我々の手法は最先端のディープラーニング手法の分離性能を推定するための優れたプロキシである。
論文 参考訳(メタデータ) (2020-10-19T13:05:08Z) - Ensemble Wrapper Subsampling for Deep Modulation Classification [70.91089216571035]
受信した無線信号のサブサンプリングは、ハードウェア要件と信号処理アルゴリズムの計算コストを緩和するために重要である。
本稿では,無線通信システムにおけるディープラーニングを用いた自動変調分類のためのサブサンプリング手法を提案する。
論文 参考訳(メタデータ) (2020-05-10T06:11:13Z) - Single Channel Speech Enhancement Using Temporal Convolutional Recurrent
Neural Networks [23.88788382262305]
時間畳み込みリカレントネットワーク(TCRN)は、ノイズ波形を直接クリーン波形にマッピングするエンドツーエンドモデルである。
既存の畳み込みリカレントネットワークと比較して,本モデルではモデルの性能を向上させることができることを示す。
論文 参考訳(メタデータ) (2020-02-02T04:26:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。