論文の概要: HarmoF0: Logarithmic Scale Dilated Convolution For Pitch Estimation
- arxiv url: http://arxiv.org/abs/2205.01019v1
- Date: Mon, 2 May 2022 16:45:20 GMT
- ステータス: 処理完了
- システム内更新日: 2022-05-03 16:01:36.083637
- Title: HarmoF0: Logarithmic Scale Dilated Convolution For Pitch Estimation
- Title(参考訳): HarmoF0: ピッチ推定のための対数スケール拡張畳み込み
- Authors: Weixing Wei, Peilin Li, Yi Yu, Wei Li
- Abstract要約: 本稿では,多重レート拡張因果畳み込み法(MRDC-Conv)を導入し,対数スケールスペクトログラムの高調波構造を効率的に捉える。
ピッチ推定においてMRDC-Convと他の拡張畳み込みを評価するために,完全畳み込みネットワークであるHarmoF0を提案する。
その結果、このモデルはDeepF0より優れ、3つのデータセットで最先端のパフォーマンスが得られ、同時に90%以上のパラメータが減少することがわかった。
- 参考スコア(独自算出の注目度): 7.5089093564620155
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Sounds, especially music, contain various harmonic components scattered in
the frequency dimension. It is difficult for normal convolutional neural
networks to observe these overtones. This paper introduces a multiple rates
dilated causal convolution (MRDC-Conv) method to capture the harmonic structure
in logarithmic scale spectrograms efficiently. The harmonic is helpful for
pitch estimation, which is important for many sound processing applications. We
propose HarmoF0, a fully convolutional network, to evaluate the MRDC-Conv and
other dilated convolutions in pitch estimation. The results show that this
model outperforms the DeepF0, yields state-of-the-art performance in three
datasets, and simultaneously reduces more than 90% parameters. We also find
that it has stronger noise resistance and fewer octave errors.
- Abstract(参考訳): 音、特に音楽は、周波数次元に散在する様々な調和成分を含む。
通常の畳み込みニューラルネットワークではこれらのオーバートンを観測することは困難である。
本稿では,多重レート拡張因果畳み込み法(MRDC-Conv)を導入し,対数スケールスペクトログラムの高調波構造を効率的に捉える。
この高調波はピッチ推定に役立ち、多くの音処理応用において重要である。
ピッチ推定においてMRDC-Convと他の拡張畳み込みを評価するために,完全畳み込みネットワークであるHarmoF0を提案する。
その結果、このモデルはDeepF0より優れ、3つのデータセットで最先端のパフォーマンスが得られ、同時に90%以上のパラメータが減少することがわかった。
また、ノイズ耐性が強く、オクターブ誤差が少ないことも判明した。
関連論文リスト
- Blind Estimation of Sub-band Acoustic Parameters from Ambisonics Recordings using Spectro-Spatial Covariance Features [10.480691005356967]
10個の周波数帯域にわたる残響時間(T60)、直接残響率(DRR)、明瞭度(C50)を盲目的に推定する統合フレームワークを提案する。
提案フレームワークは, 時間, スペクトル, およびFOA信号の空間情報を効率的に表現する, Spectro-Spatial Co Vector (SSCV) と呼ばれる新しい特徴を利用する。
論文 参考訳(メタデータ) (2024-11-05T15:20:23Z) - Sine, Transient, Noise Neural Modeling of Piano Notes [0.0]
3つのサブモジュールはピアノ録音からコンポーネントを学び、ハーモニック、トランジェント、ノイズ信号を生成する。
特異点から、三弦の異なる鍵と畳み込みに基づくネットワークとの結合をエミュレートする。
その結果、モデルがターゲットの部分分布と一致し、スペクトルの上部のエネルギーがより多くの課題をもたらすことを予測した。
論文 参考訳(メタデータ) (2024-09-10T13:48:18Z) - Transform Once: Efficient Operator Learning in Frequency Domain [69.74509540521397]
本研究では、周波数領域の構造を利用して、空間や時間における長距離相関を効率的に学習するために設計されたディープニューラルネットワークについて検討する。
この研究は、単一変換による周波数領域学習のための青写真を導入している。
論文 参考訳(メタデータ) (2022-11-26T01:56:05Z) - NAF: Neural Attenuation Fields for Sparse-View CBCT Reconstruction [79.13750275141139]
本稿では,スパースビューCBCT再構成のための新規かつ高速な自己教師型ソリューションを提案する。
所望の減衰係数は、3次元空間座標の連続関数として表現され、完全に接続されたディープニューラルネットワークによってパラメータ化される。
ハッシュ符号化を含む学習ベースのエンコーダが採用され、ネットワークが高周波の詳細をキャプチャするのに役立つ。
論文 参考訳(メタデータ) (2022-09-29T04:06:00Z) - SpecGrad: Diffusion Probabilistic Model based Neural Vocoder with
Adaptive Noise Spectral Shaping [51.698273019061645]
SpecGradは拡散雑音に適応し、その時間変化スペクトル包絡が条件付き対数メル分光器に近づく。
時間周波数領域で処理され、計算コストは従来のDDPMベースのニューラルボコーダとほぼ同じである。
論文 参考訳(メタデータ) (2022-03-31T02:08:27Z) - Scaling Structured Inference with Randomization [64.18063627155128]
本稿では、構造化されたモデルを数万の潜在状態に拡張するためにランダム化された動的プログラミング(RDP)のファミリを提案する。
我々の手法は古典的DPベースの推論に広く適用できる。
また、自動微分とも互換性があり、ニューラルネットワークとシームレスに統合できる。
論文 参考訳(メタデータ) (2021-12-07T11:26:41Z) - Learning Frequency Domain Approximation for Binary Neural Networks [68.79904499480025]
フーリエ周波数領域における符号関数の勾配を正弦関数の組み合わせを用いて推定し,BNNの訓練を行う。
いくつかのベンチマークデータセットとニューラルネットワークの実験により、この手法で学習したバイナリネットワークが最先端の精度を達成することが示されている。
論文 参考訳(メタデータ) (2021-03-01T08:25:26Z) - DEEPF0: End-To-End Fundamental Frequency Estimation for Music and Speech
Signals [11.939409227407769]
DeepF0と呼ばれる新しいピッチ推定手法を提案する。
利用可能な注釈付きデータを活用して、データ駆動方式で生のオーディオから直接学習する。
論文 参考訳(メタデータ) (2021-02-11T23:11:22Z) - Conditioning Trick for Training Stable GANs [70.15099665710336]
本稿では,GANトレーニング中の不安定性問題に対応するため,ジェネレータネットワークに正規性から逸脱する条件付け手法を提案する。
我々は、生成元をシュア分解のスペクトル領域で計算された実サンプルの正規化関数から逸脱するように強制する。
論文 参考訳(メタデータ) (2020-10-12T16:50:22Z) - Multiple F0 Estimation in Vocal Ensembles using Convolutional Neural
Networks [7.088324036549911]
本稿では、畳み込みニューラルネットワーク(CNN)を用いたポリフォニックとカペラの発声性能から複数のF0値の抽出について述べる。
入力信号のピッチサリエンス関数を生成するために,既存のアーキテクチャを構築した。
トレーニングのために、F0アノテーション付きボーカル四重奏団の複数トラックデータセットからなるデータセットを構築した。
論文 参考訳(メタデータ) (2020-09-09T09:11:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。