論文の概要: FCPE: A Fast Context-based Pitch Estimation Model
- arxiv url: http://arxiv.org/abs/2509.15140v1
- Date: Thu, 18 Sep 2025 16:50:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-19 17:26:53.342357
- Title: FCPE: A Fast Context-based Pitch Estimation Model
- Title(参考訳): FCPE: 高速文脈に基づくピッチ推定モデル
- Authors: Yuxin Luo, Ruoyi Zhang, Lu-Chuan Liu, Tianyu Li, Hangyu Liu,
- Abstract要約: 本稿では,低計算コストと頑健な耐雑音性を維持しつつ,メルスペクトルの特徴を捉える高速な文脈ベースピッチ推定モデルを提案する。
実験の結果,MIR-1Kデータセット上で96.79%のRAW Pitch Accuracy(RPA)が達成された。
- 参考スコア(独自算出の注目度): 10.788664167503676
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Pitch estimation (PE) in monophonic audio is crucial for MIDI transcription and singing voice conversion (SVC), but existing methods suffer significant performance degradation under noise. In this paper, we propose FCPE, a fast context-based pitch estimation model that employs a Lynx-Net architecture with depth-wise separable convolutions to effectively capture mel spectrogram features while maintaining low computational cost and robust noise tolerance. Experiments show that our method achieves 96.79\% Raw Pitch Accuracy (RPA) on the MIR-1K dataset, on par with the state-of-the-art methods. The Real-Time Factor (RTF) is 0.0062 on a single RTX 4090 GPU, which significantly outperforms existing algorithms in efficiency. Code is available at https://github.com/CNChTu/FCPE.
- Abstract(参考訳): モノフォニックオーディオにおけるピッチ推定(PE)はMIDI文字起こしと歌唱音声変換(SVC)に不可欠であるが,既存の手法ではノイズによる性能劣化が著しい。
本稿では,低計算コストと頑健な雑音耐性を維持しつつ,メルスペクトルの特徴を効果的に捉えるために,深度的に分離可能な畳み込みを備えたLynx-Netアーキテクチャを用いた高速文脈ベースピッチ推定モデルFCPEを提案する。
実験の結果,MIR-1Kデータセット上で96.79\%のRAW Pitch Accuracy(RPA)が得られた。
Real-Time Factor (RTF)は単一のRTX 4090 GPU上で0.0062であり、既存のアルゴリズムの効率を大幅に上回っている。
コードはhttps://github.com/CNChTu/FCPEで入手できる。
関連論文リスト
- SwiftF0: Fast and Accurate Monophonic Pitch Detection [2.8766374696553823]
単声ピッチ推定のための新しい最先端技術を設定する,新しい軽量ニューラルモデルであるemphSwiftF0を提案する。
SwiftF0は、計算効率を維持しながら、アコースティックドメイン全体の堅牢な一般化を実現する。
論文 参考訳(メタデータ) (2025-08-25T19:39:20Z) - Boundary-aware Decoupled Flow Networks for Realistic Extreme Rescaling [49.215957313126324]
Invertible rescaling Network (IRN) やgenerative adversarial Network (GAN) などを含む最近の生成手法は、画像再スケーリングにおいて例外的な性能を示した。
しかし、IRNベースの手法は過度に滑らかな結果を生成する傾向にあり、一方、GANベースの手法は偽の細部を容易に生成する。
本稿では,現実的かつ視覚的に満足な結果を生成するために,境界対応デカップリングフローネットワーク(BDFlow)を提案する。
論文 参考訳(メタデータ) (2024-05-05T14:05:33Z) - CFDP: Common Frequency Domain Pruning [0.3021678014343889]
本稿では,周波数領域を経由したモデルプルーニングのための新しいエンドツーエンドパイプラインを提案する。
我々はCIFAR-10で、GoogLeNetが95.25%、すなわちオリジナルのモデルから+0.2%の精度で達成した。
特筆すべきパフォーマンスに加えて、CFDPによって生成されたモデルは、様々な構成に対して堅牢性を示す。
論文 参考訳(メタデータ) (2023-06-07T04:49:26Z) - Simple Pooling Front-ends For Efficient Audio Classification [56.59107110017436]
入力音声特徴量における時間的冗長性を排除することは,効率的な音声分類に有効な方法である可能性が示唆された。
本稿では、単純な非パラメトリックプーリング操作を用いて冗長な情報を削減する単純なプールフロントエンド(SimPFs)のファミリーを提案する。
SimPFは、市販オーディオニューラルネットワークの浮動小数点演算数の半数以上を削減できる。
論文 参考訳(メタデータ) (2022-10-03T14:00:41Z) - DEEPF0: End-To-End Fundamental Frequency Estimation for Music and Speech
Signals [11.939409227407769]
DeepF0と呼ばれる新しいピッチ推定手法を提案する。
利用可能な注釈付きデータを活用して、データ駆動方式で生のオーディオから直接学習する。
論文 参考訳(メタデータ) (2021-02-11T23:11:22Z) - Learning based signal detection for MIMO systems with unknown noise
statistics [84.02122699723536]
本論文では,未知のノイズ統計による信号を堅牢に検出する一般化最大確率(ML)推定器を考案する。
実際には、システムノイズに関する統計的な知識はほとんどなく、場合によっては非ガウス的であり、衝動的であり、分析不可能である。
我々のフレームワークは、ノイズサンプルのみを必要とする教師なしの学習アプローチによって駆動される。
論文 参考訳(メタデータ) (2021-01-21T04:48:15Z) - Real Time Speech Enhancement in the Waveform Domain [99.02180506016721]
本稿では,ラップトップCPU上でリアルタイムに動作する生波形を用いた因果音声強調モデルを提案する。
提案モデルは、スキップ接続を持つエンコーダデコーダアーキテクチャに基づいている。
静止ノイズや非定常ノイズを含む様々な背景ノイズを除去することができる。
論文 参考訳(メタデータ) (2020-06-23T09:19:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。