論文の概要: SwiftF0: Fast and Accurate Monophonic Pitch Detection
- arxiv url: http://arxiv.org/abs/2508.18440v1
- Date: Mon, 25 Aug 2025 19:39:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-27 17:42:38.570321
- Title: SwiftF0: Fast and Accurate Monophonic Pitch Detection
- Title(参考訳): SwiftF0: 高速かつ高精度なモノラルピッチ検出
- Authors: Lars Nieradzik,
- Abstract要約: 単声ピッチ推定のための新しい最先端技術を設定する,新しい軽量ニューラルモデルであるemphSwiftF0を提案する。
SwiftF0は、計算効率を維持しながら、アコースティックドメイン全体の堅牢な一般化を実現する。
- 参考スコア(独自算出の注目度): 2.8766374696553823
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Accurate and real-time monophonic pitch estimation in noisy conditions, particularly on resource-constrained devices, remains an open challenge in audio processing. We present \emph{SwiftF0}, a novel, lightweight neural model that sets a new state-of-the-art for monophonic pitch estimation. Through training on diverse speech, music, and synthetic datasets with extensive data augmentation, SwiftF0 achieves robust generalization across acoustic domains while maintaining computational efficiency. SwiftF0 achieves a 91.80\% harmonic mean (HM) at 10 dB SNR, outperforming baselines like CREPE by over 12 percentage points and degrading by only 2.3 points from clean audio. SwiftF0 requires only 95,842 parameters and runs approximately 42x faster than CREPE on CPU, making it ideal for efficient, real-time deployment. To address the critical lack of perfectly accurate ground truth pitch in speech corpora (which typically rely on algorithmic estimators or laryngograph signals), we introduce \emph{SpeechSynth}. This synthetic speech dataset, generated by a phoneme-level TTS model, provides exact, on-demand ground-truth pitch curves, enabling more robust model training and evaluation. Furthermore, we propose a unified metric, combining six complementary performance measures for comprehensive and reliable pitch evaluation, and release an open-source pitch benchmark suite. A live demo of SwiftF0 is available at https://swift-f0.github.io/, the source code at https://github.com/lars76/swift-f0, and the benchmark framework at https://github.com/lars76/pitch-benchmark.
- Abstract(参考訳): ノイズの多い条件、特にリソース制約のあるデバイスにおいて、正確なリアルタイムのモノフォニックピッチ推定は、オーディオ処理において未解決の課題である。
本稿では,モノラルピッチ推定のための新しい最先端技術を設定する,新しい軽量ニューラルモデルである \emph{SwiftF0} を提案する。
広範なデータ拡張を伴う多様な音声、音楽、合成データセットのトレーニングを通じて、SwiftF0は、計算効率を維持しながら、アコースティックドメイン全体の堅牢な一般化を実現する。
SwiftF0は10dB SNRで91.80\%のハーモニック平均(HM)を達成し、CREPEのようなベースラインを12ポイント以上上回り、クリーンオーディオから2.3ポイントしか劣化しない。
SwiftF0は95,842のパラメータしか必要とせず、CPU上のCREPEよりも約42倍高速で実行される。
音声コーパス(通常、アルゴリズム推定器や喉頭グラフ信号に依存する)において、完全に正確な基底真理ピッチが欠如していることに対処するため、emph{SpeechSynth}を導入する。
この合成音声データセットは音素レベルTSモデルによって生成され、より堅牢なモデルトレーニングと評価を可能にする。
さらに,包括的かつ信頼性の高いピッチ評価のための6つの相補的性能指標を組み合わせた統合されたメトリックを提案し,オープンソースのピッチベンチマークスイートを公開している。
SwiftF0のライブデモはhttps://github.com/lars76/swift-f0で、ベンチマークフレームワークはhttps://github.com/lars76/pitch-benchmarkで公開されている。
関連論文リスト
- Lina-Speech: Gated Linear Attention is a Fast and Parameter-Efficient Learner for text-to-speech synthesis [7.2129341612013285]
従来の自己注意機構を,Gated Linear Attention (GLA)のような新たな再帰的アーキテクチャに置き換えるモデルであるLina-Speechを紹介する。
このアプローチは高速で、デプロイが容易で、データセットのサイズが3分から15分に及ぶ場合に、微調整されたベースラインに匹敵するパフォーマンスを実現する。
論文 参考訳(メタデータ) (2024-10-30T04:50:40Z) - Exploring WavLM Back-ends for Speech Spoofing and Deepfake Detection [0.0]
ASVspoof 5 Challenge Track 1: Speech Deepfake Detection - オープンコンディションはスタンドアロンのディープフェイク(bonafide vs spoof)検出タスクで構成される。
我々は、事前訓練されたWavLMをフロントエンドモデルとして利用し、その表現を異なるバックエンド技術でプールする。
本システムでは,0.0937 minDCF,3.42% EER,0.1927 Cllr,0.1375 actDCFを実現している。
論文 参考訳(メタデータ) (2024-09-08T08:54:36Z) - VALL-E R: Robust and Efficient Zero-Shot Text-to-Speech Synthesis via Monotonic Alignment [101.2489492032816]
VALL-E Rは、堅牢で効率的なゼロショットテキスト音声合成システムである。
この研究は、失語症に罹患した人々のためのスピーチの作成を含む有意義なプロジェクトに適用される可能性がある。
論文 参考訳(メタデータ) (2024-06-12T04:09:44Z) - F-COREF: Fast, Accurate and Easy to Use Coreference Resolution [48.05751101475403]
我々は、高速で正確で使い易い英語のコア参照解決のためのpythonパッケージであるfastcorefを紹介した。
モデルにより、V100 GPU上で2.8K OntoNotes文書を25秒で処理できる。
論文 参考訳(メタデータ) (2022-09-09T12:52:28Z) - Fast DCTTS: Efficient Deep Convolutional Text-to-Speech [8.276202368107006]
単一CPUスレッド上でリアルタイムに音声を合成するエンドツーエンド音声合成装置Fast DCTTSを提案する。
提案モデルは,複数のネットワーク削減と忠実度向上技術を適用した,慎重に調整された軽量ネットワークで構成されている。
論文 参考訳(メタデータ) (2021-04-01T17:08:01Z) - DEEPF0: End-To-End Fundamental Frequency Estimation for Music and Speech
Signals [11.939409227407769]
DeepF0と呼ばれる新しいピッチ推定手法を提案する。
利用可能な注釈付きデータを活用して、データ駆動方式で生のオーディオから直接学習する。
論文 参考訳(メタデータ) (2021-02-11T23:11:22Z) - FBWave: Efficient and Scalable Neural Vocoders for Streaming
Text-To-Speech on the Edge [49.85380252780985]
我々は、効率的でスケーラブルなニューラルボコーダ群であるFBWaveを提案する。
FBWaveは、自己回帰モデルと非自己回帰モデルの利点を組み合わせた、ハイブリッドフローベースの生成モデルである。
実験の結果,FBWave は WaveRNN と同様の音質を達成でき,MAC を 40 倍削減できることがわかった。
論文 参考訳(メタデータ) (2020-11-25T19:09:49Z) - Real-Time Execution of Large-scale Language Models on Mobile [49.32610509282623]
BERTの最良のモデル構造は,特定のデバイスに適合する計算サイズである。
我々のフレームワークは、モバイルデバイスのリソース仕様とリアルタイム仕様の両方を満たすための特定モデルを保証することができる。
具体的には、当社のモデルはCPUでは5.2倍、GPUでは4.1倍、BERTベースでは0.5-2%の精度損失がある。
論文 参考訳(メタデータ) (2020-09-15T01:59:17Z) - ContextNet: Improving Convolutional Neural Networks for Automatic Speech
Recognition with Global Context [58.40112382877868]
ContextNet と呼ばれる新しい CNN-RNN-Transducer アーキテクチャを提案する。
ContextNetは、グローバルコンテキスト情報を畳み込みレイヤに組み込む、完全な畳み込みエンコーダを備えている。
クリーン/ノイズの多いLibriSpeechテストセット上では、ContextNetは、外部言語モデル(LM)なしで2.1%/4.6%、LMで1.9%/4.1%、および2.9%/7.0%のワードエラー率(WER)を達成した。
論文 参考訳(メタデータ) (2020-05-07T01:03:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。