論文の概要: Unsupervised Classification of Voiced Speech and Pitch Tracking Using
Forward-Backward Kalman Filtering
- arxiv url: http://arxiv.org/abs/2103.01173v1
- Date: Mon, 1 Mar 2021 18:13:23 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-03 21:21:19.405558
- Title: Unsupervised Classification of Voiced Speech and Pitch Tracking Using
Forward-Backward Kalman Filtering
- Title(参考訳): 前方kalmanフィルタを用いた有声音声とピッチ追跡の教師なし分類
- Authors: Benedikt Boenninghoff, Robert M. Nickel, Steffen Zeiler, Dorothea
Kolossa
- Abstract要約: 3つのサブタスクを1つの手順に統合する新しいアルゴリズムを紹介します。
このアルゴリズムは、大量の背景雑音が存在する場合の事前録音音声に応用できる。
- 参考スコア(独自算出の注目度): 14.950964357181524
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The detection of voiced speech, the estimation of the fundamental frequency,
and the tracking of pitch values over time are crucial subtasks for a variety
of speech processing techniques. Many different algorithms have been developed
for each of the three subtasks. We present a new algorithm that integrates the
three subtasks into a single procedure. The algorithm can be applied to
pre-recorded speech utterances in the presence of considerable amounts of
background noise. We combine a collection of standard metrics, such as the
zero-crossing rate, for example, to formulate an unsupervised voicing
classifier. The estimation of pitch values is accomplished with a hybrid
autocorrelation-based technique. We propose a forward-backward Kalman filter to
smooth the estimated pitch contour. In experiments, we are able to show that
the proposed method compares favorably with current, state-of-the-art pitch
detection algorithms.
- Abstract(参考訳): 様々な音声処理手法において,音声の検出,基本周波数の推定,時間経過によるピッチ値の追跡が重要なサブタスクである。
3つのサブタスクごとに多くの異なるアルゴリズムが開発されている。
3つのサブタスクを1つの手順に統合する新しいアルゴリズムを紹介します。
このアルゴリズムは、大量の背景雑音が存在する場合の事前録音音声に応用できる。
例えば、ゼロクロスレートのような標準メトリクスの集まりを組み合わせることで、教師なしのボッキング分類器を定式化する。
ピッチ値の推定は,ハイブリッド自己相関に基づく手法を用いて行う。
推定ピッチ輪郭を滑らかにする前方後方カルマンフィルタを提案する。
実験では,提案手法が現在最先端のピッチ検出アルゴリズムと好適に比較できることを示すことができた。
関連論文リスト
- Speech Enhancement and Dereverberation with Diffusion-based Generative
Models [14.734454356396157]
本稿では,微分方程式に基づく拡散過程について概説する。
提案手法により,30段階の拡散しか行わず,高品質なクリーン音声推定が可能であることを示す。
大規模なクロスデータセット評価では、改良された手法が近年の識別モデルと競合することを示す。
論文 参考訳(メタデータ) (2022-08-11T13:55:12Z) - A New Adaptive Noise Covariance Matrices Estimation and Filtering
Method: Application to Multi-Object Tracking [6.571006663689735]
カルマンフィルタは物体追跡に広く使われており、一般にプロセスと測定ノイズは正確に知られ、一定であると考えられている。
本稿では,Kalmanフィルタプロセスとノイズ共分散行列をオンラインで推定するための新しい推定補正閉ループ推定法を提案する。
論文 参考訳(メタデータ) (2021-12-20T03:11:48Z) - Speaker Embedding-aware Neural Diarization for Flexible Number of
Speakers with Textual Information [55.75018546938499]
本稿では,話者埋め込み認識型ニューラルダイアリゼーション(SEND)手法を提案する。
本手法は,ターゲット話者の音声活動検出よりも低いダイアリゼーション誤差率を実現する。
論文 参考訳(メタデータ) (2021-11-28T12:51:04Z) - Machine Learning for Online Algorithm Selection under Censored Feedback [71.6879432974126]
オンラインアルゴリズム選択(OAS)では、アルゴリズム問題クラスのインスタンスがエージェントに次々に提示され、エージェントは、固定された候補アルゴリズムセットから、おそらく最高のアルゴリズムを迅速に選択する必要がある。
SAT(Satisfiability)のような決定問題に対して、品質は一般的にアルゴリズムのランタイムを指す。
本研究では,OASのマルチアームバンディットアルゴリズムを再検討し,この問題に対処する能力について議論する。
ランタイム指向の損失に適応し、時間的地平線に依存しない空間的・時間的複雑さを維持しながら、部分的に検閲されたデータを可能にする。
論文 参考訳(メタデータ) (2021-09-13T18:10:52Z) - On Sampling-Based Training Criteria for Neural Language Modeling [97.35284042981675]
我々はモンテカルロサンプリング、重要サンプリング、補償部分和と呼ばれる新しい方法、およびノイズコントラスト推定を検討する。
対象のクラス後部確率を補正しさえすれば,これらすべてのサンプリング手法が同等に動作可能であることを示す。
Switchboard と LibriSpeech における言語モデリングと音声認識の実験結果が,我々の主張を支持した。
論文 参考訳(メタデータ) (2021-04-21T12:55:52Z) - Exploiting Attention-based Sequence-to-Sequence Architectures for Sound
Event Localization [113.19483349876668]
本稿では,注意に基づくシーケンス・ツー・シーケンスモデルを用いて,音のイベントの局所化に新たなアプローチを提案する。
それは無響および残響の条件の最先端の方法と比較される優秀なローカリゼーションの性能をもたらします。
論文 参考訳(メタデータ) (2021-02-28T07:52:20Z) - A Systematic Characterization of Sampling Algorithms for Open-ended
Language Generation [71.31905141672529]
本稿では,自己回帰型言語モデルに広く採用されている祖先サンプリングアルゴリズムについて検討する。
エントロピー低減, 秩序保存, 斜面保全の3つの重要な特性を同定した。
これらの特性を満たすサンプリングアルゴリズムのセットが,既存のサンプリングアルゴリズムと同等に動作することがわかった。
論文 参考訳(メタデータ) (2020-09-15T17:28:42Z) - Evaluating the reliability of acoustic speech embeddings [10.5754802112615]
音声埋め込みは可変長音声列の定サイズ音響表現である。
ここでは,ABX識別と平均精度 (MAP) という2つの一般的な指標を,17の埋め込み手法にまたがる5つの言語で体系的に比較する。
ABXとMAPは相互に相関し,周波数推定を行う。
論文 参考訳(メタデータ) (2020-07-27T13:24:09Z) - Continuous speech separation: dataset and analysis [52.10378896407332]
自然な会話では、音声信号は連続的であり、重複成分と重複成分の両方を含む。
本稿では,連続音声分離アルゴリズムを評価するためのデータセットとプロトコルについて述べる。
論文 参考訳(メタデータ) (2020-01-30T18:01:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。