論文の概要: Time-Varying Quasi-Closed-Phase Analysis for Accurate Formant Tracking
in Speech Signals
- arxiv url: http://arxiv.org/abs/2308.16540v1
- Date: Thu, 31 Aug 2023 08:30:20 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-01 15:13:11.918777
- Title: Time-Varying Quasi-Closed-Phase Analysis for Accurate Formant Tracking
in Speech Signals
- Title(参考訳): 音声信号の正確なフォルマント追尾のための時変準閉位相解析
- Authors: Dhananjaya Gowda, Sudarsana Reddy Kadiri, Brad Story, Paavo Alku
- Abstract要約: 音声信号におけるフォルマントの正確な推定と追跡のための新しい手法を提案する。
TVQCP分析はホルマント推定と追跡を改善する3つのアプローチを組み合わせる。
提案手法は,従来のフォーマント追跡ツールよりも優れた性能を示す。
- 参考スコア(独自算出の注目度): 17.69029813982043
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this paper, we propose a new method for the accurate estimation and
tracking of formants in speech signals using time-varying quasi-closed-phase
(TVQCP) analysis. Conventional formant tracking methods typically adopt a
two-stage estimate-and-track strategy wherein an initial set of formant
candidates are estimated using short-time analysis (e.g., 10--50 ms), followed
by a tracking stage based on dynamic programming or a linear state-space model.
One of the main disadvantages of these approaches is that the tracking stage,
however good it may be, cannot improve upon the formant estimation accuracy of
the first stage. The proposed TVQCP method provides a single-stage formant
tracking that combines the estimation and tracking stages into one. TVQCP
analysis combines three approaches to improve formant estimation and tracking:
(1) it uses temporally weighted quasi-closed-phase analysis to derive
closed-phase estimates of the vocal tract with reduced interference from the
excitation source, (2) it increases the residual sparsity by using the $L_1$
optimization and (3) it uses time-varying linear prediction analysis over long
time windows (e.g., 100--200 ms) to impose a continuity constraint on the vocal
tract model and hence on the formant trajectories. Formant tracking experiments
with a wide variety of synthetic and natural speech signals show that the
proposed TVQCP method performs better than conventional and popular formant
tracking tools, such as Wavesurfer and Praat (based on dynamic programming),
the KARMA algorithm (based on Kalman filtering), and DeepFormants (based on
deep neural networks trained in a supervised manner). Matlab scripts for the
proposed method can be found at: https://github.com/njaygowda/ftrack
- Abstract(参考訳): 本稿では,時変準閉相解析(TVQCP)を用いた音声信号におけるフォルマントの正確な推定と追跡のための新しい手法を提案する。
従来のフォルマント追跡法は、2段階推定・追跡戦略を採用しており、最初のホルマント候補のセットは短時間解析(例えば10〜50ms)で推定され、その後動的計画法や線形状態空間モデルに基づく追跡段階が続く。
これらのアプローチの主な欠点の1つは、追跡段階が良いとはいえ、第1段のフォルマント推定精度では改善できないことである。
提案したTVQCP法は,推定と追跡の段階を1つにまとめた一段フォーマントトラッキングを提供する。
TVQCP analysis combines three approaches to improve formant estimation and tracking: (1) it uses temporally weighted quasi-closed-phase analysis to derive closed-phase estimates of the vocal tract with reduced interference from the excitation source, (2) it increases the residual sparsity by using the $L_1$ optimization and (3) it uses time-varying linear prediction analysis over long time windows (e.g., 100--200 ms) to impose a continuity constraint on the vocal tract model and hence on the formant trajectories.
様々な合成音声信号と自然な音声信号を用いたホルマント追跡実験により、提案手法は、WavesurferやPrat(動的プログラミングに基づく)、KARMAアルゴリズム(カルマンフィルタリングに基づく)、DeepFormants(教師付き方法で訓練されたディープニューラルネットワークに基づく)といった従来のフォーマント追跡ツールよりも優れた性能を示した。
提案されたメソッドのMatlabスクリプトは以下の通りである。
関連論文リスト
- Dense Optical Tracking: Connecting the Dots [82.79642869586587]
DOTは、ビデオにおけるポイントトラッキングの問題を解決するための、新しくてシンプルで効率的な方法である。
OmniMotionのような高度な"ユニバーサルトラッカー"を上回り、CoTrackerのような最良のポイントトラッキングアルゴリズムと同等か、あるいはそれ以上の精度で、DOTが現在の光フロー技術よりもはるかに正確であることを示す。
論文 参考訳(メタデータ) (2023-12-01T18:59:59Z) - Diffusion Generative Flow Samplers: Improving learning signals through
partial trajectory optimization [87.21285093582446]
Diffusion Generative Flow Samplers (DGFS) はサンプルベースのフレームワークであり、学習プロセスを短い部分的軌道セグメントに分解することができる。
生成フローネットワーク(GFlowNets)のための理論から着想を得た。
論文 参考訳(メタデータ) (2023-10-04T09:39:05Z) - Refining a Deep Learning-based Formant Tracker using Linear Prediction
Methods [19.88212227822267]
2つの洗練されたDeepFormantsトラッカーは、オリジナルのDeepFormantsと、5つの既知の伝統的なトラッカーと比較された。
その結果、データ駆動型DeepFormantsトラッカーは従来のトラッカーよりも優れており、QCP-FB分析を用いてDeepFormantsが予測したフォルマントを精製することで最高の性能が得られることがわかった。
論文 参考訳(メタデータ) (2023-08-17T15:32:32Z) - Formant Tracking Using Quasi-Closed Phase Forward-Backward Linear
Prediction Analysis and Deep Neural Networks [48.98397553726019]
動的プログラミング(DP)とディープニューラルネット(DNN)に基づくホルマントトラッキングの研究
6つの手法は線形予測(LP)アルゴリズム、重み付きLPアルゴリズム、最近開発された準閉相フォワード(QCP-FB)法である。
QCP-FBに基づく深層学習と信号処理の利点を組み合わせた新しいフォルマント追跡手法を提案する。
論文 参考訳(メタデータ) (2022-01-05T10:27:07Z) - SoundDet: Polyphonic Sound Event Detection and Localization from Raw
Waveform [48.68714598985078]
SoundDetは、多音動音イベントの検出とローカライゼーションのためのエンドツーエンドのトレーニング可能で軽量なフレームワークである。
SoundDetは、生のマルチチャネル波形を直接消費し、検出すべき時間音イベントを完全な音オブジェクトとして扱う。
次に、時間的変化が大きいイベントを予測する上での課題に対処するため、高密度な音響提案イベントマップを構築する。
論文 参考訳(メタデータ) (2021-06-13T11:43:41Z) - Uncertainty-Aware Signal Temporal logic [21.626420725274208]
既存の時間論理推論手法は、データの不確かさをほとんど無視する。
本稿では,不確実性を考慮した信号時間論理(STL)推論手法を提案する。
論文 参考訳(メタデータ) (2021-05-24T21:26:57Z) - On projection methods for functional time series forecasting [0.0]
関数時系列(FTS)予測のための2つの非パラメトリック手法
一段階の予測と動的更新の両方に対処する。
これらの方法は、シミュレーションデータ、日々の電力需要、NOx排出に適用される。
論文 参考訳(メタデータ) (2021-05-10T14:24:38Z) - FlowMOT: 3D Multi-Object Tracking by Scene Flow Association [9.480272707157747]
従来のマッチングアルゴリズムと点運動情報を統合するLiDARベースの3D MOTフレームワークFlowMOTを提案する。
提案手法は,最新のエンドツーエンド手法より優れ,最先端のフィルタ方式と競合する性能を実現する。
論文 参考訳(メタデータ) (2020-12-14T14:03:48Z) - Deep Shells: Unsupervised Shape Correspondence with Optimal Transport [52.646396621449]
本稿では,3次元形状対応のための教師なし学習手法を提案する。
提案手法は,複数のデータセット上での最先端技術よりも大幅に改善されていることを示す。
論文 参考訳(メタデータ) (2020-10-28T22:24:07Z) - Learning to Optimize Non-Rigid Tracking [54.94145312763044]
我々は、堅牢性を改善し、解法収束を高速化するために学習可能な最適化を採用する。
まず、CNNを通じてエンドツーエンドに学習された深い特徴にアライメントデータ項を統合することにより、追跡対象をアップグレードする。
次に,プレコンディショニング手法と学習手法のギャップを,プレコンディショナを生成するためにトレーニングされたConditionNetを導入することで埋める。
論文 参考訳(メタデータ) (2020-03-27T04:40:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。