Fugu-MT 論文翻訳(概要): Time-Varying Quasi-Closed-Phase Analysis for Accurate Formant Tracking in Speech Signals

論文の概要: Time-Varying Quasi-Closed-Phase Analysis for Accurate Formant Tracking in Speech Signals

arxiv url: http://arxiv.org/abs/2308.16540v1
Date: Thu, 31 Aug 2023 08:30:20 GMT
ステータス: 翻訳完了
システム内更新日: 2023-09-01 15:13:11.918777
Title: Time-Varying Quasi-Closed-Phase Analysis for Accurate Formant Tracking in Speech Signals
Title（参考訳）: 音声信号の正確なフォルマント追尾のための時変準閉位相解析
Authors: Dhananjaya Gowda, Sudarsana Reddy Kadiri, Brad Story, Paavo Alku
Abstract要約: 音声信号におけるフォルマントの正確な推定と追跡のための新しい手法を提案する。 TVQCP分析はホルマント推定と追跡を改善する3つのアプローチを組み合わせる。提案手法は,従来のフォーマント追跡ツールよりも優れた性能を示す。
参考スコア（独自算出の注目度）: 17.69029813982043
License: http://creativecommons.org/licenses/by/4.0/
Abstract: In this paper, we propose a new method for the accurate estimation and tracking of formants in speech signals using time-varying quasi-closed-phase (TVQCP) analysis. Conventional formant tracking methods typically adopt a two-stage estimate-and-track strategy wherein an initial set of formant candidates are estimated using short-time analysis (e.g., 10--50 ms), followed by a tracking stage based on dynamic programming or a linear state-space model. One of the main disadvantages of these approaches is that the tracking stage, however good it may be, cannot improve upon the formant estimation accuracy of the first stage. The proposed TVQCP method provides a single-stage formant tracking that combines the estimation and tracking stages into one. TVQCP analysis combines three approaches to improve formant estimation and tracking: (1) it uses temporally weighted quasi-closed-phase analysis to derive closed-phase estimates of the vocal tract with reduced interference from the excitation source, (2) it increases the residual sparsity by using the $L_1$ optimization and (3) it uses time-varying linear prediction analysis over long time windows (e.g., 100--200 ms) to impose a continuity constraint on the vocal tract model and hence on the formant trajectories. Formant tracking experiments with a wide variety of synthetic and natural speech signals show that the proposed TVQCP method performs better than conventional and popular formant tracking tools, such as Wavesurfer and Praat (based on dynamic programming), the KARMA algorithm (based on Kalman filtering), and DeepFormants (based on deep neural networks trained in a supervised manner). Matlab scripts for the proposed method can be found at: https://github.com/njaygowda/ftrack
Abstract（参考訳）: 本稿では,時変準閉相解析(TVQCP)を用いた音声信号におけるフォルマントの正確な推定と追跡のための新しい手法を提案する。従来のフォルマント追跡法は、2段階推定・追跡戦略を採用しており、最初のホルマント候補のセットは短時間解析(例えば10〜50ms)で推定され、その後動的計画法や線形状態空間モデルに基づく追跡段階が続く。これらのアプローチの主な欠点の1つは、追跡段階が良いとはいえ、第1段のフォルマント推定精度では改善できないことである。提案したTVQCP法は,推定と追跡の段階を1つにまとめた一段フォーマントトラッキングを提供する。 TVQCP analysis combines three approaches to improve formant estimation and tracking: (1) it uses temporally weighted quasi-closed-phase analysis to derive closed-phase estimates of the vocal tract with reduced interference from the excitation source, (2) it increases the residual sparsity by using the $L_1$ optimization and (3) it uses time-varying linear prediction analysis over long time windows (e.g., 100--200 ms) to impose a continuity constraint on the vocal tract model and hence on the formant trajectories. 様々な合成音声信号と自然な音声信号を用いたホルマント追跡実験により、提案手法は、WavesurferやPrat(動的プログラミングに基づく)、KARMAアルゴリズム(カルマンフィルタリングに基づく)、DeepFormants(教師付き方法で訓練されたディープニューラルネットワークに基づく)といった従来のフォーマント追跡ツールよりも優れた性能を示した。提案されたメソッドのMatlabスクリプトは以下の通りである。

関連論文リスト

DELTAv2: Accelerating Dense 3D Tracking [79.63990337419514]
本稿では,ビデオ中の高密度3次元点追跡を高速化するための新しいアルゴリズムを提案する。極小点の小さな部分集合で追跡を開始し、トラックされた軌道の集合を段階的に拡大する粗大な戦略を導入する。新たに追加されたトラジェクトリは学習可能なモジュールを使用しており、トラッキングネットワークとともにエンドツーエンドでトレーニングされている。
論文参考訳（メタデータ） (2025-08-02T03:15:47Z)
From Target Tracking to Targeting Track -- Part III: Stochastic Process Modeling and Online Learning [18.8192435654239]
本研究では,対象軌道をプロセス(SP)のサンプルパスとして記述する。決定論的確率分解フレームワークを採用することにより、軌道SPの学習を2つの逐次段階に分解する。これにより、マルコフフリーなデータ駆動トラッキングアプローチが実現し、ターゲットダイナミクスの事前知識を最小限に抑えた連続時間軌道が生成される。
論文参考訳（メタデータ） (2025-03-03T12:04:38Z)
Inference-Time Alignment in Diffusion Models with Reward-Guided Generation: Tutorial and Review [59.856222854472605]
このチュートリアルは、拡散モデルにおける下流の報酬関数を最適化するための推論時ガイダンスとアライメント方法に関する詳細なガイドを提供する。生物学のような分野における実践的な応用は、しばしば特定の指標を最大化するサンプル生成を必要とする。本稿では,(1)推論時と組み合わせた微調整手法,(2)モンテカルロ木探索などの探索アルゴリズムに基づく推論時アルゴリズム,(3)言語モデルと拡散モデルにおける推論時アルゴリズムの接続について論じる。
論文参考訳（メタデータ） (2025-01-16T17:37:35Z)
ProTracker: Probabilistic Integration for Robust and Accurate Point Tracking [41.889032460337226]
ProTrackerは、ビデオ内の任意の点を正確かつ堅牢に追跡する新しいフレームワークである。この設計は、グローバルな意味情報と時間的に認識される低レベル特徴を効果的に組み合わせている。実験により、ProTrackerは最適化ベースのアプローチで最先端のパフォーマンスを得ることができた。
論文参考訳（メタデータ） (2025-01-06T18:55:52Z)
Dense Optical Tracking: Connecting the Dots [82.79642869586587]
DOTは、ビデオにおけるポイントトラッキングの問題を解決するための、新しくてシンプルで効率的な方法である。 OmniMotionのような高度な"ユニバーサルトラッカー"を上回り、CoTrackerのような最良のポイントトラッキングアルゴリズムと同等か、あるいはそれ以上の精度で、DOTが現在の光フロー技術よりもはるかに正確であることを示す。
論文参考訳（メタデータ） (2023-12-01T18:59:59Z)
Diffusion Generative Flow Samplers: Improving learning signals through partial trajectory optimization [87.21285093582446]
Diffusion Generative Flow Samplers (DGFS) はサンプルベースのフレームワークであり、学習プロセスを短い部分的軌道セグメントに分解することができる。生成フローネットワーク(GFlowNets)のための理論から着想を得た。
論文参考訳（メタデータ） (2023-10-04T09:39:05Z)
Refining a Deep Learning-based Formant Tracker using Linear Prediction Methods [19.88212227822267]
2つの洗練されたDeepFormantsトラッカーは、オリジナルのDeepFormantsと、5つの既知の伝統的なトラッカーと比較された。その結果、データ駆動型DeepFormantsトラッカーは従来のトラッカーよりも優れており、QCP-FB分析を用いてDeepFormantsが予測したフォルマントを精製することで最高の性能が得られることがわかった。
論文参考訳（メタデータ） (2023-08-17T15:32:32Z)
Formant Tracking Using Quasi-Closed Phase Forward-Backward Linear Prediction Analysis and Deep Neural Networks [48.98397553726019]
動的プログラミング(DP)とディープニューラルネット(DNN)に基づくホルマントトラッキングの研究 6つの手法は線形予測(LP)アルゴリズム、重み付きLPアルゴリズム、最近開発された準閉相フォワード(QCP-FB)法である。 QCP-FBに基づく深層学習と信号処理の利点を組み合わせた新しいフォルマント追跡手法を提案する。
論文参考訳（メタデータ） (2022-01-05T10:27:07Z)
SoundDet: Polyphonic Sound Event Detection and Localization from Raw Waveform [48.68714598985078]
SoundDetは、多音動音イベントの検出とローカライゼーションのためのエンドツーエンドのトレーニング可能で軽量なフレームワークである。 SoundDetは、生のマルチチャネル波形を直接消費し、検出すべき時間音イベントを完全な音オブジェクトとして扱う。次に、時間的変化が大きいイベントを予測する上での課題に対処するため、高密度な音響提案イベントマップを構築する。
論文参考訳（メタデータ） (2021-06-13T11:43:41Z)
Uncertainty-Aware Signal Temporal logic [21.626420725274208]
既存の時間論理推論手法は、データの不確かさをほとんど無視する。本稿では,不確実性を考慮した信号時間論理(STL)推論手法を提案する。
論文参考訳（メタデータ） (2021-05-24T21:26:57Z)
On projection methods for functional time series forecasting [0.0]
関数時系列(FTS)予測のための2つの非パラメトリック手法一段階の予測と動的更新の両方に対処する。これらの方法は、シミュレーションデータ、日々の電力需要、NOx排出に適用される。
論文参考訳（メタデータ） (2021-05-10T14:24:38Z)
FlowMOT: 3D Multi-Object Tracking by Scene Flow Association [9.480272707157747]
従来のマッチングアルゴリズムと点運動情報を統合するLiDARベースの3D MOTフレームワークFlowMOTを提案する。提案手法は,最新のエンドツーエンド手法より優れ,最先端のフィルタ方式と競合する性能を実現する。
論文参考訳（メタデータ） (2020-12-14T14:03:48Z)
Deep Shells: Unsupervised Shape Correspondence with Optimal Transport [52.646396621449]
本稿では,3次元形状対応のための教師なし学習手法を提案する。提案手法は,複数のデータセット上での最先端技術よりも大幅に改善されていることを示す。
論文参考訳（メタデータ） (2020-10-28T22:24:07Z)
Learning to Optimize Non-Rigid Tracking [54.94145312763044]
我々は、堅牢性を改善し、解法収束を高速化するために学習可能な最適化を採用する。まず、CNNを通じてエンドツーエンドに学習された深い特徴にアライメントデータ項を統合することにより、追跡対象をアップグレードする。次に,プレコンディショニング手法と学習手法のギャップを,プレコンディショナを生成するためにトレーニングされたConditionNetを導入することで埋める。
論文参考訳（メタデータ） (2020-03-27T04:40:57Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。