Fugu-MT 論文翻訳(概要): A Comparative Study of Glottal Source Estimation Techniques

論文の概要: A Comparative Study of Glottal Source Estimation Techniques

arxiv url: http://arxiv.org/abs/2001.00840v1
Date: Sat, 28 Dec 2019 20:40:08 GMT
ステータス: 翻訳完了
システム内更新日: 2023-01-17 13:02:36.167358
Title: A Comparative Study of Glottal Source Estimation Techniques
Title（参考訳）: 声門源推定法の比較検討
Authors: Thomas Drugman, Baris Bozkurt, Thierry Dutoit
Abstract要約: ソーストラクション分解(英: Source-tract decomposition, glottal flow Estimation)は、音声処理の基本的な問題の一つである。本研究では,下肢流量推定の最先端手法を3つ比較した。
参考スコア（独自算出の注目度）: 11.481208551940998
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Source-tract decomposition (or glottal flow estimation) is one of the basic problems of speech processing. For this, several techniques have been proposed in the literature. However studies comparing different approaches are almost nonexistent. Besides, experiments have been systematically performed either on synthetic speech or on sustained vowels. In this study we compare three of the main representative state-of-the-art methods of glottal flow estimation: closed-phase inverse filtering, iterative and adaptive inverse filtering, and mixed-phase decomposition. These techniques are first submitted to an objective assessment test on synthetic speech signals. Their sensitivity to various factors affecting the estimation quality, as well as their robustness to noise are studied. In a second experiment, their ability to label voice quality (tensed, modal, soft) is studied on a large corpus of real connected speech. It is shown that changes of voice quality are reflected by significant modifications in glottal feature distributions. Techniques based on the mixed-phase decomposition and on a closed-phase inverse filtering process turn out to give the best results on both clean synthetic and real speech signals. On the other hand, iterative and adaptive inverse filtering is recommended in noisy environments for its high robustness.
Abstract（参考訳）: 音源抽出分解(または声門流量推定)は音声処理の基本的な問題の一つである。このため、文献にいくつかの技法が提案されている。しかし、異なるアプローチを比較する研究はほとんど存在しない。さらに、合成音声または持続母音で、系統的に実験が実施されている。本研究では, 閉相逆フィルタ, 反復型および適応型逆フィルタ, 混合相分解の3つの代表的フロー推定法を比較した。これらの手法はまず,合成音声信号の客観的評価試験に提案される。推定品質に影響する様々な要因に対する感度と雑音に対するロバスト性について検討した。第2の実験では、実際の接続音声の大きなコーパス上で、音声品質(テンソル、モーダル、ソフト)をラベル付けする能力について研究した。声質の変化は声門特徴分布の大幅な変化によって反映されることが示された。混合位相分解法と閉相逆フィルタリング法に基づく手法は, 合成信号と実音声信号の両方において最良の結果を与えることができた。一方,高ロバスト性のため,雑音環境下では反復的かつ適応的な逆フィルタリングが推奨される。

関連論文リスト

Diverse Text-to-Image Generation via Contrastive Noise Optimization [60.48914865049489]
テキスト・ツー・イメージ(T2I)拡散モデルは高忠実度画像の生成において顕著な性能を示した。既存のアプローチは通常、推論中に中間の潜伏状態やテキスト条件を最適化する。本稿では,多様性問題に異なる視点から対処する簡易かつ効果的な手法であるContrastive Noise Optimizationを紹介する。
論文参考訳（メタデータ） (2025-10-04T13:51:32Z)
Divide and Conquer: Heterogeneous Noise Integration for Diffusion-based Adversarial Purification [75.09791002021947]
既存の浄化法は,前向き拡散過程を通じて一定のノイズを発生させ,その後に逆の処理を行い,クリーンな例を回復させることによって,対向的摂動を妨害することを目的としている。この方法は、前処理の均一な操作が、対向的摂動と闘いながら通常のピクセルを損なうため、根本的な欠陥がある。ニューラルネットワークの解釈可能性に基づく異種浄化戦略を提案する。本手法は,被写体モデルが注目する特定の画素に対して高強度雑音を決定的に印加する一方,残りの画素は低強度雑音のみを被写体とする。
論文参考訳（メタデータ） (2025-03-03T11:00:25Z)
ScalingFilter: Assessing Data Quality through Inverse Utilization of Scaling Laws [67.59263833387536]
ScalingFilterは、同じデータでトレーニングされた2つの言語モデル間の複雑さの違いに基づいて、テキスト品質を評価する新しいアプローチである。品質フィルタリングによってもたらされるバイアスを評価するために,意味表現にテキスト埋め込みモデルを利用する指標である意味多様性を導入する。
論文参考訳（メタデータ） (2024-08-15T17:59:30Z)
Boosting Fast and High-Quality Speech Synthesis with Linear Diffusion [85.54515118077825]
本稿では, 常微分方程式に基づく線形拡散モデル(LinDiff)を提案する。計算複雑性を低減するため、LinDiffでは、入力信号を小さなパッチに分割するパッチベースの処理アプローチを採用している。我々のモデルは、より高速な合成速度で自己回帰モデルに匹敵する品質の音声を合成することができる。
論文参考訳（メタデータ） (2023-06-09T07:02:43Z)
Robust Vocal Quality Feature Embeddings for Dysphonic Voice Detection [22.413475757518682]
声質に敏感な音響特徴埋め込みを生成するためのディープラーニングフレームワークを提案する。対照的な損失は、分類損失と組み合わせて、ディープラーニングモデルを共同で訓練する。実験結果から,本手法は高いインコーパスとクロスコーパスの分類精度を実現することが示された。
論文参考訳（メタデータ） (2022-11-17T19:34:59Z)
TranSpeech: Speech-to-Speech Translation With Bilateral Perturbation [61.564874831498145]
TranSpeechは、両側摂動を伴う音声から音声への翻訳モデルである。我々は,非自己回帰S2ST手法を構築し,繰り返しマスキングを行い,単位選択を予測する。 TranSpeechは推論遅延を大幅に改善し、自動回帰技術よりも最大21.4倍のスピードアップを実現している。
論文参考訳（メタデータ） (2022-05-25T06:34:14Z)
Discretization and Re-synthesis: an alternative method to solve the Cocktail Party Problem [65.25725367771075]
この研究は、初めて合成に基づくアプローチがこの問題にうまく対応できることを示した。具体的には,離散シンボルの認識に基づく音声分離/強調モデルを提案する。離散シンボルの入力による合成モデルを利用することで、離散シンボル列の予測後、各ターゲット音声を再合成することができる。
論文参考訳（メタデータ） (2021-12-17T08:35:40Z)
Investigations on Audiovisual Emotion Recognition in Noisy Conditions [43.40644186593322]
本稿では,異なる信号対雑音比で重畳ノイズを持つ2つの感情データセットについて検討する。その結果、ノイズの多いデータにクリーンオーディオで訓練されたモデルを適用すると、パフォーマンスが大幅に低下します。
論文参考訳（メタデータ） (2021-03-02T17:45:16Z)
WaveTransform: Crafting Adversarial Examples via Input Decomposition [69.01794414018603]
本稿では,低周波サブバンドと高周波サブバンドに対応する逆雑音を生成するWaveTransformを紹介する。実験により,提案攻撃は防衛アルゴリズムに対して有効であり,CNN間での転送も可能であることが示された。
論文参考訳（メタデータ） (2020-10-29T17:16:59Z)
Real Time Speech Enhancement in the Waveform Domain [99.02180506016721]
本稿では,ラップトップCPU上でリアルタイムに動作する生波形を用いた因果音声強調モデルを提案する。提案モデルは、スキップ接続を持つエンコーダデコーダアーキテクチャに基づいている。静止ノイズや非定常ノイズを含む様々な背景ノイズを除去することができる。
論文参考訳（メタデータ） (2020-06-23T09:19:13Z)
Parametric Representation for Singing Voice Synthesis: a Comparative Evaluation [10.37199090634032]
まず,統計的パラメトリック合成に適した4つの既存手法に対して比較主観評価を行う。ハイピッチ音声で発生するアーティファクトについて論じ,それを克服するためのアプローチを提案する。
論文参考訳（メタデータ） (2020-06-07T13:06:30Z)
Maximum Voiced Frequency Estimation: Exploiting Amplitude and Phase Spectra [22.675699190161417]
本稿では,振幅スペクトルと位相スペクトルの両方を利用したMVF推定手法を提案する。位相は、音声信号の調和性に関する関連情報を伝達し、振幅スペクトルから得られる特徴と共同で使用できることが示されている。提案手法は2つの最先端手法と比較し,主観的評価と主観的評価の両方において優れた性能を示す。
論文参考訳（メタデータ） (2020-05-31T13:40:46Z)
Glottal source estimation robustness: A comparison of sensitivity of voice source estimation techniques [11.97036509133719]
本稿では,音声波形から直接音源を推定する問題に対処する。 ADR(Anticausality Dominated Regions)に基づく新しい原理は、スロットル開相を推定するために用いられる。
論文参考訳（メタデータ） (2020-05-24T08:13:47Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。