論文の概要: PAAPLoss: A Phonetic-Aligned Acoustic Parameter Loss for Speech
Enhancement
- arxiv url: http://arxiv.org/abs/2302.08095v1
- Date: Thu, 16 Feb 2023 05:17:06 GMT
- ステータス: 処理完了
- システム内更新日: 2023-02-17 14:53:33.468698
- Title: PAAPLoss: A Phonetic-Aligned Acoustic Parameter Loss for Speech
Enhancement
- Title(参考訳): PAAPLoss:音声処理による音声強調のための音響パラメータ損失
- Authors: Muqiao Yang, Joseph Konan, David Bick, Yunyang Zeng, Shuo Han, Anurag
Kumar, Shinji Watanabe, Bhiksha Raj
- Abstract要約: 知覚品質の違いを形式化する学習目標を提案する。
微分不可能な時間的音響パラメータを同定する。
時系列値を正確に予測できるニューラルネットワーク推定器を開発した。
- 参考スコア(独自算出の注目度): 41.872384434583466
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Despite rapid advancement in recent years, current speech enhancement models
often produce speech that differs in perceptual quality from real clean speech.
We propose a learning objective that formalizes differences in perceptual
quality, by using domain knowledge of acoustic-phonetics. We identify temporal
acoustic parameters -- such as spectral tilt, spectral flux, shimmer, etc. --
that are non-differentiable, and we develop a neural network estimator that can
accurately predict their time-series values across an utterance. We also model
phoneme-specific weights for each feature, as the acoustic parameters are known
to show different behavior in different phonemes. We can add this criterion as
an auxiliary loss to any model that produces speech, to optimize speech outputs
to match the values of clean speech in these features. Experimentally we show
that it improves speech enhancement workflows in both time-domain and
time-frequency domain, as measured by standard evaluation metrics. We also
provide an analysis of phoneme-dependent improvement on acoustic parameters,
demonstrating the additional interpretability that our method provides. This
analysis can suggest which features are currently the bottleneck for
improvement.
- Abstract(参考訳): 近年の急速な進歩にもかかわらず、現在の音声強調モデルは、実際の清潔な音声と知覚品質が異なる音声を生成することが多い。
音響音響学の分野知識を用いて知覚品質の違いを形式化する学習目標を提案する。
スペクトル傾き,スペクトルフラックス,シャマーなどの時間的音響パラメータを同定する。
そこで我々は,発話の時系列値を正確に予測できるニューラルネットワーク推定器を開発した。
また,各特徴に対する音素固有の重み付けをモデル化し,音響パラメータが異なる音素の挙動を示すことが知られている。
この基準を音声生成モデルに補助的損失として加えることができ、これらの特徴の清潔な音声の値に合うように音声出力を最適化することができる。
標準評価指標で測定した時間領域と時間領域の両方における音声強調ワークフローを実験的に改善することを示す。
また,音響パラメータに対する音素依存的改善の分析を行い,提案手法が提供する追加的な解釈可能性を示す。
この分析は、現在改善のボトルネックとなっている機能を提案することができる。
関連論文リスト
- Analysing the Impact of Audio Quality on the Use of Naturalistic
Long-Form Recordings for Infant-Directed Speech Research [62.997667081978825]
早期言語習得のモデリングは、幼児が言語スキルをブートストラップする方法を理解することを目的としている。
近年の進歩により、より自然主義的なトレーニングデータを計算モデルに利用できるようになった。
音質がこれらのデータに対する分析やモデリング実験にどう影響するかは、現時点では不明である。
論文 参考訳(メタデータ) (2023-05-03T08:25:37Z) - TAPLoss: A Temporal Acoustic Parameter Loss for Speech Enhancement [41.872384434583466]
周波数関連パラメータ,エネルギー・振幅関連パラメータ,スペクトルバランスパラメータ,時間的特徴の4種類の低レベル音響記述子の微分可能推定器を提案する。
音声強調における補助的目的としてTAPを加えることで、知覚的品質と知性を改善した音声が得られることを示す。
論文 参考訳(メタデータ) (2023-02-16T04:57:11Z) - Improving Speech Enhancement through Fine-Grained Speech Characteristics [42.49874064240742]
そこで本稿では,強調信号の知覚的品質と自然性の向上を目的とした音声強調手法を提案する。
まず,音声品質と相関する重要な音響パラメータを同定する。
次に,これらの特徴について,クリーン音声と拡張音声との差を低減することを目的とした目的関数を提案する。
論文 参考訳(メタデータ) (2022-07-01T07:04:28Z) - MOSRA: Joint Mean Opinion Score and Room Acoustics Speech Quality
Assessment [12.144133923535714]
本稿では,非侵入的多次元音声品質指標であるMOSRAについて述べる。
室内音響パラメータと音声品質の総合平均評価スコア(MOS)を同時に予測することができる。
また,この共同学習手法により,室内音響のブラインド推定が向上することを示す。
論文 参考訳(メタデータ) (2022-04-04T09:38:15Z) - Ctrl-P: Temporal Control of Prosodic Variation for Speech Synthesis [68.76620947298595]
テキストは音声形式を完全には規定しないので、テキストから音声へのモデルは、対応するテキストで説明されない方法で異なる音声データから学習できなければならない。
韻律の3つの一次音響相関に明示的に条件付けされた音声を生成するモデルを提案する。
論文 参考訳(メタデータ) (2021-06-15T18:03:48Z) - Learning robust speech representation with an articulatory-regularized
variational autoencoder [13.541055956177937]
顎、舌、唇、椎骨の構成を記述する調音パラメータを声道形状およびスペクトル特徴と関連付けることができる調音モデルを開発する。
この調音制約は,収束までの時間を短縮し,コンバージェンスにおける再構成損失を低減し,モデルトレーニングを改善できることを示す。
論文 参考訳(メタデータ) (2021-04-07T15:47:04Z) - Data Fusion for Audiovisual Speaker Localization: Extending Dynamic
Stream Weights to the Spatial Domain [103.3388198420822]
複数の話者の位置を推定することは、自動音声認識や話者ダイアリゼーションなどのタスクに役立ちます。
本稿では,個別の動的ストリーム重みを特定領域に割り当てることにより,話者定位のための新しい音声視覚データ融合フレームワークを提案する。
オーディオ・ヴィジュアル・レコードを用いた性能評価は,全てのベースラインモデルより優れた融合手法により,有望な結果をもたらす。
論文 参考訳(メタデータ) (2021-02-23T09:59:31Z) - High Fidelity Speech Regeneration with Application to Speech Enhancement [96.34618212590301]
本稿では,24khz音声をリアルタイムに生成できる音声のwav-to-wav生成モデルを提案する。
音声変換法に着想を得て,音源の同一性を保ちながら音声特性を増強する訓練を行った。
論文 参考訳(メタデータ) (2021-01-31T10:54:27Z) - Joint Blind Room Acoustic Characterization From Speech And Music Signals
Using Convolutional Recurrent Neural Networks [13.12834490248018]
残響時間、明瞭度、直接残響比は、残響環境を記述するために定義された音響パラメータである。
最近の音声と機械学習を組み合わせると、これらのパラメータは音声や音楽信号を使って盲目的に推定できる。
音声および/または音楽信号を用いた視覚的関節音響パラメータ推定のための頑健なエンドツーエンド手法を提案する。
論文 参考訳(メタデータ) (2020-10-21T17:41:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。