論文の概要: TAPLoss: A Temporal Acoustic Parameter Loss for Speech Enhancement
- arxiv url: http://arxiv.org/abs/2302.08088v1
- Date: Thu, 16 Feb 2023 04:57:11 GMT
- ステータス: 処理完了
- システム内更新日: 2023-02-17 14:52:08.638801
- Title: TAPLoss: A Temporal Acoustic Parameter Loss for Speech Enhancement
- Title(参考訳): TAPLoss:音声強調のための時間音響パラメータ損失
- Authors: Yunyang Zeng, Joseph Konan, Shuo Han, David Bick, Muqiao Yang, Anurag
Kumar, Shinji Watanabe, Bhiksha Raj
- Abstract要約: 周波数関連パラメータ,エネルギー・振幅関連パラメータ,スペクトルバランスパラメータ,時間的特徴の4種類の低レベル音響記述子の微分可能推定器を提案する。
音声強調における補助的目的としてTAPを加えることで、知覚的品質と知性を改善した音声が得られることを示す。
- 参考スコア(独自算出の注目度): 41.872384434583466
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Speech enhancement models have greatly progressed in recent years, but still
show limits in perceptual quality of their speech outputs. We propose an
objective for perceptual quality based on temporal acoustic parameters. These
are fundamental speech features that play an essential role in various
applications, including speaker recognition and paralinguistic analysis. We
provide a differentiable estimator for four categories of low-level acoustic
descriptors involving: frequency-related parameters, energy or
amplitude-related parameters, spectral balance parameters, and temporal
features. Unlike prior work that looks at aggregated acoustic parameters or a
few categories of acoustic parameters, our temporal acoustic parameter (TAP)
loss enables auxiliary optimization and improvement of many fine-grain speech
characteristics in enhancement workflows. We show that adding TAPLoss as an
auxiliary objective in speech enhancement produces speech with improved
perceptual quality and intelligibility. We use data from the Deep Noise
Suppression 2020 Challenge to demonstrate that both time-domain models and
time-frequency domain models can benefit from our method.
- Abstract(参考訳): 近年,音声強調モデルは非常に進歩しているが,音声出力の知覚的品質には限界がある。
時間的音響パラメータに基づく知覚品質の目標を提案する。
これらは、話者認識やパラ言語分析など、様々な用途において重要な役割を果たす基本的音声特徴である。
周波数関連パラメータ,エネルギー・振幅関連パラメータ,スペクトルバランスパラメータ,時間的特徴の4種類の低レベル音響記述子の微分可能推定器を提案する。
音響パラメータの集計や音響パラメータのカテゴリの先行研究とは異なり、時間的音響パラメータ(tap)損失は、強化ワークフローにおける多くの微細な音声特性の補助的最適化と改善を可能にする。
音声強調における補助的目的としてTAPLossを加えることで、知覚品質と知性を改善した音声が得られることを示す。
我々は、Deep Noise Suppression 2020 Challengeのデータを用いて、時間領域モデルと時間周波数ドメインモデルの両方が、我々の方法の恩恵を受けることができることを示す。
関連論文リスト
- What does it take to get state of the art in simultaneous speech-to-speech translation? [0.0]
本研究では,同時音声合成モデルの性能評価において観測される遅延特性について検討する。
本稿では,レイテンシのスパイクを最小限に抑え,全体的な性能を向上させる手法を提案する。
論文 参考訳(メタデータ) (2024-09-02T06:04:07Z) - High-Fidelity Speech Synthesis with Minimal Supervision: All Using
Diffusion Models [56.00939852727501]
最小教師付き音声合成は、2種類の離散音声表現を組み合わせることでTSを分離する。
非自己回帰フレームワークは、制御可能性を高め、持続拡散モデルは、多様化された韻律表現を可能にする。
論文 参考訳(メタデータ) (2023-09-27T09:27:03Z) - Analysing the Impact of Audio Quality on the Use of Naturalistic
Long-Form Recordings for Infant-Directed Speech Research [62.997667081978825]
早期言語習得のモデリングは、幼児が言語スキルをブートストラップする方法を理解することを目的としている。
近年の進歩により、より自然主義的なトレーニングデータを計算モデルに利用できるようになった。
音質がこれらのデータに対する分析やモデリング実験にどう影響するかは、現時点では不明である。
論文 参考訳(メタデータ) (2023-05-03T08:25:37Z) - Blind Acoustic Room Parameter Estimation Using Phase Features [4.473249957074495]
本稿では,新しい位相関連機能を活用して,近年のアプローチを拡張し,いわゆる「残響指紋」パラメータを盲目的に推定する。
これらの特徴の追加は、マグニチュードベースのスペクトル特徴のみに依存する既存の手法よりも優れていることが示されている。
論文 参考訳(メタデータ) (2023-03-13T20:05:41Z) - PAAPLoss: A Phonetic-Aligned Acoustic Parameter Loss for Speech
Enhancement [41.872384434583466]
知覚品質の違いを形式化する学習目標を提案する。
微分不可能な時間的音響パラメータを同定する。
時系列値を正確に予測できるニューラルネットワーク推定器を開発した。
論文 参考訳(メタデータ) (2023-02-16T05:17:06Z) - Improve Noise Tolerance of Robust Loss via Noise-Awareness [60.34670515595074]
本稿では,NARL-Adjuster(NARL-Adjuster for brevity)と呼ばれる,ハイパーパラメータ予測関数を適応的に学習するメタラーニング手法を提案する。
4つのSOTAロバストな損失関数を我々のアルゴリズムに統合し,提案手法の一般性および性能をノイズ耐性と性能の両面で検証した。
論文 参考訳(メタデータ) (2023-01-18T04:54:58Z) - Improving Speech Enhancement through Fine-Grained Speech Characteristics [42.49874064240742]
そこで本稿では,強調信号の知覚的品質と自然性の向上を目的とした音声強調手法を提案する。
まず,音声品質と相関する重要な音響パラメータを同定する。
次に,これらの特徴について,クリーン音声と拡張音声との差を低減することを目的とした目的関数を提案する。
論文 参考訳(メタデータ) (2022-07-01T07:04:28Z) - MOSRA: Joint Mean Opinion Score and Room Acoustics Speech Quality
Assessment [12.144133923535714]
本稿では,非侵入的多次元音声品質指標であるMOSRAについて述べる。
室内音響パラメータと音声品質の総合平均評価スコア(MOS)を同時に予測することができる。
また,この共同学習手法により,室内音響のブラインド推定が向上することを示す。
論文 参考訳(メタデータ) (2022-04-04T09:38:15Z) - Audio Impairment Recognition Using a Correlation-Based Feature
Representation [85.08880949780894]
本稿では,特徴対の相関に基づく手作り特徴の新しい表現を提案する。
実験段階において,コンパクトな特徴次元と計算速度の向上の観点から,優れた性能を示す。
論文 参考訳(メタデータ) (2020-03-22T13:34:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。