論文の概要: Improving Speech Enhancement through Fine-Grained Speech Characteristics
- arxiv url: http://arxiv.org/abs/2207.00237v1
- Date: Fri, 1 Jul 2022 07:04:28 GMT
- ステータス: 処理完了
- システム内更新日: 2022-07-04 14:50:22.378701
- Title: Improving Speech Enhancement through Fine-Grained Speech Characteristics
- Title(参考訳): きめ細かい音声特性による音声強調の改善
- Authors: Muqiao Yang, Joseph Konan, David Bick, Anurag Kumar, Shinji Watanabe,
Bhiksha Raj
- Abstract要約: そこで本稿では,強調信号の知覚的品質と自然性の向上を目的とした音声強調手法を提案する。
まず,音声品質と相関する重要な音響パラメータを同定する。
次に,これらの特徴について,クリーン音声と拡張音声との差を低減することを目的とした目的関数を提案する。
- 参考スコア(独自算出の注目度): 42.49874064240742
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: While deep learning based speech enhancement systems have made rapid progress
in improving the quality of speech signals, they can still produce outputs that
contain artifacts and can sound unnatural. We propose a novel approach to
speech enhancement aimed at improving perceptual quality and naturalness of
enhanced signals by optimizing for key characteristics of speech. We first
identify key acoustic parameters that have been found to correlate well with
voice quality (e.g. jitter, shimmer, and spectral flux) and then propose
objective functions which are aimed at reducing the difference between clean
speech and enhanced speech with respect to these features. The full set of
acoustic features is the extended Geneva Acoustic Parameter Set (eGeMAPS),
which includes 25 different attributes associated with perception of speech.
Given the non-differentiable nature of these feature computation, we first
build differentiable estimators of the eGeMAPS and then use them to fine-tune
existing speech enhancement systems. Our approach is generic and can be applied
to any existing deep learning based enhancement systems to further improve the
enhanced speech signals. Experimental results conducted on the Deep Noise
Suppression (DNS) Challenge dataset shows that our approach can improve the
state-of-the-art deep learning based enhancement systems.
- Abstract(参考訳): 深層学習に基づく音声強調システムは、音声信号の品質向上に急速に進歩してきたが、それでも人工物を含む出力を生成でき、不自然に聞こえる。
本稿では,音声の重要な特徴を最適化することにより,音質・自然性の向上を目的とした音声強調手法を提案する。
まず,音声品質(ジッタ,シマー,スペクトルフラックスなど)とよく相関している重要な音響パラメータを同定し,これらの特徴に対するクリーン音声と拡張音声の差を低減することを目的とした目的関数を提案する。
音響特徴の完全なセットは拡張ジュネーブ音響パラメータセット(egemaps)であり、音声の知覚に関連する25の異なる属性を含んでいる。
これらの特徴量計算の非微分性を考えると、まずeGeMAPSの微分可能推定器を構築し、既存の音声強調システムの微調整に使用する。
このアプローチは汎用的であり、既存のディープラーニングベースの拡張システムに適用でき、拡張された音声信号をさらに改善することができる。
深部ノイズ抑圧(dns)チャレンジデータセットを用いた実験の結果,本手法は最先端の深部学習に基づく強化システムを改善することができることがわかった。
関連論文リスト
- uSee: Unified Speech Enhancement and Editing with Conditional Diffusion
Models [57.71199494492223]
本稿では,条件付き拡散モデルを用いた統一音声強調編集(uSee)モデルを提案する。
実験の結果,提案したuSeeモデルは,他の生成的音声強調モデルと比較して,発声および発声の双方において優れた性能が得られることがわかった。
論文 参考訳(メタデータ) (2023-10-02T04:36:39Z) - PAAPLoss: A Phonetic-Aligned Acoustic Parameter Loss for Speech
Enhancement [41.872384434583466]
知覚品質の違いを形式化する学習目標を提案する。
微分不可能な時間的音響パラメータを同定する。
時系列値を正確に予測できるニューラルネットワーク推定器を開発した。
論文 参考訳(メタデータ) (2023-02-16T05:17:06Z) - TAPLoss: A Temporal Acoustic Parameter Loss for Speech Enhancement [41.872384434583466]
周波数関連パラメータ,エネルギー・振幅関連パラメータ,スペクトルバランスパラメータ,時間的特徴の4種類の低レベル音響記述子の微分可能推定器を提案する。
音声強調における補助的目的としてTAPを加えることで、知覚的品質と知性を改善した音声が得られることを示す。
論文 参考訳(メタデータ) (2023-02-16T04:57:11Z) - Interactive Feature Fusion for End-to-End Noise-Robust Speech
Recognition [25.84784710031567]
本稿では,ノイズロバスト音声認識のための対話型特徴融合ネットワーク(IFF-Net)を提案する。
実験の結果,提案手法は最良基準値に対して絶対単語誤り率(WER)を4.1%削減できることがわかった。
さらに分析した結果,提案したIFF-Netは,過度に抑圧された拡張機能において欠落した情報を補うことができることがわかった。
論文 参考訳(メタデータ) (2021-10-11T13:40:07Z) - High Fidelity Speech Regeneration with Application to Speech Enhancement [96.34618212590301]
本稿では,24khz音声をリアルタイムに生成できる音声のwav-to-wav生成モデルを提案する。
音声変換法に着想を得て,音源の同一性を保ちながら音声特性を増強する訓練を行った。
論文 参考訳(メタデータ) (2021-01-31T10:54:27Z) - Gated Recurrent Fusion with Joint Training Framework for Robust
End-to-End Speech Recognition [64.9317368575585]
本稿では,ロバスト・エンド・ツー・エンドASRのためのジョイント・トレーニング・フレームワークを用いたゲート・リカレント・フュージョン(GRF)法を提案する。
GRFアルゴリズムはノイズと拡張された特徴を動的に組み合わせるために使用される。
提案手法は従来の関節強化・変圧器法に比べて10.04%の相対的文字誤り率(CER)低減を実現する。
論文 参考訳(メタデータ) (2020-11-09T08:52:05Z) - An Overview of Deep-Learning-Based Audio-Visual Speech Enhancement and
Separation [57.68765353264689]
音声強調と音声分離は関連する2つの課題である。
伝統的に、これらのタスクは信号処理と機械学習技術を使って取り組まれてきた。
ディープラーニングは強力なパフォーマンスを達成するために利用されています。
論文 参考訳(メタデータ) (2020-08-21T17:24:09Z) - Improving Accent Conversion with Reference Encoder and End-To-End
Text-To-Speech [23.30022534796909]
アクセント変換(AC)は、話者の声の音色を維持しながら、非ネイティブ話者のアクセントをネイティブアクセントに変換する。
本稿では,アクセント変換の適用性の向上と品質向上のためのアプローチを提案する。
論文 参考訳(メタデータ) (2020-05-19T08:09:58Z) - Speech Enhancement using Self-Adaptation and Multi-Head Self-Attention [70.82604384963679]
本稿では,補助的話者認識機能を用いた音声強調のための自己適応手法について検討する。
テスト発話から直接適応に用いる話者表現を抽出する。
論文 参考訳(メタデータ) (2020-02-14T05:05:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。