論文の概要: Improving Perceptual Quality by Phone-Fortified Perceptual Loss using
Wasserstein Distance for Speech Enhancement
- arxiv url: http://arxiv.org/abs/2010.15174v3
- Date: Tue, 27 Apr 2021 08:14:56 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-02 06:30:35.759292
- Title: Improving Perceptual Quality by Phone-Fortified Perceptual Loss using
Wasserstein Distance for Speech Enhancement
- Title(参考訳): 音声強調のためのwasserstein距離を用いた音声強弱による知覚品質の向上
- Authors: Tsun-An Hsieh, Cheng Yu, Szu-Wei Fu, Xugang Lu, and Yu Tsao
- Abstract要約: 本稿では,SEモデルの訓練を考慮に入れたPFPL( Phone-fortified Perceptual Los)を提案する。
音声情報を効果的に組み込むために、wav2vecモデルの潜在表現に基づいてPFPLを演算する。
実験の結果,PFPLは信号レベルの損失に比べて知覚的評価指標と相関することがわかった。
- 参考スコア(独自算出の注目度): 23.933935913913043
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Speech enhancement (SE) aims to improve speech quality and intelligibility,
which are both related to a smooth transition in speech segments that may carry
linguistic information, e.g. phones and syllables. In this study, we propose a
novel phone-fortified perceptual loss (PFPL) that takes phonetic information
into account for training SE models. To effectively incorporate the phonetic
information, the PFPL is computed based on latent representations of the
wav2vec model, a powerful self-supervised encoder that renders rich phonetic
information. To more accurately measure the distribution distances of the
latent representations, the PFPL adopts the Wasserstein distance as the
distance measure. Our experimental results first reveal that the PFPL is more
correlated with the perceptual evaluation metrics, as compared to signal-level
losses. Moreover, the results showed that the PFPL can enable a deep complex
U-Net SE model to achieve highly competitive performance in terms of
standardized quality and intelligibility evaluations on the Voice Bank-DEMAND
dataset.
- Abstract(参考訳): 音声強調(SE)は、言語情報(例えば、電話や音節など)を伝達する音声セグメントのスムーズな遷移に関連する、音声品質とインテリジェンスの改善を目的としている。
そこで本研究では,SEモデルを訓練するための音声情報を取り入れたPFPL( Phone-fortified Perceptual Los)を提案する。
音声情報を効果的に組み込むために、豊富な音声情報を描画する強力な自己教師付きエンコーダであるwav2vecモデルの潜在表現に基づいてpfplを算出する。
潜在表現の分布距離をより正確に測定するために、PFPLはワッサーシュタイン距離を距離測度として採用する。
実験の結果,pfplは信号レベルの損失と比較して知覚的評価指標と相関が強いことが明らかとなった。
さらに、PFPLは、Voice Bank-DEMANDデータセットの標準化された品質とインテリジェンス評価の観点から、深い複雑なU-Net SEモデルを高い競争性能を達成することができることを示した。
関連論文リスト
- Psychoacoustic Challenges Of Speech Enhancement On VoIP Platforms [19.122454483635615]
この研究は、Deep Noise Suppression (DNS) 2020データセットに基づいており、様々なデノナイジング設定やレシーバインターフェースに合わせて、構造化された検査を確実にする。
Blinder-Oaxaca分解(Blinder-Oaxaca decomposition)は、従来のエコノメトリーツールであり、VoIPシステム内の音響・音響的摂動を解析するための手法である。
主な発見に加えて、さまざまな指標が報告され、研究のパースペクションが拡張された。
論文 参考訳(メタデータ) (2023-10-11T03:19:22Z) - Deliberation Model for On-Device Spoken Language Understanding [69.5587671262691]
我々は、エンドツーエンド(E2E)音声言語理解(SLU)に対する新しい議論に基づくアプローチを提案する。
提案手法は,自然言語から合成音声訓練に移行する際の劣化を著しく低減できることを示す。
論文 参考訳(メタデータ) (2022-04-04T23:48:01Z) - Self-Supervised Learning for speech recognition with Intermediate layer
supervision [52.93758711230248]
自己教師付き学習(ILS-SSL)のための中間層スーパービジョンを提案する。
ILS-SSLは、中間層にSSL損失を追加することで、可能な限りコンテンツ情報に集中させます。
LibriSpeech の他のテストセットの実験により,本手法は HuBERT を著しく上回っていることがわかった。
論文 参考訳(メタデータ) (2021-12-16T10:45:05Z) - LDNet: Unified Listener Dependent Modeling in MOS Prediction for
Synthetic Speech [67.88748572167309]
本稿では,平均世論スコア(MOS)予測のための統合フレームワークLDNetを提案する。
より安定した結果と効率的な計算を提供する2つの推論手法を提案する。
論文 参考訳(メタデータ) (2021-10-18T08:52:31Z) - Private Language Model Adaptation for Speech Recognition [15.726921748859393]
音声モデルの適応は、サーバ側のプロキシトレーニングデータとユーザのローカルデバイスで受信した実際のデータとの相違を扱うために不可欠である。
本稿では,ニューラルネットワーク言語モデル(NNLM)を,音声認識に応用したプライベートデバイスに継続的に適用するための効率的なアプローチを提案する。
論文 参考訳(メタデータ) (2021-09-28T00:15:43Z) - Pre-training for Spoken Language Understanding with Joint Textual and
Phonetic Representation Learning [4.327558819000435]
音声表現を学習するための新しいテキスト音声前訓練手法を提案する。
音声言語理解ベンチマークであるFluent Speech CommandsとSNIPSの実験結果から,提案手法は強いベースラインモデルよりも有意に優れていることが示された。
論文 参考訳(メタデータ) (2021-04-21T05:19:13Z) - Bridging the Gap Between Clean Data Training and Real-World Inference
for Spoken Language Understanding [76.89426311082927]
既存のモデルはクリーンデータに基づいてトレーニングされ、クリーンデータトレーニングと現実世界の推論の間にtextitgapが発生する。
本稿では,良質なサンプルと低品質のサンプルの両方が類似ベクトル空間に埋め込まれた領域適応法を提案する。
広く使用されているデータセット、スニップス、および大規模な社内データセット(1000万のトレーニング例)に関する実験では、この方法は実世界の(騒々しい)コーパスのベースラインモデルを上回るだけでなく、堅牢性、すなわち、騒々しい環境下で高品質の結果を生み出すことを実証しています。
論文 参考訳(メタデータ) (2021-04-13T17:54:33Z) - Improving Speech Enhancement Performance by Leveraging Contextual Broad
Phonetic Class Information [33.79855927394387]
音声強調のための追加情報として,音節属性の文脈情報について検討する。
本稿では,エンド・ツー・エンドの自動音声認識モデルによる損失を利用してSE性能を向上させることを提案する。
その結果,文脈的BPC情報によりSE性能が向上することが確認された。
論文 参考訳(メタデータ) (2020-11-15T03:56:37Z) - Speaker Representation Learning using Global Context Guided Channel and
Time-Frequency Transformations [67.18006078950337]
グローバルな文脈情報を用いて、重要なチャネルを強化し、有意義な時間周波数位置を再検討する。
提案されたモジュールは、人気のあるResNetベースのモデルとともに、VoxCeleb1データセットで評価される。
論文 参考訳(メタデータ) (2020-09-02T01:07:29Z) - Deep Speaker Embeddings for Far-Field Speaker Recognition on Short
Utterances [53.063441357826484]
深層話者埋め込みに基づく話者認識システムは,制御条件下での大幅な性能向上を実現している。
制御されていない雑音環境下での短い発話に対する話者検証は、最も困難で要求の高いタスクの1つである。
本稿では,a)環境騒音の有無による遠距離話者検証システムの品質向上,b)短時間発話におけるシステム品質劣化の低減という2つの目標を達成するためのアプローチを提案する。
論文 参考訳(メタデータ) (2020-02-14T13:34:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。