論文の概要: Can We Trust Deep Speech Prior?
- arxiv url: http://arxiv.org/abs/2011.02110v1
- Date: Wed, 4 Nov 2020 03:35:21 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-29 23:16:36.701946
- Title: Can We Trust Deep Speech Prior?
- Title(参考訳): ディープスピーチは先取りできるのか?
- Authors: Ying Shi, Haolin Chen, Zhiyuan Tang, Lantian Li, Dong Wang and Jiqing
Han
- Abstract要約: 事前の深層音声に基づく音声強調が注目されている。
深層音声の先行処理により,適切なSE性能が得られるが,その結果は準最適である可能性が示唆された。
慎重な分析により、この問題は、深層生成モデルの柔軟性と最大様相訓練(ML)の性質との間の不整合に深く根ざしていることが示された。
- 参考スコア(独自算出の注目度): 28.330696324454074
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recently, speech enhancement (SE) based on deep speech prior has attracted
much attention, such as the variational auto-encoder with non-negative matrix
factorization (VAE-NMF) architecture. Compared to conventional approaches that
represent clean speech by shallow models such as Gaussians with a low-rank
covariance, the new approach employs deep generative models to represent the
clean speech, which often provides a better prior. Despite the clear advantage
in theory, we argue that deep priors must be used with much caution, since the
likelihood produced by a deep generative model does not always coincide with
the speech quality. We designed a comprehensive study on this issue and
demonstrated that based on deep speech priors, a reasonable SE performance can
be achieved, but the results might be suboptimal. A careful analysis showed
that this problem is deeply rooted in the disharmony between the flexibility of
deep generative models and the nature of the maximum-likelihood (ML) training.
- Abstract(参考訳): 近年,非負行列分解(VAE-NMF)アーキテクチャを用いた変分オートエンコーダなど,深層音声に基づく音声強調(SE)が注目されている。
低ランクな共分散を持つガウスのような浅いモデルによるクリーン音声を表現する従来のアプローチと比較して、新しいアプローチでは、クリーン音声を表現するために深い生成モデルを採用している。
理論上は明らかな優位性にもかかわらず、深層生成モデルが生み出す可能性は常に音声品質と一致しないため、深部事前は慎重に利用する必要があると論じる。
我々はこの問題に関する総合的な研究を設計し、深層音声の先行結果に基づいて妥当なSE性能が達成できることを示したが、その結果は準最適かもしれない。
慎重な分析により、この問題は、深層生成モデルの柔軟性と最大様相訓練(ML)の性質との間の不整合に深く根ざしていることが示された。
関連論文リスト
- SpeechAlign: Aligning Speech Generation to Human Preferences [51.684183257809075]
本稿では,言語モデルと人間の嗜好を一致させる反復的自己改善戦略であるSpeechAlignを紹介する。
我々は、SpeechAlignが分散ギャップを埋め、言語モデルの継続的自己改善を促進することができることを示す。
論文 参考訳(メタデータ) (2024-04-08T15:21:17Z) - Towards Improved Variational Inference for Deep Bayesian Models [7.841254447222393]
本論では,変分推論(VI)を近似として用いることを検討する。
VI は後部を同時に近似し、限界度に低い境界を与えるという点で特異である。
本稿ではベイズニューラルネットワークと深いガウス過程における推論の統一的なビューを提供する変分後部を提案する。
論文 参考訳(メタデータ) (2024-01-23T00:40:20Z) - Generative Pre-training for Speech with Flow Matching [81.59952572752248]
我々は,フローマッチングとマスク条件を併用した60k時間の無転写音声に対して,SpeechFlowという生成モデルを事前学習した。
実験結果から,事前学習した生成モデルをタスク固有のデータで微調整し,音声強調,分離,合成に関する既存の専門家モデルに適合または超えることを示す。
論文 参考訳(メタデータ) (2023-10-25T03:40:50Z) - DASA: Difficulty-Aware Semantic Augmentation for Speaker Verification [55.306583814017046]
本稿では,話者認証のための難易度認識型セマンティック拡張(DASA)手法を提案する。
DASAは、話者埋め込み空間における多様なトレーニングサンプルを、無視できる余分な計算コストで生成する。
最も良い結果は、CN-Celeb評価セット上でのEER測定値の14.6%の相対的な減少を達成する。
論文 参考訳(メタデータ) (2023-10-18T17:07:05Z) - HyPoradise: An Open Baseline for Generative Speech Recognition with
Large Language Models [81.56455625624041]
ASRの誤り訂正に外部の大規模言語モデル(LLM)を利用する最初のオープンソースベンチマークを導入する。
提案したベンチマークには、334,000組以上のN-best仮説を含む新しいデータセットHyPoradise (HP)が含まれている。
合理的なプロンプトと生成能力を持つLLMは、N-bestリストに欠けているトークンを修正できる。
論文 参考訳(メタデータ) (2023-09-27T14:44:10Z) - Unsupervised speech enhancement with diffusion-based generative models [0.0]
拡散モデルの生成力を生かし、教師なしの方法で機能する代替手法を提案する。
本研究では,学習したクリーン音声と音声信号推論のための雑音モデルを組み合わせることで,音声強調のための後部サンプリング手法を開発した。
近年の変分オートエンコーダ (VAE) による教師なし手法と, 最先端の拡散型教師方式と比較して, 有望な結果が得られた。
論文 参考訳(メタデータ) (2023-09-19T09:11:31Z) - Predicting phoneme-level prosody latents using AR and flow-based Prior
Networks for expressive speech synthesis [3.6159128762538018]
フローに基づく事前ネットワークの正規化は,品質の低下を犠牲にして,より表現力の高い音声が得られることを示す。
また,フローベースモデルと比較して表現性や変動性は低いものの,高品質な音声を生成できる動的VAEモデルを提案する。
論文 参考訳(メタデータ) (2022-11-02T17:45:01Z) - Deep Grey-Box Modeling With Adaptive Data-Driven Models Toward
Trustworthy Estimation of Theory-Driven Models [88.63781315038824]
本稿では,ニューラルネットワークのアーキテクチャとトレーニング目標にわずかな変化を伴って,レギュレータの動作を経験的に分析することのできるフレームワークを提案する。
論文 参考訳(メタデータ) (2022-10-24T10:42:26Z) - Discretization and Re-synthesis: an alternative method to solve the
Cocktail Party Problem [65.25725367771075]
この研究は、初めて合成に基づくアプローチがこの問題にうまく対応できることを示した。
具体的には,離散シンボルの認識に基づく音声分離/強調モデルを提案する。
離散シンボルの入力による合成モデルを利用することで、離散シンボル列の予測後、各ターゲット音声を再合成することができる。
論文 参考訳(メタデータ) (2021-12-17T08:35:40Z) - Deep Speaker Vector Normalization with Maximum Gaussianality Training [13.310988353839237]
ディープスピーカ埋め込みの鍵となる問題は、結果のディープスピーカベクトルが不規則に分散する傾向があることである。
従来の研究では,新しい識別正規化フロー(DNF)モデルに基づく深部正規化手法を提案した。
この顕著な成功にもかかわらず、DNFモデルによって生成される潜伏符号は概して同質でもガウス的でもないことを実証的に見出した。
本稿では,潜在符号のガウス性を直接最大化する最大ガウス性(MG)トレーニング手法を提案する。
論文 参考訳(メタデータ) (2020-10-30T09:42:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。