論文の概要: Discretization and Re-synthesis: an alternative method to solve the
Cocktail Party Problem
- arxiv url: http://arxiv.org/abs/2112.09382v1
- Date: Fri, 17 Dec 2021 08:35:40 GMT
- ステータス: 処理完了
- システム内更新日: 2021-12-20 15:42:42.831885
- Title: Discretization and Re-synthesis: an alternative method to solve the
Cocktail Party Problem
- Title(参考訳): 離散化と再合成 : カクテルパーティ問題に対する代替法
- Authors: Jing Shi, Xuankai Chang, Tomoki Hayashi, Yen-Ju Lu, Shinji Watanabe,
Bo Xu
- Abstract要約: この研究は、初めて合成に基づくアプローチがこの問題にうまく対応できることを示した。
具体的には,離散シンボルの認識に基づく音声分離/強調モデルを提案する。
離散シンボルの入力による合成モデルを利用することで、離散シンボル列の予測後、各ターゲット音声を再合成することができる。
- 参考スコア(独自算出の注目度): 65.25725367771075
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Deep learning based models have significantly improved the performance of
speech separation with input mixtures like the cocktail party. Prominent
methods (e.g., frequency-domain and time-domain speech separation) usually
build regression models to predict the ground-truth speech from the mixture,
using the masking-based design and the signal-level loss criterion (e.g., MSE
or SI-SNR). This study demonstrates, for the first time, that the
synthesis-based approach can also perform well on this problem, with great
flexibility and strong potential. Specifically, we propose a novel speech
separation/enhancement model based on the recognition of discrete symbols, and
convert the paradigm of the speech separation/enhancement related tasks from
regression to classification. By utilizing the synthesis model with the input
of discrete symbols, after the prediction of discrete symbol sequence, each
target speech could be re-synthesized. Evaluation results based on the
WSJ0-2mix and VCTK-noisy corpora in various settings show that our proposed
method can steadily synthesize the separated speech with high speech quality
and without any interference, which is difficult to avoid in regression-based
methods. In addition, with negligible loss of listening quality, the speaker
conversion of enhanced/separated speech could be easily realized through our
method.
- Abstract(参考訳): 深層学習に基づくモデルでは、カクテルパーティーのような入力混合物による音声分離の性能が大幅に向上した。
著名な手法(例えば周波数領域と時間領域の音声分離)は、通常、マスキングに基づく設計と信号レベルの損失基準(例えばmseまたはsi-snr)を用いて、混合から基底音声を予測する回帰モデルを構築する。
この研究は、初めて、合成に基づくアプローチが、高い柔軟性と強いポテンシャルを持って、この問題にうまく対応できることを示した。
具体的には,離散記号認識に基づく新しい音声分離・強調モデルを提案し,音声分離・強調関連課題のパラダイムを回帰から分類へ変換する。
離散シンボルの入力による合成モデルを利用することで、離散シンボル列の予測後、各ターゲット音声を再合成することができる。
様々な設定におけるWSJ0-2mixとVCTK-noisy corporaに基づく評価結果から,提案手法は高い音声品質と干渉のない分離音声を着実に合成し,回帰に基づく手法では避け難いことを示す。
また, 聞き取り品質が損なわれることなく, 拡張/分離音声の話者変換を簡便に実現することができた。
関連論文リスト
- Autoregressive Speech Synthesis without Vector Quantization [135.4776759536272]
テキストから音声合成(TTS)のための新しい連続値トークンに基づく言語モデリング手法であるMELLEを提案する。
MELLEはテキスト条件から直接連続メル-スペクトログラムフレームを自動回帰生成する。
論文 参考訳(メタデータ) (2024-07-11T14:36:53Z) - AutoCycle-VC: Towards Bottleneck-Independent Zero-Shot Cross-Lingual
Voice Conversion [2.3443118032034396]
本稿では,サイクル構造とメル-スペクトログラム前処理を備えた,シンプルで堅牢なゼロショット音声変換システムを提案する。
我々のモデルは、主観的・客観的評価において、既存の最先端の成果よりも優れています。
論文 参考訳(メタデータ) (2023-10-10T11:50:16Z) - High-Fidelity Speech Synthesis with Minimal Supervision: All Using
Diffusion Models [56.00939852727501]
最小教師付き音声合成は、2種類の離散音声表現を組み合わせることでTSを分離する。
非自己回帰フレームワークは、制御可能性を高め、持続拡散モデルは、多様化された韻律表現を可能にする。
論文 参考訳(メタデータ) (2023-09-27T09:27:03Z) - Zero-shot text-to-speech synthesis conditioned using self-supervised
speech representation model [13.572330725278066]
提案手法の新たなポイントは、大量のデータで訓練された音声表現から組込みベクトルを得るためにSSLモデルを直接利用することである。
この不整合埋め込みにより、未知話者の再生性能が向上し、異なる音声によるリズム伝達が実現される。
論文 参考訳(メタデータ) (2023-04-24T10:15:58Z) - Single-channel speech separation using Soft-minimum Permutation
Invariant Training [60.99112031408449]
教師付き音声分離における長寿命問題は、それぞれの分離された音声信号の正しいラベルを見つけることである。
Permutation Invariant Training (PIT) はラベルあいまいさ問題に対処する上で有望な解決策であることが示されている。
そこで本研究では,PITの不効率に対処する確率的最適化フレームワークを提案する。
論文 参考訳(メタデータ) (2021-11-16T17:25:05Z) - A Study on Speech Enhancement Based on Diffusion Probabilistic Model [63.38586161802788]
雑音信号からクリーンな音声信号を復元することを目的とした拡散確率モデルに基づく音声強調モデル(DiffuSE)を提案する。
実験結果から、DiffuSEは、標準化されたVoice Bankコーパスタスクにおいて、関連する音声生成モデルに匹敵する性能が得られることがわかった。
論文 参考訳(メタデータ) (2021-07-25T19:23:18Z) - Advances in Speech Vocoding for Text-to-Speech with Continuous
Parameters [2.6572330982240935]
本稿では,連続的なボコーダにおいて,全ての特徴が連続的であり,フレキシブルな音声合成システムを示す新しい手法を提案する。
位相歪みに基づく新しい連続雑音マスキングを提案し,残音の知覚的影響を排除した。
双方向長短期記憶 (LSTM) とゲートリカレント単位 (GRU) について検討し, 連続パラメータのモデル化に応用した。
論文 参考訳(メタデータ) (2021-06-19T12:05:01Z) - Grad-TTS: A Diffusion Probabilistic Model for Text-to-Speech [4.348588963853261]
メルスペクトルを生成するスコアベースデコーダを用いた新しい音声合成モデルGrad-TTSを提案する。
フレキシブル微分方程式の枠組みは、従来の拡散確率モデルを一般化するのに役立ちます。
主観評価の結果,Grad-TTS は平均オピニオンスコアにおいて最先端の音声合成手法と競合していることがわかった。
論文 参考訳(メタデータ) (2021-05-13T14:47:44Z) - Statistical Context-Dependent Units Boundary Correction for Corpus-based
Unit-Selection Text-to-Speech [1.4337588659482519]
本稿では, 分割の精度を向上させるために, 単位選択テキスト音声(TTS)システムに適用するための, 話者適応のための革新的な手法を提案する。
従来の話者適応手法とは違って,言語分析手法を応用した文脈依存特性のみの利用を目標としている。
論文 参考訳(メタデータ) (2020-03-05T12:42:13Z) - Temporal-Spatial Neural Filter: Direction Informed End-to-End
Multi-channel Target Speech Separation [66.46123655365113]
ターゲット音声分離とは、混合信号からターゲット話者の音声を抽出することを指す。
主な課題は、複雑な音響環境とリアルタイム処理の要件である。
複数話者混合から対象音声波形を直接推定する時間空間ニューラルフィルタを提案する。
論文 参考訳(メタデータ) (2020-01-02T11:12:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。