論文の概要: Real Time Speech Enhancement in the Waveform Domain
- arxiv url: http://arxiv.org/abs/2006.12847v3
- Date: Sun, 6 Sep 2020 14:32:59 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-17 22:34:12.261683
- Title: Real Time Speech Enhancement in the Waveform Domain
- Title(参考訳): 波形領域におけるリアルタイム音声強調
- Authors: Alexandre Defossez, Gabriel Synnaeve, Yossi Adi
- Abstract要約: 本稿では,ラップトップCPU上でリアルタイムに動作する生波形を用いた因果音声強調モデルを提案する。
提案モデルは、スキップ接続を持つエンコーダデコーダアーキテクチャに基づいている。
静止ノイズや非定常ノイズを含む様々な背景ノイズを除去することができる。
- 参考スコア(独自算出の注目度): 99.02180506016721
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present a causal speech enhancement model working on the raw waveform that
runs in real-time on a laptop CPU. The proposed model is based on an
encoder-decoder architecture with skip-connections. It is optimized on both
time and frequency domains, using multiple loss functions. Empirical evidence
shows that it is capable of removing various kinds of background noise
including stationary and non-stationary noises, as well as room reverb.
Additionally, we suggest a set of data augmentation techniques applied directly
on the raw waveform which further improve model performance and its
generalization abilities. We perform evaluations on several standard
benchmarks, both using objective metrics and human judgements. The proposed
model matches state-of-the-art performance of both causal and non causal
methods while working directly on the raw waveform.
- Abstract(参考訳): 本稿では,ラップトップCPU上でリアルタイムに動作する生波形を用いた因果音声強調モデルを提案する。
提案モデルは、スキップ接続を持つエンコーダデコーダアーキテクチャに基づいている。
時間と周波数の両方に最適化され、複数の損失関数を使用する。
実験的な証拠は、静止騒音や非定常騒音、室内残響など、様々な種類の背景雑音を除去できることを示している。
さらに、生波形に直接適用されるデータ拡張手法のセットを提案し、モデルの性能と一般化能力をさらに向上させる。
客観的指標と人的判断の両方を用いて、いくつかの標準ベンチマークで評価を行う。
提案モデルは,生波形を直接処理しながら,因果法と非因果法の両方の最先端性能に適合する。
関連論文リスト
- Audio Decoding by Inverse Problem Solving [1.0612107014404766]
我々は,音声復号化を逆問題とみなし,拡散後サンプリングを用いて解決する。
変換領域知覚音声の例によって提供される信号測定のための明示的条件付け関数を開発した。
論文 参考訳(メタデータ) (2024-09-12T09:05:18Z) - DiffAR: Denoising Diffusion Autoregressive Model for Raw Speech Waveform
Generation [25.968115316199246]
本研究では,生音声波形を生成する拡散確率的エンドツーエンドモデルを提案する。
我々のモデルは自己回帰的であり、重なり合うフレームを生成し、各フレームは以前に生成されたフレームの一部に条件付けされる。
実験により,提案モデルが他の最先端のニューラル音声生成システムと比較して,高品質な音声を生成することが示された。
論文 参考訳(メタデータ) (2023-10-02T17:42:22Z) - From Discrete Tokens to High-Fidelity Audio Using Multi-Band Diffusion [84.138804145918]
深層生成モデルは、様々な種類の表現で条件付けられた高忠実度オーディオを生成することができる。
これらのモデルは、条件付けに欠陥がある場合や不完全な場合、可聴アーチファクトを生成する傾向がある。
低ビットレート離散表現から任意の種類のオーディオモダリティを生成する高忠実度マルチバンド拡散ベースフレームワークを提案する。
論文 参考訳(メタデータ) (2023-08-02T22:14:29Z) - Boosting Fast and High-Quality Speech Synthesis with Linear Diffusion [85.54515118077825]
本稿では, 常微分方程式に基づく線形拡散モデル(LinDiff)を提案する。
計算複雑性を低減するため、LinDiffでは、入力信号を小さなパッチに分割するパッチベースの処理アプローチを採用している。
我々のモデルは、より高速な合成速度で自己回帰モデルに匹敵する品質の音声を合成することができる。
論文 参考訳(メタデータ) (2023-06-09T07:02:43Z) - Separate And Diffuse: Using a Pretrained Diffusion Model for Improving
Source Separation [99.19786288094596]
上界をランダムな生成モデルに一般化する方法を示す。
複数のベンチマークで2, 3, 5, 10, 20人の話者に最先端の結果を示す。
論文 参考訳(メタデータ) (2023-01-25T18:21:51Z) - Speech Denoising in the Waveform Domain with Self-Attention [27.84933221217885]
生波形上での因果的発声モデルであるCleanUNetを提案する。
提案モデルは,エンコーダ・デコーダアーキテクチャといくつかの自己アテンションブロックを組み合わせることで,ボトルネック表現を洗練させる。
論文 参考訳(メタデータ) (2022-02-15T23:44:02Z) - A Study on Speech Enhancement Based on Diffusion Probabilistic Model [63.38586161802788]
雑音信号からクリーンな音声信号を復元することを目的とした拡散確率モデルに基づく音声強調モデル(DiffuSE)を提案する。
実験結果から、DiffuSEは、標準化されたVoice Bankコーパスタスクにおいて、関連する音声生成モデルに匹敵する性能が得られることがわかった。
論文 参考訳(メタデータ) (2021-07-25T19:23:18Z) - Voice2Series: Reprogramming Acoustic Models for Time Series
Classification [65.94154001167608]
Voice2Seriesは、時系列分類のための音響モデルをプログラムする新しいエンドツーエンドアプローチである。
V2Sは20のタスクで性能が優れるか、最先端のメソッドと結びついているかを示し、平均精度を1.84%向上させる。
論文 参考訳(メタデータ) (2021-06-17T07:59:15Z) - Restoring degraded speech via a modified diffusion model [28.90259510094427]
本稿では、元の音声信号の復元を目的としたDiffWaveモデルの修正に基づくニューラルネットワークアーキテクチャを提案する。
DiffWave のmel-spectrum upsampler をディープ CNN upsampler に置き換えます。
提案モデルにより,複数の実験において音声品質(元はベースラインとしてのDiffWaveモデル)が改善された。
論文 参考訳(メタデータ) (2021-04-22T23:03:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。