論文の概要: SE-MelGAN -- Speaker Agnostic Rapid Speech Enhancement
- arxiv url: http://arxiv.org/abs/2006.07637v1
- Date: Sat, 13 Jun 2020 13:26:37 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-21 21:26:54.370446
- Title: SE-MelGAN -- Speaker Agnostic Rapid Speech Enhancement
- Title(参考訳): se-melgan -- 話者非依存な高速音声強調
- Authors: Luka Chkhetiani, Levan Bejanidze
- Abstract要約: 本稿では,MelGANの学習音声特徴量に対する頑健さを,モデル修正作業を伴わずに音声強調領域に転送可能であることを提案する。
提案手法は,マルチ話者音声データセットを一般化し,未知の背景雑音を推論中に頑健に処理することができる。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Recent advancement in Generative Adversarial Networks in speech synthesis
domain[3],[2] have shown, that it's possible to train GANs [8] in a reliable
manner for high quality coherent waveform generation from mel-spectograms. We
propose that it is possible to transfer the MelGAN's [3] robustness in learning
speech features to speech enhancement and noise reduction domain without any
model modification tasks. Our proposed method generalizes over multi-speaker
speech dataset and is able to robustly handle unseen background noises during
the inference. Also, we show that by increasing the batch size for this
particular approach not only yields better speech results, but generalizes over
multi-speaker dataset easily and leads to faster convergence. Additionally, it
outperforms previous state of the art GAN approach for speech enhancement SEGAN
[5] in two domains: 1. quality ; 2. speed. Proposed method runs at more than
100x faster than realtime on GPU and more than 2x faster than real time on CPU
without any hardware optimization tasks, right at the speed of MelGAN [3].
- Abstract(参考訳): 音声合成領域[3],[2]における生成対立ネットワークの最近の進歩により,メルスペクトルから高品質なコヒーレント波形を生成するために,GAN[8]を信頼性の高い方法で訓練することが可能であることが示されている。
本稿では,MelGANの[3]言語特徴の頑健さを,モデル修正作業を伴わずに,音声強調処理や雑音低減処理領域に変換できることを提案する。
提案手法は,多話者音声データセットを一般化し,推定中に未知の背景雑音をロバストに処理できる。
また, この手法のバッチサイズを増大させることで, より優れた音声結果が得られるだけでなく, マルチ話者データセットよりも容易に一般化でき, より高速な収束がもたらされることを示す。
さらに、2つの領域における音声強調SEGAN [5] に対するアート GAN アプローチの先行状況よりも優れています。
品質
; 2. スピード。
提案手法は,GPU上ではリアルタイムよりも100倍以上高速で,CPU上ではハードウェア最適化タスクなしで,MelGAN[3]の速度で,リアルタイムよりも2倍以上高速で動作する。
関連論文リスト
- Speaking in Wavelet Domain: A Simple and Efficient Approach to Speed up Speech Diffusion Model [30.771631264129763]
Denoising Diffusion Probabilistic Models (DDPM)は、様々な生成タスクにおいて主要なパフォーマンスを達成した。
音声信号自体を変更することにより、DDPMのトレーニング/推論速度と性能を向上させることが可能か?
本稿では、生成対象をウェーブレット領域に単純にリダイレクトすることで、音声DDPMのトレーニング速度と推論速度を2倍にする。
論文 参考訳(メタデータ) (2024-02-16T12:43:01Z) - Improving Audio-Visual Speech Recognition by Lip-Subword Correlation
Based Visual Pre-training and Cross-Modal Fusion Encoder [58.523884148942166]
本稿では,事前学習および微調整訓練の枠組みの下で,音声視覚音声認識(AVSR)を改善するための2つの新しい手法を提案する。
まず, マンダリンにおける口唇形状と音節レベルサブワード単位の相関について検討し, 口唇形状から良好なフレームレベル音節境界を確立する。
次に,音声誘導型クロスモーダルフュージョンエンコーダ(CMFE)ニューラルネットワークを提案する。
論文 参考訳(メタデータ) (2023-08-14T08:19:24Z) - Boosting Fast and High-Quality Speech Synthesis with Linear Diffusion [85.54515118077825]
本稿では, 常微分方程式に基づく線形拡散モデル(LinDiff)を提案する。
計算複雑性を低減するため、LinDiffでは、入力信号を小さなパッチに分割するパッチベースの処理アプローチを採用している。
我々のモデルは、より高速な合成速度で自己回帰モデルに匹敵する品質の音声を合成することができる。
論文 参考訳(メタデータ) (2023-06-09T07:02:43Z) - Make-An-Audio 2: Temporal-Enhanced Text-to-Audio Generation [72.7915031238824]
大規模な拡散モデルは、テキスト・トゥ・オーディオ(T2A)合成タスクで成功している。
意味的不一致や時間的一貫性の低下といった共通の問題に悩まされることが多い。
我々は,Make-an-Audioの成功に基づいて,潜伏拡散に基づくT2A法であるMake-an-Audio 2を提案する。
論文 参考訳(メタデータ) (2023-05-29T10:41:28Z) - TranSpeech: Speech-to-Speech Translation With Bilateral Perturbation [61.564874831498145]
TranSpeechは、両側摂動を伴う音声から音声への翻訳モデルである。
我々は,非自己回帰S2ST手法を構築し,繰り返しマスキングを行い,単位選択を予測する。
TranSpeechは推論遅延を大幅に改善し、自動回帰技術よりも最大21.4倍のスピードアップを実現している。
論文 参考訳(メタデータ) (2022-05-25T06:34:14Z) - SVTS: Scalable Video-to-Speech Synthesis [105.29009019733803]
本稿では,ビデオ・トゥ・スペクトログラム予測器と事前学習したニューラルボコーダの2つのコンポーネントからなるスケーラブルなビデオ音声合成フレームワークを提案する。
私たちは、挑戦的なLSS3データセットで不可解な結果を示す最初の人です。
論文 参考訳(メタデータ) (2022-05-04T13:34:07Z) - FastDiff: A Fast Conditional Diffusion Model for High-Quality Speech
Synthesis [90.3069686272524]
本稿では,高品質音声合成のための高速条件拡散モデルであるFastDiffを提案する。
FastDiffは、長期の依存関係を効率的にモデル化するために、さまざまな受容的フィールドパターンの時間認識可能な位置可変の畳み込みを使用する。
我々は、FastDiffに基づいて、高忠実度音声波形を生成するエンドツーエンドのテキスト音声合成器FastDiff-TTSを設計する。
論文 参考訳(メタデータ) (2022-04-21T07:49:09Z) - WavThruVec: Latent speech representation as intermediate features for
neural speech synthesis [1.1470070927586016]
WavThruVecは、高次元のWav2Vec 2.0埋め込みを中間音声表現として使用することでボトルネックを解決する2段階アーキテクチャである。
提案モデルは,最先端のニューラルモデルの品質に適合するだけでなく,音声変換やゼロショット合成といったタスクを可能にする有用な特性も提示する。
論文 参考訳(メタデータ) (2022-03-31T10:21:08Z) - Speech-enhanced and Noise-aware Networks for Robust Speech Recognition [25.279902171523233]
音声強調と音声認識を協調的に最適化するために,2つのカスケードニューラルネットワーク構造に基づく雑音認識学習フレームワークを提案する。
提案した2つのシステムは,オーロラ4タスクにおいてそれぞれ3.90%と3.55%の単語誤り率(WER)を達成する。
CNN-TDNNF ベースのシステムは,Bigram と Trigram の言語モデルを用いた復号化システムと比較して,それぞれ 15.20% と 33.53% の WER 削減を実現している。
論文 参考訳(メタデータ) (2022-03-25T15:04:51Z) - Optimization of a Real-Time Wavelet-Based Algorithm for Improving Speech
Intelligibility [1.0554048699217666]
離散時間音声信号は、マルチレベル離散ウェーブレット変換を介して周波数サブバンドに分割される。
信号エネルギーを一定に保ちながらサブバンドゲインを調整する。
種々の背景干渉および模擬聴力損失条件下での音声の可聴性を向上させる。
論文 参考訳(メタデータ) (2022-02-05T13:03:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。