論文の概要: Enhancing Gappy Speech Audio Signals with Generative Adversarial
Networks
- arxiv url: http://arxiv.org/abs/2305.05780v1
- Date: Tue, 9 May 2023 21:58:54 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-11 15:14:29.616795
- Title: Enhancing Gappy Speech Audio Signals with Generative Adversarial
Networks
- Title(参考訳): 生成型adversarial networkを用いた音声信号のギャップ化
- Authors: Deniss Strods and Alan F. Smeaton
- Abstract要約: ガップ、ドロップアウト、音声の短いクリップは一般的な問題であり、特に音声で発生すると厄介になる。
本稿では,機械学習を用いて音声信号に最大320msのギャップを再生する。
- 参考スコア(独自算出の注目度): 3.236217153362305
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Gaps, dropouts and short clips of corrupted audio are a common problem and
particularly annoying when they occur in speech. This paper uses machine
learning to regenerate gaps of up to 320ms in an audio speech signal. Audio
regeneration is translated into image regeneration by transforming audio into a
Mel-spectrogram and using image in-painting to regenerate the gaps. The full
Mel-spectrogram is then transferred back to audio using the Parallel-WaveGAN
vocoder and integrated into the audio stream. Using a sample of 1300 spoken
audio clips of between 1 and 10 seconds taken from the publicly-available
LJSpeech dataset our results show regeneration of audio gaps in close to real
time using GANs with a GPU equipped system. As expected, the smaller the gap in
the audio, the better the quality of the filled gaps. On a gap of 240ms the
average mean opinion score (MOS) for the best performing models was 3.737, on a
scale of 1 (worst) to 5 (best) which is sufficient for a human to perceive as
close to uninterrupted human speech.
- Abstract(参考訳): ギャップ、ドロップアウト、破損したオーディオの短いクリップは一般的な問題であり、特に音声で発生すると面倒です。
本稿では,機械学習を用いて音声信号に最大320msのギャップを再生する。
オーディオをMel-spectrogramに変換し、画像インペイントを用いてギャップを再生することにより、オーディオ再生を画像再生する。
完全なMel-spectrogramはParallel-WaveGAN vocoderを使ってオーディオに転送され、オーディオストリームに統合される。
公開されているLJSpeechデータセットから1300の音声クリップを1秒から10秒間採取したサンプルを用いて,GPUを用いたGANを用いて,音声ギャップの再生をほぼリアルタイムで行った。
予想通り、オーディオのギャップが小さくなればなるほど、充満したギャップの品質が向上します。
240msの差では、最高パフォーマンスモデルの平均平均評価スコア(mos)は3.737で、1(worst)から5(best)までスケールし、人間の発話が途切れないほど知覚するのに十分である。
関連論文リスト
- Large-scale unsupervised audio pre-training for video-to-speech
synthesis [64.86087257004883]
音声合成は、話者の無声映像から音声信号を再構成する作業である。
本稿では,24kHzで3,500時間以上のオーディオデータをエンコーダ・デコーダモデルでトレーニングすることを提案する。
次に、事前学習したデコーダを用いて、音声合成タスクの音声デコーダを初期化する。
論文 参考訳(メタデータ) (2023-06-27T13:31:33Z) - Make-An-Audio: Text-To-Audio Generation with Prompt-Enhanced Diffusion
Models [65.18102159618631]
マルチモーダル生成モデリングは、テキスト・ツー・イメージとテキスト・ツー・ビデオ生成においてマイルストーンを生み出した。
高品質のテキストオーディオペアを備えた大規模データセットの欠如、長期連続的なオーディオデータのモデリングの複雑さ、という2つの主な理由から、オーディオへの適用は依然として遅れている。
本稿では,これらのギャップに対処する急激な拡散モデルを用いたMake-An-Audioを提案する。
論文 参考訳(メタデータ) (2023-01-30T04:44:34Z) - LA-VocE: Low-SNR Audio-visual Speech Enhancement using Neural Vocoders [53.30016986953206]
雑音の多い音声・視覚音声からのメルスペクトルをトランスフォーマーベースアーキテクチャにより予測する2段階のアプローチであるLA-VocEを提案する。
我々は、何千もの話者と11以上の異なる言語でフレームワークを訓練し、評価し、異なるレベルのバックグラウンドノイズや音声干渉に適応するモデルの能力について研究する。
論文 参考訳(メタデータ) (2022-11-20T15:27:55Z) - AudioGen: Textually Guided Audio Generation [116.57006301417306]
記述文キャプションに条件付き音声サンプルを生成する問題に対処する。
本研究では,テキスト入力に条件付き音声サンプルを生成する自動回帰モデルであるAaudioGenを提案する。
論文 参考訳(メタデータ) (2022-09-30T10:17:05Z) - FastLTS: Non-Autoregressive End-to-End Unconstrained Lip-to-Speech
Synthesis [77.06890315052563]
我々は、低レイテンシで非拘束音声から高品質な音声を直接合成できる非自己回帰的エンドツーエンドモデルであるFastLTSを提案する。
実験により,本モデルは3秒の入力シーケンスにおける現在の自己回帰モデルと比較して,音声生成の19.76倍の高速化を実現していることがわかった。
論文 参考訳(メタデータ) (2022-07-08T10:10:39Z) - SoundStream: An End-to-End Neural Audio Codec [78.94923131038682]
本稿では,音声,音楽,一般音声を効率よく圧縮できる新しいニューラルオーディオシステムSoundStreamを紹介する。
SoundStreamは完全な畳み込みエンコーダ/デコーダネットワークと残留ベクトル量子化器に頼っている。
エンコーダまたはデコーダ側で、追加のレイテンシなしで、共同圧縮と拡張を行うことができます。
論文 参考訳(メタデータ) (2021-07-07T15:45:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。