論文の概要: Speech Enhancement with Score-Based Generative Models in the Complex
STFT Domain
- arxiv url: http://arxiv.org/abs/2203.17004v1
- Date: Thu, 31 Mar 2022 12:53:47 GMT
- ステータス: 処理完了
- システム内更新日: 2022-04-01 16:51:09.458856
- Title: Speech Enhancement with Score-Based Generative Models in the Complex
STFT Domain
- Title(参考訳): 複雑なSTFT領域におけるスコアベース生成モデルによる音声強調
- Authors: Simon Welker, Julius Richter, Timo Gerkmann
- Abstract要約: 複素数値深層ニューラルネットワークを用いた音声強調のための新しい訓練課題を提案する。
微分方程式の定式化の中でこのトレーニングタスクを導出することにより、予測子-相関子標本化が可能となる。
- 参考スコア(独自算出の注目度): 18.090665052145653
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Score-based generative models (SGMs) have recently shown impressive results
for difficult generative tasks such as the unconditional and conditional
generation of natural images and audio signals. In this work, we extend these
models to the complex short-time Fourier transform (STFT) domain, proposing a
novel training task for speech enhancement using a complex-valued deep neural
network. We derive this training task within the formalism of stochastic
differential equations, thereby enabling the use of predictor-corrector
samplers. We provide alternative formulations inspired by previous publications
on using SGMs for speech enhancement, avoiding the need for any prior
assumptions on the noise distribution and making the training task purely
generative which, as we show, results in improved enhancement performance.
- Abstract(参考訳): スコアベースの生成モデル(sgms)は、最近、自然画像や音声信号の無条件および条件生成のような難しい生成タスクにおいて印象的な結果を示している。
本研究では、これらのモデルを複雑な短時間フーリエ変換(STFT)領域に拡張し、複素数値深層ニューラルネットワークを用いた音声強調のための新しい訓練タスクを提案する。
確率微分方程式の形式化の中でこの訓練課題を導出し,予測子補正サンプラーの利用を可能にした。
我々は,SGMを音声強調に用いた過去の出版物に触発された代替の定式化を提案し,騒音分布に関する事前の仮定を不要にし,トレーニングタスクを純粋に生成させ,その結果,改善性能が向上することを示した。
関連論文リスト
- DiffATR: Diffusion-based Generative Modeling for Audio-Text Retrieval [49.076590578101985]
ノイズから関節分布を生成する拡散型ATRフレームワーク(DiffATR)を提案する。
優れたパフォーマンスを持つAudioCapsとClothoデータセットの実験は、我々のアプローチの有効性を検証する。
論文 参考訳(メタデータ) (2024-09-16T06:33:26Z) - Generative Pre-training for Speech with Flow Matching [81.59952572752248]
我々は,フローマッチングとマスク条件を併用した60k時間の無転写音声に対して,SpeechFlowという生成モデルを事前学習した。
実験結果から,事前学習した生成モデルをタスク固有のデータで微調整し,音声強調,分離,合成に関する既存の専門家モデルに適合または超えることを示す。
論文 参考訳(メタデータ) (2023-10-25T03:40:50Z) - Controlled Randomness Improves the Performance of Transformer Models [4.678970068275123]
制御されたランダム性、すなわちノイズを訓練プロセスに導入し、微調整言語モデルを改善する。
このようなノイズを加えることで、結合したエンティティ認識と関係抽出とテキスト要約という2つの下流タスクのパフォーマンスが向上することがわかった。
論文 参考訳(メタデータ) (2023-10-20T14:12:55Z) - A weighted-variance variational autoencoder model for speech enhancement [0.0]
パラメータ学習における各スペクトル時間枠の寄与を重み付けした重み付き分散生成モデルを提案する。
提案した生成モデルに基づいて,効率的な学習と音声強調アルゴリズムを開発する。
論文 参考訳(メタデータ) (2022-11-02T09:51:15Z) - Period VITS: Variational Inference with Explicit Pitch Modeling for
End-to-end Emotional Speech Synthesis [19.422230767803246]
我々は,明示的な周期性生成を組み込んだ新しいエンドツーエンドテキスト音声合成モデルである Period VITS を提案する。
提案手法では,入力テキストからピッチや発声フラグなどの韻律的特徴を予測するフレームピッチ予測器を提案する。
これらの特徴から、提案した周期性発生器は、波形デコーダがピッチを正確に再現できるサンプルレベルの正弦波源を生成する。
論文 参考訳(メタデータ) (2022-10-28T07:52:30Z) - A Study on Speech Enhancement Based on Diffusion Probabilistic Model [63.38586161802788]
雑音信号からクリーンな音声信号を復元することを目的とした拡散確率モデルに基づく音声強調モデル(DiffuSE)を提案する。
実験結果から、DiffuSEは、標準化されたVoice Bankコーパスタスクにおいて、関連する音声生成モデルに匹敵する性能が得られることがわかった。
論文 参考訳(メタデータ) (2021-07-25T19:23:18Z) - Self-supervised Pre-training with Hard Examples Improves Visual
Representations [110.23337264762512]
自己教師付き事前学習(ssp)は、ランダムな画像変換を用いて視覚表現学習のためのトレーニングデータを生成する。
まず,既存のSSPメソッドを擬似ラベル予測学習として統合するモデリングフレームワークを提案する。
そこで本研究では,疑似ラベルの予測が難しい学習例をランダムな画像変換で生成するデータ拡張手法を提案する。
論文 参考訳(メタデータ) (2020-12-25T02:44:22Z) - Pretraining Techniques for Sequence-to-Sequence Voice Conversion [57.65753150356411]
シークエンス・トゥ・シークエンス(seq2seq)音声変換(VC)モデルは、韻律を変換する能力によって魅力的である。
我々は,大規模コーパスが容易に利用できる他の音声処理タスク(通常,テキスト音声(TTS)と自動音声認識(ASR))から知識を伝達することを提案する。
このような事前訓練されたASRまたはTSモデルパラメータを持つVCモデルは、高忠実で高知能な変換可能な音声に対して効果的な隠れ表現を生成することができると論じる。
論文 参考訳(メタデータ) (2020-08-07T11:02:07Z) - Generating diverse and natural text-to-speech samples using a quantized
fine-grained VAE and auto-regressive prosody prior [53.69310441063162]
本稿では,より自然な音響サンプルを生成できる離散潜在空間における逐次前処理を提案する。
本研究では,聴取試験,自動音声認識(ASR)性能の客観的指標,韻律特性の測定によるアプローチの評価を行った。
論文 参考訳(メタデータ) (2020-02-06T12:35:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。