論文の概要: DeepFilterGAN: A Full-band Real-time Speech Enhancement System with GAN-based Stochastic Regeneration
- arxiv url: http://arxiv.org/abs/2505.23515v1
- Date: Thu, 29 May 2025 14:56:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-30 18:14:07.918217
- Title: DeepFilterGAN: A Full-band Real-time Speech Enhancement System with GAN-based Stochastic Regeneration
- Title(参考訳): DeepFilterGAN:GANに基づく確率再生を用いたフルバンドリアルタイム音声強調システム
- Authors: Sanberk Serbest, Tijana Stojkovic, Milos Cernak, Andrew Harper,
- Abstract要約: 本稿では,GANをベースとしたリアルタイム音声強調システムを提案する。
358万のパラメータと低レイテンシで、私たちのシステムは軽量なアーキテクチャでリアルタイムストリーミング用に設計されています。
- 参考スコア(独自算出の注目度): 7.958871935184919
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this work, we propose a full-band real-time speech enhancement system with GAN-based stochastic regeneration. Predictive models focus on estimating the mean of the target distribution, whereas generative models aim to learn the full distribution. This behavior of predictive models may lead to over-suppression, i.e. the removal of speech content. In the literature, it was shown that combining a predictive model with a generative one within the stochastic regeneration framework can reduce the distortion in the output. We use this framework to obtain a real-time speech enhancement system. With 3.58M parameters and a low latency, our system is designed for real-time streaming with a lightweight architecture. Experiments show that our system improves over the first stage in terms of NISQA-MOS metric. Finally, through an ablation study, we show the importance of noisy conditioning in our system. We participated in 2025 Urgent Challenge with our model and later made further improvements.
- Abstract(参考訳): 本稿では,GANに基づく確率的再生を用いたフルバンドリアルタイム音声強調システムを提案する。
予測モデルは、対象分布の平均を推定することに焦点を当て、生成モデルは、完全な分布を学習することを目的としている。
この予測モデルの振る舞いは、過剰な抑圧、すなわち音声内容の除去につながる可能性がある。
文献では,確率的再生フレームワーク内での予測モデルと生成モデルを組み合わせることで,出力の歪みを低減できることが示されている。
このフレームワークを用いてリアルタイム音声強調システムを構築する。
358万のパラメータと低レイテンシで、私たちのシステムは軽量なアーキテクチャでリアルタイムストリーミング用に設計されています。
実験により,NISQA-MOS測定値を用いて,第1段階においてシステムが改善された。
最後に, アブレーション研究により, 本システムにおけるノイズ条件付けの重要性が示された。
私たちは2025年のアージェントチャレンジに参加し、その後さらに改善しました。
関連論文リスト
- Energy-Based Diffusion Language Models for Text Generation [126.23425882687195]
エネルギーベース拡散言語モデル(Energy-based Diffusion Language Model, EDLM)は、拡散ステップごとに全シーケンスレベルで動作するエネルギーベースモデルである。
我々のフレームワークは、既存の拡散モデルよりも1.3$times$のサンプリングスピードアップを提供する。
論文 参考訳(メタデータ) (2024-10-28T17:25:56Z) - Denoising with a Joint-Embedding Predictive Architecture [21.42513407755273]
私たちはD-JEPA(Joint-Embedding Predictive Architecture)でDenoisingを紹介します。
本稿では,JEPAをマスク画像モデリングの一形態として認識することにより,一般化した次世代予測戦略として再解釈する。
また,拡散損失を利用して確率分布をモデル化し,連続空間におけるデータ生成を可能にする。
論文 参考訳(メタデータ) (2024-10-02T05:57:10Z) - Investigating the Design Space of Diffusion Models for Speech Enhancement [17.914763947871368]
拡散モデルは、画像生成文学において優れた性能を示す新しい生成モデルである。
従来の拡散型音声強調システムの性能は、清潔な音声信号と雑音の多い音声信号の間の進行的な変換によるものではないことを示す。
また,プレコンディショニング,トレーニング損失重み付け,SDE,サンプル処理の適切な選択により,一般的な拡散に基づく音声強調システムよりも優れることを示す。
論文 参考訳(メタデータ) (2023-12-07T15:40:55Z) - Exploiting Diffusion Prior for Real-World Image Super-Resolution [75.5898357277047]
本稿では,事前学習したテキスト・画像拡散モデルにカプセル化された事前知識を視覚的超解像に活用するための新しいアプローチを提案する。
時間認識エンコーダを用いることで、事前学習した合成モデルを変更することなく、有望な復元結果が得られる。
論文 参考訳(メタデータ) (2023-05-11T17:55:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。