論文の概要: DeepFilterGAN: A Full-band Real-time Speech Enhancement System with GAN-based Stochastic Regeneration
- arxiv url: http://arxiv.org/abs/2505.23515v1
- Date: Thu, 29 May 2025 14:56:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-30 18:14:07.918217
- Title: DeepFilterGAN: A Full-band Real-time Speech Enhancement System with GAN-based Stochastic Regeneration
- Title(参考訳): DeepFilterGAN:GANに基づく確率再生を用いたフルバンドリアルタイム音声強調システム
- Authors: Sanberk Serbest, Tijana Stojkovic, Milos Cernak, Andrew Harper,
- Abstract要約: 本稿では,GANをベースとしたリアルタイム音声強調システムを提案する。
358万のパラメータと低レイテンシで、私たちのシステムは軽量なアーキテクチャでリアルタイムストリーミング用に設計されています。
- 参考スコア(独自算出の注目度): 7.958871935184919
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this work, we propose a full-band real-time speech enhancement system with GAN-based stochastic regeneration. Predictive models focus on estimating the mean of the target distribution, whereas generative models aim to learn the full distribution. This behavior of predictive models may lead to over-suppression, i.e. the removal of speech content. In the literature, it was shown that combining a predictive model with a generative one within the stochastic regeneration framework can reduce the distortion in the output. We use this framework to obtain a real-time speech enhancement system. With 3.58M parameters and a low latency, our system is designed for real-time streaming with a lightweight architecture. Experiments show that our system improves over the first stage in terms of NISQA-MOS metric. Finally, through an ablation study, we show the importance of noisy conditioning in our system. We participated in 2025 Urgent Challenge with our model and later made further improvements.
- Abstract(参考訳): 本稿では,GANに基づく確率的再生を用いたフルバンドリアルタイム音声強調システムを提案する。
予測モデルは、対象分布の平均を推定することに焦点を当て、生成モデルは、完全な分布を学習することを目的としている。
この予測モデルの振る舞いは、過剰な抑圧、すなわち音声内容の除去につながる可能性がある。
文献では,確率的再生フレームワーク内での予測モデルと生成モデルを組み合わせることで,出力の歪みを低減できることが示されている。
このフレームワークを用いてリアルタイム音声強調システムを構築する。
358万のパラメータと低レイテンシで、私たちのシステムは軽量なアーキテクチャでリアルタイムストリーミング用に設計されています。
実験により,NISQA-MOS測定値を用いて,第1段階においてシステムが改善された。
最後に, アブレーション研究により, 本システムにおけるノイズ条件付けの重要性が示された。
私たちは2025年のアージェントチャレンジに参加し、その後さらに改善しました。
関連論文リスト
- Elucidated Rolling Diffusion Models for Probabilistic Weather Forecasting [52.6508222408558]
Eucidated Rolling Diffusion Models (ERDM)を紹介する。
ERDMはEucidated Diffusion Models (EDM) の原理的, 性能的設計とローリング予測構造を統一する最初のフレームワークである
2D Navier-StokesシミュレーションとERA5グローバル気象予報の1.5円解像度では、ERDMはキー拡散ベースラインを一貫して上回っている。
論文 参考訳(メタデータ) (2025-06-24T21:44:31Z) - FUDOKI: Discrete Flow-based Unified Understanding and Generation via Kinetic-Optimal Velocities [76.46448367752944]
MLLM(Multimodal large language model)は、単一のフレームワーク内で視覚的理解と画像生成を統一する言語である。
ほとんどの既存のMLLMはAutore(AR)アーキテクチャに依存しており、将来の開発に固有の制限を課している。
本稿では,離散フローマッチングに基づく統一マルチモーダルモデルであるFUDOKIを紹介する。
論文 参考訳(メタデータ) (2025-05-26T15:46:53Z) - Spatial Reasoning with Denoising Models [49.83744014336816]
本稿では,連続変数の集合に対する推論を行うためのフレームワークを提案する。
初めて、その生成順序をデノナイジングネットワーク自体によって予測できる。
これらの結果から,特定の推論タスクの精度を1%から50%に向上させることができる。
論文 参考訳(メタデータ) (2025-02-28T14:08:30Z) - EDELINE: Enhancing Memory in Diffusion-based World Models via Linear-Time Sequence Modeling [8.250616459360684]
EDELINEは、状態空間モデルと拡散モデルを統合する統一世界モデルアーキテクチャである。
我々のアプローチは、視覚的に困難なAtari 100kタスク、メモリ要求ベンチマーク、3DファーストパーソンのViZDoom環境において、既存のベースラインよりも優れています。
論文 参考訳(メタデータ) (2025-02-01T15:49:59Z) - Energy-Based Diffusion Language Models for Text Generation [126.23425882687195]
エネルギーベース拡散言語モデル(Energy-based Diffusion Language Model, EDLM)は、拡散ステップごとに全シーケンスレベルで動作するエネルギーベースモデルである。
我々のフレームワークは、既存の拡散モデルよりも1.3$times$のサンプリングスピードアップを提供する。
論文 参考訳(メタデータ) (2024-10-28T17:25:56Z) - Denoising with a Joint-Embedding Predictive Architecture [21.42513407755273]
私たちはD-JEPA(Joint-Embedding Predictive Architecture)でDenoisingを紹介します。
本稿では,JEPAをマスク画像モデリングの一形態として認識することにより,一般化した次世代予測戦略として再解釈する。
また,拡散損失を利用して確率分布をモデル化し,連続空間におけるデータ生成を可能にする。
論文 参考訳(メタデータ) (2024-10-02T05:57:10Z) - Investigating the Design Space of Diffusion Models for Speech Enhancement [17.914763947871368]
拡散モデルは、画像生成文学において優れた性能を示す新しい生成モデルである。
従来の拡散型音声強調システムの性能は、清潔な音声信号と雑音の多い音声信号の間の進行的な変換によるものではないことを示す。
また,プレコンディショニング,トレーニング損失重み付け,SDE,サンプル処理の適切な選択により,一般的な拡散に基づく音声強調システムよりも優れることを示す。
論文 参考訳(メタデータ) (2023-12-07T15:40:55Z) - Exploiting Diffusion Prior for Real-World Image Super-Resolution [75.5898357277047]
本稿では,事前学習したテキスト・画像拡散モデルにカプセル化された事前知識を視覚的超解像に活用するための新しいアプローチを提案する。
時間認識エンコーダを用いることで、事前学習した合成モデルを変更することなく、有望な復元結果が得られる。
論文 参考訳(メタデータ) (2023-05-11T17:55:25Z) - Your Autoregressive Generative Model Can be Better If You Treat It as an
Energy-Based One [83.5162421521224]
本稿では,自己回帰生成モデルの学習のための独自のE-ARM法を提案する。
E-ARMは、よく設計されたエネルギーベースの学習目標を活用する。
我々は、E-ARMを効率的に訓練でき、露光バイアス問題を緩和できることを示した。
論文 参考訳(メタデータ) (2022-06-26T10:58:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。