Fugu-MT 論文翻訳(概要): DeepFilterGAN: A Full-band Real-time Speech Enhancement System with GAN-based Stochastic Regeneration

論文の概要: DeepFilterGAN: A Full-band Real-time Speech Enhancement System with GAN-based Stochastic Regeneration

arxiv url: http://arxiv.org/abs/2505.23515v1
Date: Thu, 29 May 2025 14:56:07 GMT
ステータス: 翻訳完了
システム内更新日: 2025-05-30 18:14:07.918217
Title: DeepFilterGAN: A Full-band Real-time Speech Enhancement System with GAN-based Stochastic Regeneration
Title（参考訳）: DeepFilterGAN:GANに基づく確率再生を用いたフルバンドリアルタイム音声強調システム
Authors: Sanberk Serbest, Tijana Stojkovic, Milos Cernak, Andrew Harper,
Abstract要約: 本稿では,GANをベースとしたリアルタイム音声強調システムを提案する。 358万のパラメータと低レイテンシで、私たちのシステムは軽量なアーキテクチャでリアルタイムストリーミング用に設計されています。
参考スコア（独自算出の注目度）: 7.958871935184919
License: http://creativecommons.org/licenses/by/4.0/
Abstract: In this work, we propose a full-band real-time speech enhancement system with GAN-based stochastic regeneration. Predictive models focus on estimating the mean of the target distribution, whereas generative models aim to learn the full distribution. This behavior of predictive models may lead to over-suppression, i.e. the removal of speech content. In the literature, it was shown that combining a predictive model with a generative one within the stochastic regeneration framework can reduce the distortion in the output. We use this framework to obtain a real-time speech enhancement system. With 3.58M parameters and a low latency, our system is designed for real-time streaming with a lightweight architecture. Experiments show that our system improves over the first stage in terms of NISQA-MOS metric. Finally, through an ablation study, we show the importance of noisy conditioning in our system. We participated in 2025 Urgent Challenge with our model and later made further improvements.
Abstract（参考訳）: 本稿では,GANに基づく確率的再生を用いたフルバンドリアルタイム音声強調システムを提案する。予測モデルは、対象分布の平均を推定することに焦点を当て、生成モデルは、完全な分布を学習することを目的としている。この予測モデルの振る舞いは、過剰な抑圧、すなわち音声内容の除去につながる可能性がある。文献では,確率的再生フレームワーク内での予測モデルと生成モデルを組み合わせることで,出力の歪みを低減できることが示されている。このフレームワークを用いてリアルタイム音声強調システムを構築する。 358万のパラメータと低レイテンシで、私たちのシステムは軽量なアーキテクチャでリアルタイムストリーミング用に設計されています。実験により,NISQA-MOS測定値を用いて,第1段階においてシステムが改善された。最後に, アブレーション研究により, 本システムにおけるノイズ条件付けの重要性が示された。私たちは2025年のアージェントチャレンジに参加し、その後さらに改善しました。

関連論文リスト

Towards Efficient General Feature Prediction in Masked Skeleton Modeling [59.46799426434277]
マスクスケルトンモデリングのための新しい汎用特徴予測フレームワーク(GFP)を提案する。我々の重要な革新は、局所的な動きパターンからグローバルな意味表現にまたがる、従来の低レベルな再構築を高レベルな特徴予測に置き換えることです。
論文参考訳（メタデータ） (2025-09-03T18:05:02Z)
Noise Hypernetworks: Amortizing Test-Time Compute in Diffusion Models [57.49136894315871]
テストタイムスケーリングの新しいパラダイムは、推論モデルと生成視覚モデルにおいて驚くべきブレークスルーをもたらした。本稿では,テスト時間スケーリングの知識をモデルに組み込むことの課題に対する1つの解決策を提案する。拡散モデルにおいて、初期入力ノイズを変調するノイズハイパーネットワークにより、報酬誘導試験時間雑音の最適化を行う。
論文参考訳（メタデータ） (2025-08-13T17:33:37Z)
Inference-Time Scaling of Diffusion Language Models with Particle Gibbs Sampling [70.8832906871441]
我々は、モデルを再訓練することなく、所望の報酬に向けて世代を操る方法を研究する。従来の手法では、通常は1つの認知軌道内でサンプリングやフィルタを行い、軌道レベルの改善なしに報酬をステップバイステップで最適化する。本稿では,拡散言語モデル(PG-DLM)の粒子ギブスサンプリングについて紹介する。
論文参考訳（メタデータ） (2025-07-11T08:00:47Z)
Elucidated Rolling Diffusion Models for Probabilistic Weather Forecasting [52.6508222408558]
Eucidated Rolling Diffusion Models (ERDM)を紹介する。 ERDMはEucidated Diffusion Models (EDM) の原理的, 性能的設計とローリング予測構造を統一する最初のフレームワークである 2D Navier-StokesシミュレーションとERA5グローバル気象予報の1.5円解像度では、ERDMはキー拡散ベースラインを一貫して上回っている。
論文参考訳（メタデータ） (2025-06-24T21:44:31Z)
FUDOKI: Discrete Flow-based Unified Understanding and Generation via Kinetic-Optimal Velocities [76.46448367752944]
MLLM(Multimodal large language model)は、単一のフレームワーク内で視覚的理解と画像生成を統一する言語である。ほとんどの既存のMLLMはAutore(AR)アーキテクチャに依存しており、将来の開発に固有の制限を課している。本稿では,離散フローマッチングに基づく統一マルチモーダルモデルであるFUDOKIを紹介する。
論文参考訳（メタデータ） (2025-05-26T15:46:53Z)
Spatial Reasoning with Denoising Models [49.83744014336816]
本稿では,連続変数の集合に対する推論を行うためのフレームワークを提案する。初めて、その生成順序をデノナイジングネットワーク自体によって予測できる。これらの結果から,特定の推論タスクの精度を1%から50%に向上させることができる。
論文参考訳（メタデータ） (2025-02-28T14:08:30Z)
EDELINE: Enhancing Memory in Diffusion-based World Models via Linear-Time Sequence Modeling [8.250616459360684]
EDELINEは、状態空間モデルと拡散モデルを統合する統一世界モデルアーキテクチャである。我々のアプローチは、視覚的に困難なAtari 100kタスク、メモリ要求ベンチマーク、3DファーストパーソンのViZDoom環境において、既存のベースラインよりも優れています。
論文参考訳（メタデータ） (2025-02-01T15:49:59Z)
Energy-Based Diffusion Language Models for Text Generation [126.23425882687195]
エネルギーベース拡散言語モデル(Energy-based Diffusion Language Model, EDLM)は、拡散ステップごとに全シーケンスレベルで動作するエネルギーベースモデルである。我々のフレームワークは、既存の拡散モデルよりも1.3$times$のサンプリングスピードアップを提供する。
論文参考訳（メタデータ） (2024-10-28T17:25:56Z)
Denoising with a Joint-Embedding Predictive Architecture [21.42513407755273]
私たちはD-JEPA(Joint-Embedding Predictive Architecture)でDenoisingを紹介します。本稿では,JEPAをマスク画像モデリングの一形態として認識することにより,一般化した次世代予測戦略として再解釈する。また,拡散損失を利用して確率分布をモデル化し,連続空間におけるデータ生成を可能にする。
論文参考訳（メタデータ） (2024-10-02T05:57:10Z)
Investigating the Design Space of Diffusion Models for Speech Enhancement [17.914763947871368]
拡散モデルは、画像生成文学において優れた性能を示す新しい生成モデルである。従来の拡散型音声強調システムの性能は、清潔な音声信号と雑音の多い音声信号の間の進行的な変換によるものではないことを示す。また,プレコンディショニング,トレーニング損失重み付け,SDE,サンプル処理の適切な選択により,一般的な拡散に基づく音声強調システムよりも優れることを示す。
論文参考訳（メタデータ） (2023-12-07T15:40:55Z)
Exploiting Diffusion Prior for Real-World Image Super-Resolution [75.5898357277047]
本稿では,事前学習したテキスト・画像拡散モデルにカプセル化された事前知識を視覚的超解像に活用するための新しいアプローチを提案する。時間認識エンコーダを用いることで、事前学習した合成モデルを変更することなく、有望な復元結果が得られる。
論文参考訳（メタデータ） (2023-05-11T17:55:25Z)
Your Autoregressive Generative Model Can be Better If You Treat It as an Energy-Based One [83.5162421521224]
本稿では,自己回帰生成モデルの学習のための独自のE-ARM法を提案する。 E-ARMは、よく設計されたエネルギーベースの学習目標を活用する。我々は、E-ARMを効率的に訓練でき、露光バイアス問題を緩和できることを示した。
論文参考訳（メタデータ） (2022-06-26T10:58:41Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。