論文の概要: Diffusion Buffer for Online Generative Speech Enhancement
- arxiv url: http://arxiv.org/abs/2510.18744v1
- Date: Tue, 21 Oct 2025 15:52:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-25 03:08:13.834865
- Title: Diffusion Buffer for Online Generative Speech Enhancement
- Title(参考訳): オンライン生成音声強調のための拡散バッファ
- Authors: Bunlong Lay, Rostislav Makarov, Simon Welker, Maris Hillemann, Timo Gerkmann,
- Abstract要約: Diffusion Bufferは生成拡散に基づく音声強調モデルである。
データストリームから受信する信号フレーム毎に1つのニューラルネットワークコールしか必要としない。
コンシューマグレードのGPU上で、オンライン形式で拡張を実行する。
- 参考スコア(独自算出の注目度): 32.98694610706198
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Online Speech Enhancement was mainly reserved for predictive models. A key advantage of these models is that for an incoming signal frame from a stream of data, the model is called only once for enhancement. In contrast, generative Speech Enhancement models often require multiple calls, resulting in a computational complexity that is too high for many online speech enhancement applications. This work presents the Diffusion Buffer, a generative diffusion-based Speech Enhancement model which only requires one neural network call per incoming signal frame from a stream of data and performs enhancement in an online fashion on a consumer-grade GPU. The key idea of the Diffusion Buffer is to align physical time with Diffusion time-steps. The approach progressively denoises frames through physical time, where past frames have more noise removed. Consequently, an enhanced frame is output to the listener with a delay defined by the Diffusion Buffer, and the output frame has a corresponding look-ahead. In this work, we extend upon our previous work by carefully designing a 2D convolutional UNet architecture that specifically aligns with the Diffusion Buffer's look-ahead. We observe that the proposed UNet improves performance, particularly when the algorithmic latency is low. Moreover, we show that using a Data Prediction loss instead of Denoising Score Matching loss enables flexible control over the trade-off between algorithmic latency and quality during inference. The extended Diffusion Buffer equipped with a novel NN and loss function drastically reduces the algorithmic latency from 320 - 960 ms to 32 - 176 ms with an even increased performance. While it has been shown before that offline generative diffusion models outperform predictive approaches in unseen noisy speech data, we confirm that the online Diffusion Buffer also outperforms its predictive counterpart on unseen noisy speech data.
- Abstract(参考訳): オンライン音声強調は主に予測モデルに割り当てられた。
これらのモデルの鍵となる利点は、データのストリームから入ってくる信号フレームに対して、そのモデルは拡張のために一度だけ呼び出されることである。
対照的に、生成的音声強調モデルは、しばしば複数の呼び出しを必要とするため、多くのオンライン音声強調アプリケーションには高すぎる計算複雑性をもたらす。
この研究は、Diffusion Buffer(拡散拡散に基づく音声強調モデル)を提示する。これは、入力信号フレーム当たりの1つのニューラルネットワーク呼び出しのみをデータストリームから要求し、コンシューマグレードのGPU上でオンライン的に拡張する。
Diffusion Bufferのキーとなるアイデアは、物理的な時間をDiffusionのタイムステップに合わせることです。
このアプローチは、過去のフレームがより多くのノイズを除去する物理的時間を通じて、徐々にフレームをノイズ化する。
これにより、拡張フレームがディフュージョンバッファで定義された遅延でリスナに出力され、出力フレームは対応するルックアヘッドを有する。
本研究では、Diffusion Bufferのルックアヘッドに特に適合する2D畳み込みUNetアーキテクチャを慎重に設計することで、これまでの作業を拡張します。
提案するUNetは,特にアルゴリズムのレイテンシが低い場合,性能が向上する。
さらに,スコアマッチング損失をデノベートする代わりにデータ予測損失を用いることで,アルゴリズムのレイテンシと推論時の品質との間のトレードオフを柔軟に制御できることを示す。
新たなNNと損失関数を備えた拡張拡散バッファは、アルゴリズムのレイテンシを320~960msから32~176msに劇的に短縮し、パフォーマンスはさらに向上した。
オフライン生成拡散モデルは、未確認音声データにおいて予測的アプローチよりも優れていることがこれまで示されてきたが、オンライン拡散バッファは未確認音声データにおいて予測的手法よりも優れていることも確認した。
関連論文リスト
- Lightning Fast Caching-based Parallel Denoising Prediction for Accelerating Talking Head Generation [50.04968365065964]
拡散に基づく音声ヘッドモデルは高品質でフォトリアリスティックなビデオを生成するが、推論が遅い。
我々はLightning-fast Caching-based Parallel Denoising Prediction (LightningCP)を紹介する。
また,より高速な注意計算を実現するために,DFA(Decoupled Foreground Attention)を提案する。
論文 参考訳(メタデータ) (2025-08-25T02:58:39Z) - READ: Real-time and Efficient Asynchronous Diffusion for Audio-driven Talking Head Generation [55.58089937219475]
本稿では,最初のリアルタイム拡散変換器を用いた音声ヘッド生成フレームワークREADを提案する。
提案手法はまず,VAEを用いて高度に圧縮されたビデオ潜時空間を学習し,音声生成におけるトークン数を大幅に削減する。
また,READは,実行時間を大幅に短縮した競合する音声ヘッドビデオを生成することにより,最先端の手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2025-08-05T13:57:03Z) - Diffusion Buffer: Online Diffusion-based Speech Enhancement with Sub-Second Latency [29.58683554898725]
我々は音声強調作業にスライディングウィンドウ拡散フレームワークを適用した。
提案手法は,バッファ内の現在に近いフレームにより多くのノイズを割り当てることで,音声信号を経時的に劣化させる。
これは、オンライン音声強調のための最初の実践的拡散ベースのソリューションである。
論文 参考訳(メタデータ) (2025-06-03T14:14:28Z) - FlashDLM: Accelerating Diffusion Language Model Inference via Efficient KV Caching and Guided Diffusion [22.207275433870937]
拡散言語モデルは並列トークン生成と本質的に双方向性を提供する。
最先端拡散モデル(ドリーム7B、LLaDA 8Bなど)は推論が遅い。
我々は,トークンアンマキングを監督するために,軽量な事前学習型自己回帰モデルを用いた学習自由度法であるガイドド拡散を導入する。
論文 参考訳(メタデータ) (2025-05-27T17:39:39Z) - Diffusion-Driven Semantic Communication for Generative Models with Bandwidth Constraints [66.63250537475973]
本稿では,帯域制限付き生成モデルのための,高度なVAEベースの圧縮を用いた拡散駆動型セマンティック通信フレームワークを提案する。
実験の結果,ピーク信号対雑音比 (PSNR) などの画素レベルの指標と,LPIPS (Learning Perceptual Image patch similarity) のような意味的指標が大幅に改善された。
論文 参考訳(メタデータ) (2024-07-26T02:34:25Z) - StreamDiffusion: A Pipeline-level Solution for Real-time Interactive Generation [52.56469577812338]
本稿では,インタラクティブな画像生成のためのリアルタイム拡散パイプラインStreamDiffusionを紹介する。
既存の拡散モデルは、テキストや画像プロンプトから画像を作成するのに適しているが、リアルタイムのインタラクションでは不足することが多い。
本稿では,従来のシーケンシャル・デノナイジングをデノナイジング・プロセスに変換する新しいアプローチを提案する。
論文 参考訳(メタデータ) (2023-12-19T18:18:33Z) - Real-time Streaming Video Denoising with Bidirectional Buffers [48.57108807146537]
リアルタイムDenoisingアルゴリズムは、通常、ビデオストリームの撮影と送信にかかわるノイズを取り除くために、ユーザーデバイスに採用されている。
最近のマルチアウトプット推論は、双方向の時間的特徴を並列または繰り返しのフレームワークで伝達する。
本研究では,過去と未来の両方の時間的受容場を持つストリーミングビデオに対して,高忠実度リアルタイムデノナイズを実現するための双方向ストリーミングビデオデノナイズフレームワークを提案する。
論文 参考訳(メタデータ) (2022-07-14T14:01:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。