論文の概要: Real-Time Streamable Generative Speech Restoration with Flow Matching
- arxiv url: http://arxiv.org/abs/2512.19442v2
- Date: Fri, 26 Dec 2025 15:39:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-29 13:23:29.79937
- Title: Real-Time Streamable Generative Speech Restoration with Flow Matching
- Title(参考訳): フローマッチングを用いたリアルタイムストリーミング生成音声復元
- Authors: Simon Welker, Bunlong Lay, Maris Hillemann, Tal Peer, Timo Gerkmann,
- Abstract要約: Stream$.$FMは、32ミリ秒(ms)のアルゴリズム待ち時間と48ミリ秒の総待ち時間を持つフレーム因果フローベースの生成モデルである。
現在利用可能なGPUでは,高品質なストリーミング生成音声処理が実現可能であることを示す。
- 参考スコア(独自算出の注目度): 35.33575179870606
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Diffusion-based generative models have greatly impacted the speech processing field in recent years, exhibiting high speech naturalness and spawning a new research direction. Their application in real-time communication is, however, still lagging behind due to their computation-heavy nature involving multiple calls of large DNNs. Here, we present Stream$.$FM, a frame-causal flow-based generative model with an algorithmic latency of 32 milliseconds (ms) and a total latency of 48 ms, paving the way for generative speech processing in real-time communication. We propose a buffered streaming inference scheme and an optimized DNN architecture, show how learned few-step numerical solvers can boost output quality at a fixed compute budget, explore model weight compression to find favorable points along a compute/quality tradeoff, and contribute a model variant with 24 ms total latency for the speech enhancement task. Our work looks beyond theoretical latencies, showing that high-quality streaming generative speech processing can be realized on consumer GPUs available today. Stream$.$FM can solve a variety of speech processing tasks in a streaming fashion: speech enhancement, dereverberation, codec post-filtering, bandwidth extension, STFT phase retrieval, and Mel vocoding. As we verify through comprehensive evaluations and a MUSHRA listening test, Stream$.$FM establishes a state-of-the-art for generative streaming speech restoration, exhibits only a reasonable reduction in quality compared to a non-streaming variant, and outperforms our recent work (Diffusion Buffer) on generative streaming speech enhancement while operating at a lower latency.
- Abstract(参考訳): 近年,拡散に基づく生成モデルが音声処理分野に大きな影響を与え,音声の自然性が向上し,新たな研究方向性がもたらされた。
しかし、リアルタイム通信における彼らの応用は、大規模なDNNの複数の呼び出しを含む計算量の多い性質のため、まだ遅れている。
ここで、Stream$を提示します。
$FMは,32ミリ秒(ms)のアルゴリズムレイテンシと48ミリ秒のトータルレイテンシを備えたフレーム因果的なフローベース生成モデルで,リアルタイム通信における生成音声処理の道を開く。
バッファリングされたストリーミング推論方式と最適化されたDNNアーキテクチャを提案し、学習した数ステップの数値解法が、固定された計算予算で出力品質を向上させる方法を示し、計算/品質トレードオフに沿って好適な点を求めるためのモデル重み圧縮を探索し、音声強調タスクに24ミリ秒のレイテンシを持つモデル変種に寄与することを示す。
我々の研究は理論的レイテンシを超えて、今日の消費者向けGPUで高品質なストリーミング生成音声処理を実現することができることを示している。
Stream$。
$FMは、音声強調、デバーベレーション、コーデック後フィルタリング、帯域幅拡張、STFT位相検索、メルボコーディングなど、さまざまな音声処理タスクをストリーミング形式で解決することができる。
包括的な評価とMUSHRAリスニングテストを通じて検証する。
$FMは、生成音声の復元のための最先端技術を確立し、非ストリーミングの変種と比較して、品質の合理的な低下しか示さず、低レイテンシで操作しながら生成音声の強化に関する最近の研究(Diffusion Buffer)より優れています。
関連論文リスト
- Diffusion Buffer for Online Generative Speech Enhancement [32.98694610706198]
Diffusion Bufferは生成拡散に基づく音声強調モデルである。
データストリームから受信する信号フレーム毎に1つのニューラルネットワークコールしか必要としない。
コンシューマグレードのGPU上で、オンライン形式で拡張を実行する。
論文 参考訳(メタデータ) (2025-10-21T15:52:33Z) - READ: Real-time and Efficient Asynchronous Diffusion for Audio-driven Talking Head Generation [55.58089937219475]
本稿では,最初のリアルタイム拡散変換器を用いた音声ヘッド生成フレームワークREADを提案する。
提案手法はまず,VAEを用いて高度に圧縮されたビデオ潜時空間を学習し,音声生成におけるトークン数を大幅に削減する。
また,READは,実行時間を大幅に短縮した競合する音声ヘッドビデオを生成することにより,最先端の手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2025-08-05T13:57:03Z) - Diffusion Buffer: Online Diffusion-based Speech Enhancement with Sub-Second Latency [29.58683554898725]
我々は音声強調作業にスライディングウィンドウ拡散フレームワークを適用した。
提案手法は,バッファ内の現在に近いフレームにより多くのノイズを割り当てることで,音声信号を経時的に劣化させる。
これは、オンライン音声強調のための最初の実践的拡散ベースのソリューションである。
論文 参考訳(メタデータ) (2025-06-03T14:14:28Z) - BinauralFlow: A Causal and Streamable Approach for High-Quality Binaural Speech Synthesis with Flow Matching Models [62.38713281234756]
バイノーラルレンダリングパイプラインは、モノラルオーディオに基づいて自然な聴覚を模倣するオーディオを合成することを目的としている。
この問題を解決するために多くの方法が提案されているが、レンダリング品質とストリーミング可能な推論に苦慮している。
本稿では,BinauralFlow合成フレームワークという,フローマッチングに基づくストリーミング音声フレームワークを提案する。
論文 参考訳(メタデータ) (2025-05-28T20:59:15Z) - Zero-Shot Streaming Text to Speech Synthesis with Transducer and Auto-Regressive Modeling [76.23539797803681]
既存の手法は主に、自然なストリーミング音声合成を実現するために、将来のテキストに依存するルックメカニズムを使用している。
本稿では,高品質な音声フレームをフレーム単位で生成するためのストリーミングフレームワークLEを提案する。
実験結果から,LEは現行のストリーミングTTS法より優れ,文レベルのTSシステムよりも高い性能を実現していることがわかった。
論文 参考訳(メタデータ) (2025-05-26T08:25:01Z) - StreamDiffusion: A Pipeline-level Solution for Real-time Interactive Generation [52.56469577812338]
本稿では,インタラクティブな画像生成のためのリアルタイム拡散パイプラインStreamDiffusionを紹介する。
既存の拡散モデルは、テキストや画像プロンプトから画像を作成するのに適しているが、リアルタイムのインタラクションでは不足することが多い。
本稿では,従来のシーケンシャル・デノナイジングをデノナイジング・プロセスに変換する新しいアプローチを提案する。
論文 参考訳(メタデータ) (2023-12-19T18:18:33Z) - Dynamic Latency for CTC-Based Streaming Automatic Speech Recognition
With Emformer [0.4588028371034407]
効率的な拡張メモリ変換器ブロックと動的遅延学習法を用いたフレームレベルモデルを用いて音声認識のストリーミングを行う。
平均レイテンシは640msであり,テストクリーンでは6.4%,他では3.0%,チャンクワイドトランスでは3.0%の相対的なWER削減を実現している。
論文 参考訳(メタデータ) (2022-03-29T14:31:06Z) - Transformer Transducer: One Model Unifying Streaming and Non-streaming
Speech Recognition [16.082949461807335]
本稿では,Transformer-Transducerモデルアーキテクチャと,ストリーミングおよび非ストリーミング音声認識モデルを1つのモデルに統合するためのトレーニング手法を提案する。
私たちは、このモデルを低レイテンシと高レイテンシモードで、上位層を並列に実行するYモデルアーキテクチャで実行できることを示します。
これにより、レイテンシが制限されたストリーミング音声認識結果と、精度を大幅に向上した遅延音声認識結果が得られる。
論文 参考訳(メタデータ) (2020-10-07T05:58:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。