論文の概要: Real-Time Streaming Mel Vocoding with Generative Flow Matching
- arxiv url: http://arxiv.org/abs/2509.15085v1
- Date: Thu, 18 Sep 2025 15:43:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-19 17:26:53.308755
- Title: Real-Time Streaming Mel Vocoding with Generative Flow Matching
- Title(参考訳): 生成フローマッチングによるリアルタイムメル音声符号化
- Authors: Simon Welker, Tal Peer, Timo Gerkmann,
- Abstract要約: 我々は,32ms,48msのアルゴリズムを用いて,16kHzでサンプリングした音声用ストリーミング対応ジェネレータMel vocoderを開発した。
我々は,HyFi-GANを含むメルボコーディングにおいて,ストリーミング可能でないベースラインに比べて,PSSQとSI-SDRの精度が大幅に向上することを示す。
- 参考スコア(独自算出の注目度): 36.694031349672954
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The task of Mel vocoding, i.e., the inversion of a Mel magnitude spectrogram to an audio waveform, is still a key component in many text-to-speech (TTS) systems today. Based on generative flow matching, our prior work on generative STFT phase retrieval (DiffPhase), and the pseudoinverse operator of the Mel filterbank, we develop MelFlow, a streaming-capable generative Mel vocoder for speech sampled at 16 kHz with an algorithmic latency of only 32 ms and a total latency of 48 ms. We show real-time streaming capability at this latency not only in theory, but in practice on a consumer laptop GPU. Furthermore, we show that our model achieves substantially better PESQ and SI-SDR values compared to well-established not streaming-capable baselines for Mel vocoding including HiFi-GAN.
- Abstract(参考訳): Mel vocoding のタスク、すなわち、Mel magnitude スペクトログラムを音声波形に変換することは、今日でも多くのテキスト音声(TTS)システムにおいて重要な要素である。
生成フローマッチング, 生成STFT位相探索(DiffPhase), およびMelフィルタバンクの擬似逆演算子であるMelFlowを開発した。MelFlowは16kHzの音声に対して, アルゴリズム的レイテンシが32msで, 総レイテンシが48msである。
さらに,本モデルでは,HiFi-GANを含むメルボコーディングにおいて,ストリーミング可能でないベースラインに比べて,PSSQとSI-SDRの精度が大幅に向上することを示す。
関連論文リスト
- StreamMel: Real-Time Zero-shot Text-to-Speech via Interleaved Continuous Autoregressive Modeling [50.537794606598254]
StreamMelは、継続的メル-スペクトログラムをモデル化する、先駆的なシングルステージストリーミングTSフレームワークである。
高い話者類似性と自然性を保ちながら、低レイテンシで自己回帰的な合成を可能にする。
オフラインシステムに匹敵するパフォーマンスを実現し、効率的なリアルタイム生成もサポートしている。
論文 参考訳(メタデータ) (2025-06-14T16:53:39Z) - FlowDec: A flow-based full-band general audio codec with high perceptual quality [90.05968801459524]
FlowDecは、48kHzでサンプリングされた一般的なオーディオのためのニューラルフルバンドオーディオコーデックである。
音声から一般的な音声へ一般化し、24kbit/sから4kbit/sまで移行する。
論文 参考訳(メタデータ) (2025-03-03T12:49:09Z) - Towards Sub-millisecond Latency Real-Time Speech Enhancement Models on Hearables [21.542503235873227]
低レイテンシモデルは、補聴器や補聴器などのリアルタイム音声強調アプリケーションに不可欠である。
計算効率のよい最小位相FIRフィルタを用いて音声強調を行い、サンプル・バイ・サンプル処理により平均アルゴリズム遅延0.32msから1.25msを実現した。
この作業によってレイテンシの理解が向上し,可聴性の快適性とユーザビリティの向上が期待できます。
論文 参考訳(メタデータ) (2024-09-26T19:31:05Z) - RT-LA-VocE: Real-Time Low-SNR Audio-Visual Speech Enhancement [36.10772098876638]
LA-VocEのすべてのコンポーネントを再設計して40msの入力フレームで因果的リアルタイム推論を行うRT-LA-VocEを提案する。
提案アルゴリズムは,すべてのリアルタイムシナリオにおいて,最先端の処理結果が得られることを示す。
論文 参考訳(メタデータ) (2024-07-10T16:49:23Z) - Frieren: Efficient Video-to-Audio Generation Network with Rectified Flow Matching [51.70360630470263]
Video-to-audio (V2A) は、サイレントビデオからコンテンツマッチング音声を合成することを目的としている。
本稿では,修正フローマッチングに基づくV2AモデルであるFrierenを提案する。
実験により、フリーレンは世代品質と時間的アライメントの両方で最先端のパフォーマンスを達成することが示された。
論文 参考訳(メタデータ) (2024-06-01T06:40:22Z) - Ultra-lightweight Neural Differential DSP Vocoder For High Quality
Speech Synthesis [9.916195285279931]
DSPヴォコーダは、過度に滑らかな音響モデル予測を消費するため、音質が低下することが多い。
DSPボコーダと共同最適化された音響モデルを用いた超軽量DSP(DDSP)ボコーダを提案し,声道スペクトルの特徴を抽出せずに学習する。
論文 参考訳(メタデータ) (2024-01-19T02:51:00Z) - Cascaded encoders for unifying streaming and non-streaming ASR [68.62941009369125]
この研究は、両方のモードで同時に動作可能な単一のE2E ASRモデルを構築するためのカスケードエンコーダを提示する。
シングルデコーダは、ストリーミングの出力または非ストリーミングエンコーダを使用してデコーダを学習する。
その結果,このモデルはストリーミングモードで動作する場合,スタンドアロンのストリーミングモデルと同様のワードエラー率(WER)を実現し,非ストリーミングモードで動作する場合,10%~27%の相対的改善が得られた。
論文 参考訳(メタデータ) (2020-10-27T20:59:50Z) - Transformer Transducer: One Model Unifying Streaming and Non-streaming
Speech Recognition [16.082949461807335]
本稿では,Transformer-Transducerモデルアーキテクチャと,ストリーミングおよび非ストリーミング音声認識モデルを1つのモデルに統合するためのトレーニング手法を提案する。
私たちは、このモデルを低レイテンシと高レイテンシモードで、上位層を並列に実行するYモデルアーキテクチャで実行できることを示します。
これにより、レイテンシが制限されたストリーミング音声認識結果と、精度を大幅に向上した遅延音声認識結果が得られる。
論文 参考訳(メタデータ) (2020-10-07T05:58:28Z) - VocGAN: A High-Fidelity Real-time Vocoder with a Hierarchically-nested
Adversarial Network [9.274656542624658]
最近開発されたGANベースのボコーダであるMelGANは、音声波形をリアルタイムで生成する。
VocGANはMelGANとほぼ同じ速度であるが、出力波形の品質と一貫性を著しく向上させる。
実験では、VocGANはGTX 1080Ti GPUでは416.7倍、CPUでは3.24倍の速さで音声波形を合成する。
論文 参考訳(メタデータ) (2020-07-30T06:33:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。