論文の概要: UniverSR: Unified and Versatile Audio Super-Resolution via Vocoder-Free Flow Matching
- arxiv url: http://arxiv.org/abs/2510.00771v1
- Date: Wed, 01 Oct 2025 11:04:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-03 14:32:17.200715
- Title: UniverSR: Unified and Versatile Audio Super-Resolution via Vocoder-Free Flow Matching
- Title(参考訳): UniverSR: Vocoder-Free Flow Matchingによる、統一的でヴァーサタイルなオーディオ超解像
- Authors: Woongjib Choi, Sangmin Lee, Hyungseob Lim, Hong-Goo Kang,
- Abstract要約: 本稿では,複雑なスペクトル係数の条件分布を捉えるために,フローマッチング生成モデルを用いた超解像の超解像化フレームワークを提案する。
実験により,我々のモデルは様々なアップサンプリング要因にまたがる高忠実度48kHzのオーディオを連続的に生成することがわかった。
- 参考スコア(独自算出の注目度): 20.92242470770289
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this paper, we present a vocoder-free framework for audio super-resolution that employs a flow matching generative model to capture the conditional distribution of complex-valued spectral coefficients. Unlike conventional two-stage diffusion-based approaches that predict a mel-spectrogram and then rely on a pre-trained neural vocoder to synthesize waveforms, our method directly reconstructs waveforms via the inverse Short-Time Fourier Transform (iSTFT), thereby eliminating the dependence on a separate vocoder. This design not only simplifies end-to-end optimization but also overcomes a critical bottleneck of two-stage pipelines, where the final audio quality is fundamentally constrained by vocoder performance. Experiments show that our model consistently produces high-fidelity 48 kHz audio across diverse upsampling factors, achieving state-of-the-art performance on both speech and general audio datasets.
- Abstract(参考訳): 本稿では,複雑なスペクトル係数の条件分布を抽出するフローマッチング生成モデルを用いて,オーディオ超解像のためのボコーダフリーフレームワークを提案する。
メルスペクトルを予測する従来の2段階拡散法とは違って,本手法では逆短時間フーリエ変換(iSTFT)を用いて波形を直接再構成することにより,別個のボコーダへの依存を解消する。
この設計は、エンドツーエンドの最適化を単純化するだけでなく、2段階パイプラインの致命的なボトルネックを克服する。
実験により,本モデルでは,音声および一般の音声データセットに対して,様々なアップサンプリング要因にまたがる高忠実度48kHzの音声を連続的に生成し,最先端の性能を実現することができた。
関連論文リスト
- WaveFM: A High-Fidelity and Efficient Vocoder Based on Flow Matching [1.6385815610837167]
WaveFMはメル-スペクトログラム条件付き音声合成のためのフローマッチングモデルである。
本モデルは,従来の拡散ボコーダと比較して,品質と効率の両面で優れた性能を実現する。
論文 参考訳(メタデータ) (2025-03-20T20:17:17Z) - Frieren: Efficient Video-to-Audio Generation Network with Rectified Flow Matching [51.70360630470263]
Video-to-audio (V2A) は、サイレントビデオからコンテンツマッチング音声を合成することを目的としている。
本稿では,修正フローマッチングに基づくV2AモデルであるFrierenを提案する。
実験により、フリーレンは世代品質と時間的アライメントの両方で最先端のパフォーマンスを達成することが示された。
論文 参考訳(メタデータ) (2024-06-01T06:40:22Z) - SpecGrad: Diffusion Probabilistic Model based Neural Vocoder with
Adaptive Noise Spectral Shaping [51.698273019061645]
SpecGradは拡散雑音に適応し、その時間変化スペクトル包絡が条件付き対数メル分光器に近づく。
時間周波数領域で処理され、計算コストは従来のDDPMベースのニューラルボコーダとほぼ同じである。
論文 参考訳(メタデータ) (2022-03-31T02:08:27Z) - Hierarchical Timbre-Painting and Articulation Generation [92.59388372914265]
本稿では,f0と大音量に基づく高速かつ高忠実な楽曲生成手法を提案する。
合成音声は、対象楽器の音色及び調音を模倣する。
論文 参考訳(メタデータ) (2020-08-30T05:27:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。