論文の概要: UniverSR: Unified and Versatile Audio Super-Resolution via Vocoder-Free Flow Matching
- arxiv url: http://arxiv.org/abs/2510.00771v1
- Date: Wed, 01 Oct 2025 11:04:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-03 14:32:17.200715
- Title: UniverSR: Unified and Versatile Audio Super-Resolution via Vocoder-Free Flow Matching
- Title(参考訳): UniverSR: Vocoder-Free Flow Matchingによる、統一的でヴァーサタイルなオーディオ超解像
- Authors: Woongjib Choi, Sangmin Lee, Hyungseob Lim, Hong-Goo Kang,
- Abstract要約: 本稿では,複雑なスペクトル係数の条件分布を捉えるために,フローマッチング生成モデルを用いた超解像の超解像化フレームワークを提案する。
実験により,我々のモデルは様々なアップサンプリング要因にまたがる高忠実度48kHzのオーディオを連続的に生成することがわかった。
- 参考スコア(独自算出の注目度): 20.92242470770289
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this paper, we present a vocoder-free framework for audio super-resolution that employs a flow matching generative model to capture the conditional distribution of complex-valued spectral coefficients. Unlike conventional two-stage diffusion-based approaches that predict a mel-spectrogram and then rely on a pre-trained neural vocoder to synthesize waveforms, our method directly reconstructs waveforms via the inverse Short-Time Fourier Transform (iSTFT), thereby eliminating the dependence on a separate vocoder. This design not only simplifies end-to-end optimization but also overcomes a critical bottleneck of two-stage pipelines, where the final audio quality is fundamentally constrained by vocoder performance. Experiments show that our model consistently produces high-fidelity 48 kHz audio across diverse upsampling factors, achieving state-of-the-art performance on both speech and general audio datasets.
- Abstract(参考訳): 本稿では,複雑なスペクトル係数の条件分布を抽出するフローマッチング生成モデルを用いて,オーディオ超解像のためのボコーダフリーフレームワークを提案する。
メルスペクトルを予測する従来の2段階拡散法とは違って,本手法では逆短時間フーリエ変換(iSTFT)を用いて波形を直接再構成することにより,別個のボコーダへの依存を解消する。
この設計は、エンドツーエンドの最適化を単純化するだけでなく、2段階パイプラインの致命的なボトルネックを克服する。
実験により,本モデルでは,音声および一般の音声データセットに対して,様々なアップサンプリング要因にまたがる高忠実度48kHzの音声を連続的に生成し,最先端の性能を実現することができた。
関連論文リスト
- Prosody-Guided Harmonic Attention for Phase-Coherent Neural Vocoding in the Complex Spectrum [1.3066182802188198]
韻律誘導型高調波アテンションを導入し、音声セグメント符号化を強化し、逆STFTによる波形合成のための複雑なスペクトル成分を直接予測する。
ベンチマークデータセットの実験では、HiFi-GANとAutoVocoderに対する一貫した利得が示されている: F0 RMSEは22%削減され、音声/無声エラーは18%減少し、MOSスコアは0.15改善された。
これらの結果から,韻律誘導された注意と直接複素スペクトルモデリングが組み合わさることで,より自然な,ピッチ精度,頑健な合成音声が得られることが示唆された。
論文 参考訳(メタデータ) (2026-01-20T20:53:24Z) - WaveFM: A High-Fidelity and Efficient Vocoder Based on Flow Matching [1.6385815610837167]
WaveFMはメル-スペクトログラム条件付き音声合成のためのフローマッチングモデルである。
本モデルは,従来の拡散ボコーダと比較して,品質と効率の両面で優れた性能を実現する。
論文 参考訳(メタデータ) (2025-03-20T20:17:17Z) - Training Universal Vocoders with Feature Smoothing-Based Augmentation Methods for High-Quality TTS Systems [6.998597120755703]
ユニバーサルヴォコーダを訓練するための新しい拡張手法を提案する。
音響特性の入力に線形な平滑化フィルタをランダムに適用する。
トレーニングと推論のミスマッチを著しく軽減し、合成出力の自然性を高める。
論文 参考訳(メタデータ) (2024-09-04T08:25:54Z) - Frieren: Efficient Video-to-Audio Generation Network with Rectified Flow Matching [51.70360630470263]
Video-to-audio (V2A) は、サイレントビデオからコンテンツマッチング音声を合成することを目的としている。
本稿では,修正フローマッチングに基づくV2AモデルであるFrierenを提案する。
実験により、フリーレンは世代品質と時間的アライメントの両方で最先端のパフォーマンスを達成することが示された。
論文 参考訳(メタデータ) (2024-06-01T06:40:22Z) - From Discrete Tokens to High-Fidelity Audio Using Multi-Band Diffusion [84.138804145918]
深層生成モデルは、様々な種類の表現で条件付けられた高忠実度オーディオを生成することができる。
これらのモデルは、条件付けに欠陥がある場合や不完全な場合、可聴アーチファクトを生成する傾向がある。
低ビットレート離散表現から任意の種類のオーディオモダリティを生成する高忠実度マルチバンド拡散ベースフレームワークを提案する。
論文 参考訳(メタデータ) (2023-08-02T22:14:29Z) - High Fidelity Neural Audio Compression [92.4812002532009]
我々は、ニューラルネットワークを利用した最先端のリアルタイム、高忠実、オーディオを導入する。
ストリーミングエンコーダ-デコーダアーキテクチャと、エンドツーエンドでトレーニングされた量子化潜在空間で構成されている。
単一マルチスケール・スペクトログラム・アドバイザリーを用いて、トレーニングを簡素化し、高速化する。
論文 参考訳(メタデータ) (2022-10-24T17:52:02Z) - SpecGrad: Diffusion Probabilistic Model based Neural Vocoder with
Adaptive Noise Spectral Shaping [51.698273019061645]
SpecGradは拡散雑音に適応し、その時間変化スペクトル包絡が条件付き対数メル分光器に近づく。
時間周波数領域で処理され、計算コストは従来のDDPMベースのニューラルボコーダとほぼ同じである。
論文 参考訳(メタデータ) (2022-03-31T02:08:27Z) - NeuralDPS: Neural Deterministic Plus Stochastic Model with Multiband
Excitation for Noise-Controllable Waveform Generation [67.96138567288197]
本稿では,高い音声品質を保ち,高い合成効率とノイズ制御性を得ることができるニューラルDPSというニューラルボコーダを提案する。
ウェーブネットのボコーダより少なくとも280倍高速な波形を生成する。
また、単一コア上でのWaveGANの合成効率よりも28%高速である。
論文 参考訳(メタデータ) (2022-03-05T08:15:29Z) - RAVE: A variational autoencoder for fast and high-quality neural audio
synthesis [2.28438857884398]
本稿では,高速かつ高品質な音声波形合成が可能なリアルタイムオーディオ変分自動エンコーダ(RAVE)を提案する。
我々のモデルは48kHzのオーディオ信号を生成できる最初のモデルであり、同時に標準のラップトップCPU上で20倍高速に動作可能であることを示す。
論文 参考訳(メタデータ) (2021-11-09T09:07:30Z) - Hierarchical Timbre-Painting and Articulation Generation [92.59388372914265]
本稿では,f0と大音量に基づく高速かつ高忠実な楽曲生成手法を提案する。
合成音声は、対象楽器の音色及び調音を模倣する。
論文 参考訳(メタデータ) (2020-08-30T05:27:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。