論文の概要: FLowHigh: Towards Efficient and High-Quality Audio Super-Resolution with Single-Step Flow Matching
- arxiv url: http://arxiv.org/abs/2501.04926v1
- Date: Thu, 09 Jan 2025 02:30:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-10 14:00:22.314855
- Title: FLowHigh: Towards Efficient and High-Quality Audio Super-Resolution with Single-Step Flow Matching
- Title(参考訳): FLowHigh:シングルステップフローマッチングによる高効率・高品質オーディオ超解法を目指して
- Authors: Jun-Hak Yun, Seung-Bin Kim, Seong-Whan Lee,
- Abstract要約: FLowHighは、高効率な生成モデルであるフローマッチングをオーディオ超解像に統合する新しいアプローチである。
提案手法は, 複数入力サンプリングレートにまたがる単一ステップサンプリングプロセスにより, 高忠実で高分解能な音声を生成する。
- 参考スコア(独自算出の注目度): 29.12032530972612
- License:
- Abstract: Audio super-resolution is challenging owing to its ill-posed nature. Recently, the application of diffusion models in audio super-resolution has shown promising results in alleviating this challenge. However, diffusion-based models have limitations, primarily the necessity for numerous sampling steps, which causes significantly increased latency when synthesizing high-quality audio samples. In this paper, we propose FLowHigh, a novel approach that integrates flow matching, a highly efficient generative model, into audio super-resolution. We also explore probability paths specially tailored for audio super-resolution, which effectively capture high-resolution audio distributions, thereby enhancing reconstruction quality. The proposed method generates high-fidelity, high-resolution audio through a single-step sampling process across various input sampling rates. The experimental results on the VCTK benchmark dataset demonstrate that FLowHigh achieves state-of-the-art performance in audio super-resolution, as evaluated by log-spectral distance and ViSQOL while maintaining computational efficiency with only a single-step sampling process.
- Abstract(参考訳): オーディオの超高解像度化は、その不適切な性質のために難しい。
近年,音響超解像への拡散モデルの適用は,この課題を緩和する有望な結果を示している。
しかし、拡散モデルには制限があり、主に多数のサンプリングステップが必要であり、高品質なオーディオサンプルを合成する際に遅延が著しく増加する。
本稿では,高効率な生成モデルであるフローマッチングを音響超解像に統合する新しいアプローチであるFLowHighを提案する。
また,高分解能なオーディオ配信を効果的に捉え,再現性を向上させるため,高分解能超解像用に特別に調整された確率経路についても検討する。
提案手法は, 複数入力サンプリングレートにまたがる単一ステップサンプリングプロセスにより, 高忠実で高分解能な音声を生成する。
VCTKベンチマークデータセットを用いた実験結果から,単一ステップサンプリングプロセスのみで計算効率を維持しつつ,対数スペクトル距離とViSQOLで評価し,FLowHighが音声超解像における最先端性能を達成することを示した。
関連論文リスト
- PTQ4ADM: Post-Training Quantization for Efficient Text Conditional Audio Diffusion Models [8.99127212785609]
この研究は、音声拡散モデル(ADM)を定量化する新しいフレームワークであるPTQ4ADMを導入している。
本研究の主な貢献は,(1)カバレッジ駆動型プロンプト拡張法,(2)テキスト条件ADMのアクティベーション対応校正セット生成アルゴリズムである。
PTQ4ADMは、完全精度モデルに匹敵する合成品質の指標を達成しつつ、モデルサイズを最大70%削減する能力を示した。
論文 参考訳(メタデータ) (2024-09-20T20:52:56Z) - Frieren: Efficient Video-to-Audio Generation Network with Rectified Flow Matching [51.70360630470263]
Video-to-audio (V2A) は、サイレントビデオからコンテンツマッチング音声を合成することを目的としている。
本稿では,修正フローマッチングに基づくV2AモデルであるFrierenを提案する。
実験により、フリーレンは世代品質と時間的アライメントの両方で最先端のパフォーマンスを達成することが示された。
論文 参考訳(メタデータ) (2024-06-01T06:40:22Z) - Frequency-Domain Refinement with Multiscale Diffusion for Super Resolution [7.29314801047906]
周波数領域誘導型マルチスケール拡散モデル(FDDiff)を提案する。
FDDiffは、高周波情報補完プロセスをよりきめ細かいステップに分解する。
FDDiffは高忠実度超解像率で先行生成法より優れていた。
論文 参考訳(メタデータ) (2024-05-16T11:58:52Z) - DiffSED: Sound Event Detection with Denoising Diffusion [70.18051526555512]
生成学習の観点からSED問題を再構築する。
具体的には,騒音拡散過程において,雑音のある提案から音の時間境界を生成することを目的としている。
トレーニング中は,ノイズの多い遅延クエリを基本バージョンに変換することで,ノイズ発生過程の逆転を学習する。
論文 参考訳(メタデータ) (2023-08-14T17:29:41Z) - ACDMSR: Accelerated Conditional Diffusion Models for Single Image
Super-Resolution [84.73658185158222]
本稿では,ACDMSRと呼ばれる拡散モデルに基づく超解像法を提案する。
提案手法は, 決定論的反復分解過程を通じて超解像を行うために, 標準拡散モデルに適応する。
提案手法は,低解像度画像に対してより視覚的に現実的な表現を生成し,現実的なシナリオにおけるその有効性を強調した。
論文 参考訳(メタデータ) (2023-07-03T06:49:04Z) - Boosting Fast and High-Quality Speech Synthesis with Linear Diffusion [85.54515118077825]
本稿では, 常微分方程式に基づく線形拡散モデル(LinDiff)を提案する。
計算複雑性を低減するため、LinDiffでは、入力信号を小さなパッチに分割するパッチベースの処理アプローチを採用している。
我々のモデルは、より高速な合成速度で自己回帰モデルに匹敵する品質の音声を合成することができる。
論文 参考訳(メタデータ) (2023-06-09T07:02:43Z) - Nonparallel High-Quality Audio Super Resolution with Domain Adaptation
and Resampling CycleGANs [9.593925140084846]
本稿では,2つの連結サイクル一貫した生成対向ネットワーク(CycleGAN)に基づいて,未ペアデータを利用する高品質なオーディオ超解像法を提案する。
本手法は,非対向低分解能信号と高分解能信号の音響ミスマッチを処理するために,超解像法を領域適応・再サンプリング法に分解する。
提案手法は,ペアデータの利用が不可能な場合,従来の手法よりも有意に優れていたことが実験的に検証された。
論文 参考訳(メタデータ) (2022-10-28T04:32:59Z) - ProDiff: Progressive Fast Diffusion Model For High-Quality
Text-to-Speech [63.780196620966905]
本稿では,高品質テキスト合成のためのプログレッシブ高速拡散モデルであるProDiffを提案する。
ProDiffはクリーンデータを直接予測することでデノナイジングモデルをパラメータ化し、サンプリングを高速化する際の品質劣化を回避する。
評価の結果,高忠実度メル-スペクトログラムの合成にProDiffは2回しか要しないことがわかった。
ProDiffは1つのNVIDIA 2080Ti GPU上で、サンプリング速度をリアルタイムより24倍高速にする。
論文 参考訳(メタデータ) (2022-07-13T17:45:43Z) - A Study on Speech Enhancement Based on Diffusion Probabilistic Model [63.38586161802788]
雑音信号からクリーンな音声信号を復元することを目的とした拡散確率モデルに基づく音声強調モデル(DiffuSE)を提案する。
実験結果から、DiffuSEは、標準化されたVoice Bankコーパスタスクにおいて、関連する音声生成モデルに匹敵する性能が得られることがわかった。
論文 参考訳(メタデータ) (2021-07-25T19:23:18Z) - CRASH: Raw Audio Score-based Generative Modeling for Controllable
High-resolution Drum Sound Synthesis [0.0]
非条件生音声合成のための新しいスコアベース生成モデルを提案する。
提案手法は,よりフレキシブルな生成機能を提供しながら,生音声におけるGANベースの手法とのギャップを埋める。
論文 参考訳(メタデータ) (2021-06-14T13:48:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。