論文の概要: FastWave: Optimized Diffusion Model for Audio Super-Resolution
- arxiv url: http://arxiv.org/abs/2603.04122v1
- Date: Wed, 04 Mar 2026 14:41:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-05 21:29:15.34745
- Title: FastWave: Optimized Diffusion Model for Audio Super-Resolution
- Title(参考訳): FastWave:オーディオ超解像のための最適化拡散モデル
- Authors: Nikita Kuznetsov, Maksim Kaledin,
- Abstract要約: オーディオ・スーパー・リゾリューション(Audio Super-Resolution)は、高いサンプリングレートでサンプリングされるような、与えられた信号の高品質な評価を目的とした一連の手法である。
本稿では,拡散モデルのトレーニングにおける最近の進歩を再考し,48kHz以上の試料レートから超高分解能に応用する手法を提案する。
我々のモデルであるFastWaveは、約50GFLOPの計算複雑性と1.3Mのパラメータを持ち、最近提案された拡散型およびフローベースのソリューションの大部分よりも少ないリソースでトレーニングできる。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Audio Super-Resolution is a set of techniques aimed at high-quality estimation of the given signal as if it would be sampled with higher sample rate. Among suggested methods there are diffusion and flow models (which are considered slower), generative adversarial networks (which are considered faster), however both approaches are currently presented by high-parametric networks, requiring high computational costs both for training and inference. We propose a solution to both these problems by re-considering the recent advances in the training of diffusion models and applying them to super-resolution from any to 48 kHz sample rate. Our approach shows better results than NU-Wave 2 and is comparable to state-of-the-art models. Our model called FastWave has around 50 GFLOPs of computational complexity and 1.3 M parameters and can be trained with less resources and significantly faster than the majority of recently proposed diffusion- and flow-based solutions. The code has been made publicly available.
- Abstract(参考訳): オーディオ・スーパー・リゾリューション(Audio Super-Resolution)は、高いサンプリングレートでサンプリングされるような、与えられた信号の高品質な評価を目的とした一連の手法である。
提案手法には拡散と流れモデル(遅いと考えられる)、生成的対向ネットワーク(より速いと考えられる)があるが、どちらの手法も現在、高パラメトリックネットワークによって提示されており、トレーニングと推論の両方に高い計算コストを必要とする。
拡散モデルのトレーニングにおける最近の進歩を再考し,48kHz以上の試料から超高分解能に応用することで,これらの問題の解決法を提案する。
我々の手法はNU-Wave 2よりも優れた結果を示し、最先端のモデルに匹敵する。
我々のモデルであるFastWaveは、約50GFLOPの計算複雑性と1.3Mのパラメータを持ち、最近提案された拡散およびフローベースのソリューションの大部分よりも少ないリソースでトレーニングできる。
コードは公開されています。
関連論文リスト
- CHORDS: Diffusion Sampling Accelerator with Multi-core Hierarchical ODE Solvers [72.23291099555459]
拡散に基づく生成モデルは、高忠実度画像やビデオの主要な生成元となっているが、計算コストのかかる推論手順によって制限されている。
本稿では,マルチコア並列処理による一般,トレーニング不要,モデルに依存しない高速化戦略について検討する。
ChoRDSは様々な大規模画像およびビデオ拡散モデルのサンプリングを著しく加速し、4コアで2.1倍のスピードアップを実現し、ベースラインで50%改善し、8コアで2.9倍のスピードアップを実現した。
論文 参考訳(メタデータ) (2025-07-21T05:48:47Z) - TADA: Improved Diffusion Sampling with Training-free Augmented Dynamics [40.75121059939763]
我々は,ImageNet512 上で比較 FID を比較対象とするアートソルバの現在の状態よりも最大 186% 以上高速な新しいサンプリング手法を提案する。
提案手法の鍵は,高次元初期雑音を用いて,より詳細なサンプルを生成することである。
論文 参考訳(メタデータ) (2025-06-26T20:30:27Z) - Arbitrary-steps Image Super-resolution via Diffusion Inversion [68.78628844966019]
本研究では,拡散インバージョンに基づく新しい画像超解像(SR)手法を提案する。
本研究では,拡散モデルの中間状態を構築するための部分雑音予測戦略を設計する。
トレーニングが完了すると、このノイズ予測器を使用して、拡散軌道に沿ってサンプリングプロセスを部分的に初期化し、望ましい高分解能結果を生成する。
論文 参考訳(メタデータ) (2024-12-12T07:24:13Z) - DiffuSeq-v2: Bridging Discrete and Continuous Text Spaces for
Accelerated Seq2Seq Diffusion Models [58.450152413700586]
ガウス空間に基づく離散突然変異を再構成する学習において拡散モデルを容易にする軟吸収状態を導入する。
我々は、サンプリングプロセスの高速化のために、連続空間内で最先端のODEソルバを用いている。
提案手法は, トレーニング収束率を4倍に向上させ, 類似品質のサンプルを800倍高速に生成する。
論文 参考訳(メタデータ) (2023-10-09T15:29:10Z) - Diffusion Models for Accurate Channel Distribution Generation [19.80498913496519]
強力な生成モデルはチャネル分布を正確に学習することができる。
これにより、チャネルの物理的測定の繰り返しコストを削減できる。
結果として得られる差別化チャネルモデルは、勾配ベースの最適化を可能にすることにより、ニューラルエンコーダのトレーニングをサポートする。
論文 参考訳(メタデータ) (2023-09-19T10:35:54Z) - Boosting Fast and High-Quality Speech Synthesis with Linear Diffusion [85.54515118077825]
本稿では, 常微分方程式に基づく線形拡散モデル(LinDiff)を提案する。
計算複雑性を低減するため、LinDiffでは、入力信号を小さなパッチに分割するパッチベースの処理アプローチを採用している。
我々のモデルは、より高速な合成速度で自己回帰モデルに匹敵する品質の音声を合成することができる。
論文 参考訳(メタデータ) (2023-06-09T07:02:43Z) - Q-Diffusion: Quantizing Diffusion Models [52.978047249670276]
ポストトレーニング量子化(PTQ)は、他のタスクに対するゴーツー圧縮法であると考えられている。
本稿では,一意なマルチステップパイプラインとモデルアーキテクチャに適した新しいPTQ手法を提案する。
提案手法は,完全精度の非条件拡散モデルを同等の性能を維持しつつ4ビットに定量化できることを示す。
論文 参考訳(メタデータ) (2023-02-08T19:38:59Z) - Fast Inference in Denoising Diffusion Models via MMD Finetuning [23.779985842891705]
拡散モデルの高速サンプリング法であるMDD-DDMを提案する。
我々のアプローチは、学習した分布を所定の予算のタイムステップで微調整するために、最大平均離散性(MMD)を使用するという考え方に基づいている。
提案手法は,広範に普及した拡散モデルで要求されるわずかな時間で高品質なサンプルを生成できることが示唆された。
論文 参考訳(メタデータ) (2023-01-19T09:48:07Z) - Wavelet Diffusion Models are fast and scalable Image Generators [3.222802562733787]
拡散モデルは高忠実度画像生成のための強力な解であり、多くの状況においてGANを超える。
最近のDiffusionGAN法は、サンプリングステップの数を数千から数に減らして、モデルの実行時間を著しく短縮するが、その速度はGANよりもかなり遅れている。
本稿では,新しいウェーブレット拡散方式を提案することにより,速度ギャップを低減することを目的とする。
我々は、ウェーブレット分解により、画像と特徴レベルの両方から低周波数成分を抽出し、これらの成分を適応的に処理し、良好な生成品質を維持しながら高速に処理する。
論文 参考訳(メタデータ) (2022-11-29T12:25:25Z) - Fast Sampling of Diffusion Models via Operator Learning [74.37531458470086]
我々は,拡散モデルのサンプリング過程を高速化するために,確率フロー微分方程式の効率的な解法であるニューラル演算子を用いる。
シーケンシャルな性質を持つ他の高速サンプリング手法と比較して、並列復号法を最初に提案する。
本稿では,CIFAR-10では3.78、ImageNet-64では7.83の最先端FIDを1モデル評価環境で達成することを示す。
論文 参考訳(メタデータ) (2022-11-24T07:30:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。