論文の概要: Inference-time Scaling for Diffusion-based Audio Super-resolution
- arxiv url: http://arxiv.org/abs/2508.02391v1
- Date: Mon, 04 Aug 2025 13:17:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-05 18:25:22.350303
- Title: Inference-time Scaling for Diffusion-based Audio Super-resolution
- Title(参考訳): 拡散型音響超解像の推測時間スケーリング
- Authors: Yizhu Jin, Zhen Ye, Zeyue Tian, Haohe Liu, Qiuqiang Kong, Yike Guo, Wei Xue,
- Abstract要約: 拡散モデルは、音声超解像(SR)を含む生成タスクにおいて顕著な成功を収めた。
本稿では,サンプリング過程における複数の解軌跡を探索するSRの推論時間スケーリングを通じて,異なるパラダイムを提案する。
検証とアルゴリズムの組み合わせによって高次元の解空間の探索を積極的に導くことで、より堅牢で高品質な出力を可能にします。
- 参考スコア(独自算出の注目度): 27.246435209069865
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Diffusion models have demonstrated remarkable success in generative tasks, including audio super-resolution (SR). In many applications like movie post-production and album mastering, substantial computational budgets are available for achieving superior audio quality. However, while existing diffusion approaches typically increase sampling steps to improve quality, the performance remains fundamentally limited by the stochastic nature of the sampling process, leading to high-variance and quality-limited outputs. Here, rather than simply increasing the number of sampling steps, we propose a different paradigm through inference-time scaling for SR, which explores multiple solution trajectories during the sampling process. Different task-specific verifiers are developed, and two search algorithms, including the random search and zero-order search for SR, are introduced. By actively guiding the exploration of the high-dimensional solution space through verifier-algorithm combinations, we enable more robust and higher-quality outputs. Through extensive validation across diverse audio domains (speech, music, sound effects) and frequency ranges, we demonstrate consistent performance gains, achieving improvements of up to 9.70% in aesthetics, 5.88% in speaker similarity, 15.20% in word error rate, and 46.98% in spectral distance for speech SR from 4kHz to 24kHz, showcasing the effectiveness of our approach. Audio samples are available at: https://racerk.github.io/tt-scale-audiosr/.
- Abstract(参考訳): 拡散モデルは、音声超解像(SR)を含む生成タスクにおいて顕著な成功を収めている。
映画のポストプロダクションやアルバムのマスタリングのような多くのアプリケーションでは、優れたオーディオ品質を達成するためにかなりの計算予算が利用可能である。
しかし, 既存の拡散法は, サンプリング工程を改良するが, サンプリング過程の確率的性質により性能は基本的に制限され, 高いばらつきと品質制限が生じる。
ここでは、サンプリングステップの数を単純に増やすのではなく、サンプリングプロセス中に複数の解軌跡を探索するSRの推論時間スケーリングを通じて異なるパラダイムを提案する。
タスク固有の検証器が開発され、乱数探索やSRのゼロオーダー探索を含む2つの探索アルゴリズムが導入された。
検証とアルゴリズムの組み合わせによって高次元の解空間の探索を積極的に導くことで、より堅牢で高品質な出力を可能にします。
様々な音声領域(音声,音楽,音響効果)と周波数範囲にまたがる広範囲な検証を通じて、一貫した性能向上を示し、美学の最大9.70%、話者類似度5.88%、単語誤り率15.20%、音声SRのスペクトル距離46.98%を達成し、我々のアプローチの有効性を示した。
オーディオサンプルは、https://racerk.github.io/tt-scale-audiosr/で入手できる。
関連論文リスト
- Token-based Audio Inpainting via Discrete Diffusion [14.23046540809056]
本稿では,トークン化音声表現を演算する離散拡散モデルに基づく新しい塗装手法を提案する。
提案手法は離散潜在空間において生成過程を直接モデル化し,音声の安定的,意味的コヒーレントな再構築を可能にする。
論文 参考訳(メタデータ) (2025-07-11T06:25:49Z) - Learning to Upsample and Upmix Audio in the Latent Domain [13.82572699087732]
ニューラルオーディオオートエンコーダは、知覚的に重要な情報を保持するコンパクトな潜在表現を生成する。
本稿では,オートエンコーダの潜在空間内で音声処理を行うフレームワークを提案する。
生音声における後処理に匹敵する品質を維持しつつ,最大100倍の計算効率向上を示す。
論文 参考訳(メタデータ) (2025-05-31T19:27:22Z) - Fast T2T: Optimization Consistency Speeds Up Diffusion-Based Training-to-Testing Solving for Combinatorial Optimization [83.65278205301576]
雑音レベルから与えられたインスタンスの最適解への直接写像を学習し、最小限のショットで高品質な生成を容易にすることを提案する。
これは、サンプル間の差を最小限に抑える最適化一貫性トレーニングプロトコルによって達成される。
The Traveling Salesman Problem (TSP) と Maximal Independent Set (MIS) は、ソリューションの品質と効率の両方に関して、Fast T2Tの優位性を実証している。
論文 参考訳(メタデータ) (2025-02-05T07:13:43Z) - FLowHigh: Towards Efficient and High-Quality Audio Super-Resolution with Single-Step Flow Matching [29.12032530972612]
FLowHighは、高効率な生成モデルであるフローマッチングをオーディオ超解像に統合する新しいアプローチである。
提案手法は, 複数入力サンプリングレートにまたがる単一ステップサンプリングプロセスにより, 高忠実で高分解能な音声を生成する。
論文 参考訳(メタデータ) (2025-01-09T02:30:26Z) - PTQ4ADM: Post-Training Quantization for Efficient Text Conditional Audio Diffusion Models [8.99127212785609]
この研究は、音声拡散モデル(ADM)を定量化する新しいフレームワークであるPTQ4ADMを導入している。
本研究の主な貢献は,(1)カバレッジ駆動型プロンプト拡張法,(2)テキスト条件ADMのアクティベーション対応校正セット生成アルゴリズムである。
PTQ4ADMは、完全精度モデルに匹敵する合成品質の指標を達成しつつ、モデルサイズを最大70%削減する能力を示した。
論文 参考訳(メタデータ) (2024-09-20T20:52:56Z) - Autoregressive Diffusion Transformer for Text-to-Speech Synthesis [39.32761051774537]
連続空間$mathbb Rd$のベクトル列として音響を符号化し、これらの列を自己回帰的に生成する。
高ビットレート連続音声表現は、ほとんど欠陥のない再構成を可能にし、我々のモデルは、ほぼ完璧な音声編集を実現できる。
論文 参考訳(メタデータ) (2024-06-08T18:57:13Z) - Frieren: Efficient Video-to-Audio Generation Network with Rectified Flow Matching [51.70360630470263]
Video-to-audio (V2A) は、サイレントビデオからコンテンツマッチング音声を合成することを目的としている。
本稿では,修正フローマッチングに基づくV2AモデルであるFrierenを提案する。
実験により、フリーレンは世代品質と時間的アライメントの両方で最先端のパフォーマンスを達成することが示された。
論文 参考訳(メタデータ) (2024-06-01T06:40:22Z) - SpecDiff-GAN: A Spectrally-Shaped Noise Diffusion GAN for Speech and
Music Synthesis [0.0]
本稿では,HiFi-GANに基づくニューラルボコーダSpecDiff-GANを紹介する。
いくつかのデータセットに対して,提案モデルによる音声合成と音楽合成の利点を示す。
論文 参考訳(メタデータ) (2024-01-30T09:17:57Z) - AdVerb: Visually Guided Audio Dereverberation [49.958724234969445]
本稿では,新しいオーディオ・ビジュアル・デバーベレーション・フレームワークであるAdVerbを紹介する。
残響音に加えて視覚的手がかりを用いてクリーンオーディオを推定する。
論文 参考訳(メタデータ) (2023-08-23T18:20:59Z) - DiffSED: Sound Event Detection with Denoising Diffusion [70.18051526555512]
生成学習の観点からSED問題を再構築する。
具体的には,騒音拡散過程において,雑音のある提案から音の時間境界を生成することを目的としている。
トレーニング中は,ノイズの多い遅延クエリを基本バージョンに変換することで,ノイズ発生過程の逆転を学習する。
論文 参考訳(メタデータ) (2023-08-14T17:29:41Z) - ProDiff: Progressive Fast Diffusion Model For High-Quality
Text-to-Speech [63.780196620966905]
本稿では,高品質テキスト合成のためのプログレッシブ高速拡散モデルであるProDiffを提案する。
ProDiffはクリーンデータを直接予測することでデノナイジングモデルをパラメータ化し、サンプリングを高速化する際の品質劣化を回避する。
評価の結果,高忠実度メル-スペクトログラムの合成にProDiffは2回しか要しないことがわかった。
ProDiffは1つのNVIDIA 2080Ti GPU上で、サンプリング速度をリアルタイムより24倍高速にする。
論文 参考訳(メタデータ) (2022-07-13T17:45:43Z) - NU-GAN: High resolution neural upsampling with GAN [60.02736450639215]
NU-GANはサンプリングレート(アップサンプリング)の低値から高値へのオーディオ再サンプリング法である
このようなアプリケーションは44.1kHzまたは48kHzの解像度でオーディオを使用するが、現在の音声合成法は最大24kHzの解像度で処理できる。
ABX選好試験は、我々のNU-GAN再サンプリング装置が22kHzから44.1kHzのオーディオを再サンプリングでき、これは元のオーディオと区別できるが、単一の話者データセットのランダムな確率より7.4%高く、マルチスピーカーデータセットの確率より10.8%高い。
論文 参考訳(メタデータ) (2020-10-22T01:00:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。