論文の概要: Audio Super-Resolution with Latent Bridge Models
- arxiv url: http://arxiv.org/abs/2509.17609v2
- Date: Fri, 26 Sep 2025 05:39:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-29 12:12:20.310643
- Title: Audio Super-Resolution with Latent Bridge Models
- Title(参考訳): ラテントブリッジモデルによるオーディオ超解像
- Authors: Chang Li, Zehua Chen, Liyuan Wang, Jun Zhu,
- Abstract要約: 遅延ブリッジモデル(LBM)を用いた新しいシステムを提案する。
音声波形を連続的な潜時空間に圧縮し,LBMを設計して潜時から潜時生成プロセスを実現する。
HRサンプルが限られているにもかかわらず、トレーニング結果をさらに高めるため、周波数認識型LBMを導入する。
- 参考スコア(独自算出の注目度): 43.773399487946755
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Audio super-resolution (SR), i.e., upsampling the low-resolution (LR) waveform to the high-resolution (HR) version, has recently been explored with diffusion and bridge models, while previous methods often suffer from sub-optimal upsampling quality due to their uninformative generation prior. Towards high-quality audio super-resolution, we present a new system with latent bridge models (LBMs), where we compress the audio waveform into a continuous latent space and design an LBM to enable a latent-to-latent generation process that naturally matches the LR-toHR upsampling process, thereby fully exploiting the instructive prior information contained in the LR waveform. To further enhance the training results despite the limited availability of HR samples, we introduce frequency-aware LBMs, where the prior and target frequency are taken as model input, enabling LBMs to explicitly learn an any-to-any upsampling process at the training stage. Furthermore, we design cascaded LBMs and present two prior augmentation strategies, where we make the first attempt to unlock the audio upsampling beyond 48 kHz and empower a seamless cascaded SR process, providing higher flexibility for audio post-production. Comprehensive experimental results evaluated on the VCTK, ESC-50, Song-Describer benchmark datasets and two internal testsets demonstrate that we achieve state-of-the-art objective and perceptual quality for any-to-48kHz SR across speech, audio, and music signals, as well as setting the first record for any-to-192kHz audio SR. Demo at https://AudioLBM.github.io/.
- Abstract(参考訳): オーディオ超解像(SR)、すなわち低分解能(LR)波形を高分解能(HR)バージョンにアップサンプリングする手法は、拡散とブリッジモデルを用いて最近研究されている。
高品質なオーディオ超解像に向けて,LBMを用いた新しいシステムを提案する。このシステムでは,音声波形を連続的な潜時空間に圧縮し,LBMを設計することにより,LR-toHRアップサンプリングプロセスと自然に一致する潜時から潜時生成プロセスを実現し,LR波形に含まれるインストラクティブ事前情報を完全に活用する。
HRサンプルが限られているにもかかわらず、トレーニング結果をさらに高めるため、トレーニング段階において、事前および目標周波数をモデル入力とし、LBMが任意のアップサンプリング過程を明示的に学習できるようにする周波数認識型LBMを導入する。
さらに,ケースドLBMを設計し,それ以前の2つの拡張戦略を提示する。そこでは,48kHzを超えるオーディオアップサンプリングをアンロックし,シームレスなカスドSRプロセスを強化し,オーディオポストプロダクションの柔軟性を高める。
VCTK,ESC-50,Song-Describerベンチマークデータセットおよび2つの内部テストセットで評価された総合的な実験結果から,音声,音声,音楽信号間での48kHz SRの最先端目標と知覚品質を実現し,任意の192kHz 音声 SR の初記録を樹立した。
Demo at https://AudioLBM.github.io/.com
関連論文リスト
- Inference-time Scaling for Diffusion-based Audio Super-resolution [27.246435209069865]
拡散モデルは、音声超解像(SR)を含む生成タスクにおいて顕著な成功を収めた。
本稿では,サンプリング過程における複数の解軌跡を探索するSRの推論時間スケーリングを通じて,異なるパラダイムを提案する。
検証とアルゴリズムの組み合わせによって高次元の解空間の探索を積極的に導くことで、より堅牢で高品質な出力を可能にします。
論文 参考訳(メタデータ) (2025-08-04T13:17:49Z) - SimpleGVR: A Simple Baseline for Latent-Cascaded Video Super-Resolution [55.14432034345353]
後続の超解像モデルの設計原理について検討し,その設計原理について検討する。
まず、ベースモデルの出力特性をよりよく模倣し、VSRモデルと上流ジェネレータとの整合性を確保するための2つのトレーニングペアを生成する方法を提案する。
第2に,(1)時間ステップサンプリング戦略,(2)低分解能(LR)入力に対する雑音増強効果の系統的解析を通じて,VSRモデル行動に対する批判的洞察を提供する。
論文 参考訳(メタデータ) (2025-06-24T17:57:26Z) - FLowHigh: Towards Efficient and High-Quality Audio Super-Resolution with Single-Step Flow Matching [29.12032530972612]
FLowHighは、高効率な生成モデルであるフローマッチングをオーディオ超解像に統合する新しいアプローチである。
提案手法は, 複数入力サンプリングレートにまたがる単一ステップサンプリングプロセスにより, 高忠実で高分解能な音声を生成する。
論文 参考訳(メタデータ) (2025-01-09T02:30:26Z) - Arbitrary-steps Image Super-resolution via Diffusion Inversion [68.78628844966019]
本研究では,拡散インバージョンに基づく新しい画像超解像(SR)手法を提案する。
本研究では,拡散モデルの中間状態を構築するための部分雑音予測戦略を設計する。
トレーニングが完了すると、このノイズ予測器を使用して、拡散軌道に沿ってサンプリングプロセスを部分的に初期化し、望ましい高分解能結果を生成する。
論文 参考訳(メタデータ) (2024-12-12T07:24:13Z) - Wave-U-Mamba: An End-To-End Framework For High-Quality And Efficient Speech Super Resolution [4.495657539150699]
SSR(Speech Super-Resolution)は、高周波数成分の欠如を回復させることにより低分解能音声信号を強化するタスクである。
従来の手法では、通常、対数メルの特徴を再構成し、次いで波形領域で高分解能な音声を生成するボコーダが続く。
本稿では,SSRを時間領域で直接実行するWave-U-Mambaという手法を提案する。
論文 参考訳(メタデータ) (2024-09-14T06:52:00Z) - Neural Vocoder is All You Need for Speech Super-resolution [56.84715616516612]
音声スーパーレゾリューション(SR)は、高周波成分を生成して音声サンプリング率を高めるタスクである。
既存の音声SR法は、固定的なアップサンプリング比のような制約のある実験環境で訓練される。
本稿では,ニューラルボコーダを用いた音声超解法(NVSR)を提案する。
論文 参考訳(メタデータ) (2022-03-28T17:51:00Z) - A Study on Speech Enhancement Based on Diffusion Probabilistic Model [63.38586161802788]
雑音信号からクリーンな音声信号を復元することを目的とした拡散確率モデルに基づく音声強調モデル(DiffuSE)を提案する。
実験結果から、DiffuSEは、標準化されたVoice Bankコーパスタスクにおいて、関連する音声生成モデルに匹敵する性能が得られることがわかった。
論文 参考訳(メタデータ) (2021-07-25T19:23:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。