論文の概要: Fast and Flexible Audio Bandwidth Extension via Vocos
- arxiv url: http://arxiv.org/abs/2603.07285v1
- Date: Sat, 07 Mar 2026 17:12:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-10 15:13:14.202997
- Title: Fast and Flexible Audio Bandwidth Extension via Vocos
- Title(参考訳): Vocosによる高速かつフレキシブルな帯域拡張
- Authors: Yatharth Sharma,
- Abstract要約: 本稿では,8-48kHzの帯域幅拡張モデルを提案する。
このモデルは、NVIDIA A100 GPUで0.0001、8コアCPUで0.0053をリアルタイムに実行しながら、競合する対数スペクトル距離を達成する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: We propose a Vocos-based bandwidth extension model that enhances audio at 8-48 kHz by generating missing high-frequency content. Inputs are resampled to 48 kHz and processed by a neural vocoder backbone, enabling a single network to support arbitrary upsampling ratios. A lightweight Linkwitz-Riley-inspired refiner merges the original low band with the generated high frequencies via a smooth crossover. On validation, the model achieves competitive log-spectral distance while running at a real-time factor of 0.0001 on an NVIDIA A100 GPU and 0.0053 on an 8-core CPU, demonstrating practical, high-quality BWE at extreme throughput.
- Abstract(参考訳): 本稿では,8-48kHzの帯域幅拡張モデルを提案する。
入力は48kHzに再サンプリングされ、ニューラルボコーダのバックボーンによって処理される。
ライトウェイトなLinkwitz-Rileyにインスパイアされた精製機は、元の低帯域とスムーズなクロスオーバーによって生成された高周波数をマージする。
検証では、NVIDIA A100 GPUで0.0001、8コアCPUで0.0053のリアルタイム係数で実行しながら、競合する対数スペクトル距離を達成し、実用的で高品質なBWEを極端なスループットで示す。
関連論文リスト
- CodecFlow: Efficient Bandwidth Extension via Conditional Flow Matching in Neural Codec Latent Space [13.286622421661313]
音声帯域拡張は、低帯域音声に対して適切な高周波コンテンツを再生/推論することにより、明瞭さと知性を向上させる。
既存の手法はしばしばスペクトログラムや波形モデリングに依存しており、高い計算コストを発生させ、高周波の忠実度を制限できる。
我々は、コンパクトな潜在空間で効率的な音声再構成を行うニューラルネットワークベースのBWEフレームワークであるCodecFlowを提案する。
論文 参考訳(メタデータ) (2026-03-02T16:03:46Z) - EuleroDec: A Complex-Valued RVQ-VAE for Efficient and Robust Audio Coding [18.199202388702144]
ほとんどの周波数領域のニューラルコーデックは位相情報を無視するか、2つの独立した実数値チャネルとして符号化し、空間的忠実度を制限する。
これは、収束速度と訓練安定性を犠牲にして、敵対的差別者を導入する必要がある。
本研究では,解析量子化合成パイプライン全体にわたる大域的位相結合を保存する,終端から終端までの複雑なRVQ-VAEオーディオを紹介する。
論文 参考訳(メタデータ) (2026-01-24T16:34:07Z) - Frieren: Efficient Video-to-Audio Generation Network with Rectified Flow Matching [51.70360630470263]
Video-to-audio (V2A) は、サイレントビデオからコンテンツマッチング音声を合成することを目的としている。
本稿では,修正フローマッチングに基づくV2AモデルであるFrierenを提案する。
実験により、フリーレンは世代品質と時間的アライメントの両方で最先端のパフォーマンスを達成することが示された。
論文 参考訳(メタデータ) (2024-06-01T06:40:22Z) - Ultra-lightweight Neural Differential DSP Vocoder For High Quality
Speech Synthesis [9.916195285279931]
DSPヴォコーダは、過度に滑らかな音響モデル予測を消費するため、音質が低下することが多い。
DSPボコーダと共同最適化された音響モデルを用いた超軽量DSP(DDSP)ボコーダを提案し,声道スペクトルの特徴を抽出せずに学習する。
論文 参考訳(メタデータ) (2024-01-19T02:51:00Z) - High Fidelity Neural Audio Compression [92.4812002532009]
我々は、ニューラルネットワークを利用した最先端のリアルタイム、高忠実、オーディオを導入する。
ストリーミングエンコーダ-デコーダアーキテクチャと、エンドツーエンドでトレーニングされた量子化潜在空間で構成されている。
単一マルチスケール・スペクトログラム・アドバイザリーを用いて、トレーニングを簡素化し、高速化する。
論文 参考訳(メタデータ) (2022-10-24T17:52:02Z) - Neural Vocoder is All You Need for Speech Super-resolution [56.84715616516612]
音声スーパーレゾリューション(SR)は、高周波成分を生成して音声サンプリング率を高めるタスクである。
既存の音声SR法は、固定的なアップサンプリング比のような制約のある実験環境で訓練される。
本稿では,ニューラルボコーダを用いた音声超解法(NVSR)を提案する。
論文 参考訳(メタデータ) (2022-03-28T17:51:00Z) - NU-Wave: A Diffusion Probabilistic Model for Neural Audio Upsampling [0.0]
NU-Waveは、粗い16kHzまたは24kHz入力からサンプリングレート48kHzの波形を生成する最初のニューラルオーディオアップサンプリングモデルです。
NU-Waveは、信号対雑音比(SNR)、ログスペクトル距離(LSD)、ABXテストの精度で高性能を実現する高品質のオーディオを生成します。
論文 参考訳(メタデータ) (2021-04-06T06:52:53Z) - NU-GAN: High resolution neural upsampling with GAN [60.02736450639215]
NU-GANはサンプリングレート(アップサンプリング)の低値から高値へのオーディオ再サンプリング法である
このようなアプリケーションは44.1kHzまたは48kHzの解像度でオーディオを使用するが、現在の音声合成法は最大24kHzの解像度で処理できる。
ABX選好試験は、我々のNU-GAN再サンプリング装置が22kHzから44.1kHzのオーディオを再サンプリングでき、これは元のオーディオと区別できるが、単一の話者データセットのランダムな確率より7.4%高く、マルチスピーカーデータセットの確率より10.8%高い。
論文 参考訳(メタデータ) (2020-10-22T01:00:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。