論文の概要: Apollo: Band-sequence Modeling for High-Quality Audio Restoration
- arxiv url: http://arxiv.org/abs/2409.08514v1
- Date: Fri, 13 Sep 2024 03:25:34 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-16 17:48:25.361655
- Title: Apollo: Band-sequence Modeling for High-Quality Audio Restoration
- Title(参考訳): Apollo: 高品質オーディオ再生のためのバンドシーケンスモデリング
- Authors: Kai Li, Yi Luo,
- Abstract要約: 本研究では,高精度オーディオ再生のための生成モデルであるApolloを提案する。
Apollo では、異なる周波数帯域間の関係をモデル化するために、明示的な周波数帯域分割モジュールを使用している。
既存のSR-GANモデルよりも、様々なビットレートや音楽ジャンルで一貫して優れています。
- 参考スコア(独自算出の注目度): 14.021773866695636
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Audio restoration has become increasingly significant in modern society, not only due to the demand for high-quality auditory experiences enabled by advanced playback devices, but also because the growing capabilities of generative audio models necessitate high-fidelity audio. Typically, audio restoration is defined as a task of predicting undistorted audio from damaged input, often trained using a GAN framework to balance perception and distortion. Since audio degradation is primarily concentrated in mid- and high-frequency ranges, especially due to codecs, a key challenge lies in designing a generator capable of preserving low-frequency information while accurately reconstructing high-quality mid- and high-frequency content. Inspired by recent advancements in high-sample-rate music separation, speech enhancement, and audio codec models, we propose Apollo, a generative model designed for high-sample-rate audio restoration. Apollo employs an explicit frequency band split module to model the relationships between different frequency bands, allowing for more coherent and higher-quality restored audio. Evaluated on the MUSDB18-HQ and MoisesDB datasets, Apollo consistently outperforms existing SR-GAN models across various bit rates and music genres, particularly excelling in complex scenarios involving mixtures of multiple instruments and vocals. Apollo significantly improves music restoration quality while maintaining computational efficiency. The source code for Apollo is publicly available at https://github.com/JusperLee/Apollo.
- Abstract(参考訳): 現代社会では、高度な再生デバイスによって実現される高品質な聴覚体験の需要だけでなく、生成型オーディオモデルの能力の増大が高忠実度オーディオを必要としているため、オーディオ復元がますます重要になっている。
典型的には、音声復元は損傷した入力から歪みのない音声を予測するタスクとして定義され、しばしば知覚と歪みのバランスをとるためにGANフレームワークを用いて訓練される。
オーディオ劣化は主に中・高域、特にコーデックによって集中しているため、高品質の中・高域コンテンツを正確に再構成しながら低域情報を保存できるジェネレータを設計することが重要な課題である。
近年のハイサンプレート音楽分離,音声強調,音声コーデックモデルに着想を得て,ハイサンプレートオーディオ復元のための生成モデルであるApolloを提案する。
Apollo では、異なる周波数帯域間の関係をモデル化するために、明示的な周波数帯域分割モジュールを使用している。
MUSDB18-HQとMoisesDBデータセットに基づいて評価され、Apolloは様々なビットレートや音楽ジャンルで既存のSR-GANモデルより一貫して優れており、特に複数の楽器とボーカルの混合を含む複雑なシナリオにおいて優れている。
アポロは、計算効率を保ちながら、音楽の回復性を大幅に改善する。
Apollo のソースコードは https://github.com/JusperLee/Apollo で公開されている。
関連論文リスト
- Music2Latent2: Audio Compression with Summary Embeddings and Autoregressive Decoding [0.0]
音声信号を要約埋め込みの集合に圧縮する新しいオーディオオートエンコーダであるMusic2Latent2を紹介する。
ローカルオーディオ機能を順序付きシーケンスにエンコードする従来の方法とは異なり、Music2Latent2は音声信号を要約埋め込みのセットに圧縮する。
任意のオーディオ長を扱うために、Music2Latent2では、因果マスキングを備えた2つの連続したオーディオチャンクでトレーニングされた自動回帰一貫性モデルを採用している。
論文 参考訳(メタデータ) (2025-01-29T11:34:19Z) - Music2Latent: Consistency Autoencoders for Latent Audio Compression [0.0]
一貫性モデルを活用することで制限を克服するオーディオオートエンコーダであるMusic2Latentを紹介する。
Music2Latentは、単一エンドツーエンドのトレーニングプロセスにおいて、サンプルを圧縮された連続潜伏空間にエンコードする。
Music2Latentは、音質と再現精度において、既存の連続オーディオオートエンコーダよりも優れていることを示す。
論文 参考訳(メタデータ) (2024-08-12T21:25:19Z) - Diff-A-Riff: Musical Accompaniment Co-creation via Latent Diffusion Models [0.0]
ディフ・A・リフ(Diff-A-Riff)は、あらゆる音楽的文脈に適応する高品質な楽器を生成するために設計された潜在拡散モデルである。
48kHzの擬似ステレオオーディオを生成し、推論時間とメモリ使用量を大幅に削減する。
論文 参考訳(メタデータ) (2024-06-12T16:34:26Z) - Tango 2: Aligning Diffusion-based Text-to-Audio Generations through Direct Preference Optimization [70.13218512896032]
テキストプロンプトから音声を生成することは、音楽や映画産業におけるそのようなプロセスの重要な側面である。
我々の仮説は、これらのオーディオ生成の側面が、限られたデータの存在下でのオーディオ生成性能をどのように改善するかに焦点を当てている。
我々は、各プロンプトが勝者の音声出力と、拡散モデルが学習するための敗者音声出力を持つ選好データセットを合成的に作成する。
論文 参考訳(メタデータ) (2024-04-15T17:31:22Z) - Make-An-Audio: Text-To-Audio Generation with Prompt-Enhanced Diffusion
Models [65.18102159618631]
マルチモーダル生成モデリングは、テキスト・ツー・イメージとテキスト・ツー・ビデオ生成においてマイルストーンを生み出した。
高品質のテキストオーディオペアを備えた大規模データセットの欠如、長期連続的なオーディオデータのモデリングの複雑さ、という2つの主な理由から、オーディオへの適用は依然として遅れている。
本稿では,これらのギャップに対処する急激な拡散モデルを用いたMake-An-Audioを提案する。
論文 参考訳(メタデータ) (2023-01-30T04:44:34Z) - High Fidelity Neural Audio Compression [92.4812002532009]
我々は、ニューラルネットワークを利用した最先端のリアルタイム、高忠実、オーディオを導入する。
ストリーミングエンコーダ-デコーダアーキテクチャと、エンドツーエンドでトレーニングされた量子化潜在空間で構成されている。
単一マルチスケール・スペクトログラム・アドバイザリーを用いて、トレーニングを簡素化し、高速化する。
論文 参考訳(メタデータ) (2022-10-24T17:52:02Z) - AudioGen: Textually Guided Audio Generation [116.57006301417306]
記述文キャプションに条件付き音声サンプルを生成する問題に対処する。
本研究では,テキスト入力に条件付き音声サンプルを生成する自動回帰モデルであるAaudioGenを提案する。
論文 参考訳(メタデータ) (2022-09-30T10:17:05Z) - BigVGAN: A Universal Neural Vocoder with Large-Scale Training [49.16254684584935]
ゼロショット設定において、様々な未知条件下でよく一般化する普遍的なボコーダであるBigVGANを提案する。
生成器に周期的非線形性とアンチエイリアス表現を導入し、波形に所望の帰納バイアスをもたらす。
我々はGANボコーダを最大1億2200万のパラメータで訓練する。
論文 参考訳(メタデータ) (2022-06-09T17:56:10Z) - RefineGAN: Universally Generating Waveform Better than Ground Truth with
Highly Accurate Pitch and Intensity Responses [15.599745604729842]
高速なリアルタイム生成機能を備えた高忠実性ニューラルボコーダRefineGANを提案する。
我々は,マルチスケールのスペクトログラムに基づく損失関数を用いたピッチ誘導型精細アーキテクチャを用いて,トレーニングプロセスの安定化を図る。
また, スピーカが生み出す欠陥を除去することにより, 波形再構成時の忠実度も向上することを示した。
論文 参考訳(メタデータ) (2021-11-01T14:12:54Z) - SoundStream: An End-to-End Neural Audio Codec [78.94923131038682]
本稿では,音声,音楽,一般音声を効率よく圧縮できる新しいニューラルオーディオシステムSoundStreamを紹介する。
SoundStreamは完全な畳み込みエンコーダ/デコーダネットワークと残留ベクトル量子化器に頼っている。
エンコーダまたはデコーダ側で、追加のレイテンシなしで、共同圧縮と拡張を行うことができます。
論文 参考訳(メタデータ) (2021-07-07T15:45:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。