Fugu-MT 論文翻訳(概要): Apollo: Band-sequence Modeling for High-Quality Audio Restoration

論文の概要: Apollo: Band-sequence Modeling for High-Quality Audio Restoration

arxiv url: http://arxiv.org/abs/2409.08514v1
Date: Fri, 13 Sep 2024 03:25:34 GMT
ステータス: 翻訳完了
システム内更新日: 2024-09-16 17:48:25.361655
Title: Apollo: Band-sequence Modeling for High-Quality Audio Restoration
Title（参考訳）: Apollo: 高品質オーディオ再生のためのバンドシーケンスモデリング
Authors: Kai Li, Yi Luo,
Abstract要約: 本研究では,高精度オーディオ再生のための生成モデルであるApolloを提案する。 Apollo では、異なる周波数帯域間の関係をモデル化するために、明示的な周波数帯域分割モジュールを使用している。既存のSR-GANモデルよりも、様々なビットレートや音楽ジャンルで一貫して優れています。
参考スコア（独自算出の注目度）: 14.021773866695636
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Audio restoration has become increasingly significant in modern society, not only due to the demand for high-quality auditory experiences enabled by advanced playback devices, but also because the growing capabilities of generative audio models necessitate high-fidelity audio. Typically, audio restoration is defined as a task of predicting undistorted audio from damaged input, often trained using a GAN framework to balance perception and distortion. Since audio degradation is primarily concentrated in mid- and high-frequency ranges, especially due to codecs, a key challenge lies in designing a generator capable of preserving low-frequency information while accurately reconstructing high-quality mid- and high-frequency content. Inspired by recent advancements in high-sample-rate music separation, speech enhancement, and audio codec models, we propose Apollo, a generative model designed for high-sample-rate audio restoration. Apollo employs an explicit frequency band split module to model the relationships between different frequency bands, allowing for more coherent and higher-quality restored audio. Evaluated on the MUSDB18-HQ and MoisesDB datasets, Apollo consistently outperforms existing SR-GAN models across various bit rates and music genres, particularly excelling in complex scenarios involving mixtures of multiple instruments and vocals. Apollo significantly improves music restoration quality while maintaining computational efficiency. The source code for Apollo is publicly available at https://github.com/JusperLee/Apollo.
Abstract（参考訳）: 現代社会では、高度な再生デバイスによって実現される高品質な聴覚体験の需要だけでなく、生成型オーディオモデルの能力の増大が高忠実度オーディオを必要としているため、オーディオ復元がますます重要になっている。典型的には、音声復元は損傷した入力から歪みのない音声を予測するタスクとして定義され、しばしば知覚と歪みのバランスをとるためにGANフレームワークを用いて訓練される。オーディオ劣化は主に中・高域、特にコーデックによって集中しているため、高品質の中・高域コンテンツを正確に再構成しながら低域情報を保存できるジェネレータを設計することが重要な課題である。近年のハイサンプレート音楽分離,音声強調,音声コーデックモデルに着想を得て,ハイサンプレートオーディオ復元のための生成モデルであるApolloを提案する。 Apollo では、異なる周波数帯域間の関係をモデル化するために、明示的な周波数帯域分割モジュールを使用している。 MUSDB18-HQとMoisesDBデータセットに基づいて評価され、Apolloは様々なビットレートや音楽ジャンルで既存のSR-GANモデルより一貫して優れており、特に複数の楽器とボーカルの混合を含む複雑なシナリオにおいて優れている。アポロは、計算効率を保ちながら、音楽の回復性を大幅に改善する。 Apollo のソースコードは https://github.com/JusperLee/Apollo で公開されている。

関連論文リスト

Evaluating Fake Music Detection Performance Under Audio Augmentations [0.0]
複数のシステムを用いて生成した実・合成音楽の双方からなるデータセットを構築した。次に、様々なオーディオ変換を適用し、それらが分類精度にどのように影響するかを分析する。我々は,近年の最先端音楽ディープフェイク検出モデルの性能を,音声拡張の有無で検証する。
論文参考訳（メタデータ） (2025-07-07T16:15:02Z)
BinauralFlow: A Causal and Streamable Approach for High-Quality Binaural Speech Synthesis with Flow Matching Models [62.38713281234756]
バイノーラルレンダリングパイプラインは、モノラルオーディオに基づいて自然な聴覚を模倣するオーディオを合成することを目的としている。この問題を解決するために多くの方法が提案されているが、レンダリング品質とストリーミング可能な推論に苦慮している。本稿では,BinauralFlow合成フレームワークという,フローマッチングに基づくストリーミング音声フレームワークを提案する。
論文参考訳（メタデータ） (2025-05-28T20:59:15Z)
InspireMusic: Integrating Super Resolution and Large Language Model for High-Fidelity Long-Form Music Generation [43.690876909464336]
InspireMusicは,高忠実度長大な音楽生成のためのフレームワーク統合スーパーレゾリューションと大規模言語モデルである。統合されたフレームワークは、超解像フローマッチングモデルを備えた自己回帰変換器を組み込んだ高忠実な音楽、歌、オーディオを生成する。我々のモデルは、よりリッチなセマンティック情報を含む1つのコードブックを持つオーディオトークンーを使用するため、従来のアプローチと異なる。
論文参考訳（メタデータ） (2025-02-28T09:58:25Z)
Music2Latent: Consistency Autoencoders for Latent Audio Compression [0.0]
一貫性モデルを活用することで制限を克服するオーディオオートエンコーダであるMusic2Latentを紹介する。 Music2Latentは、単一エンドツーエンドのトレーニングプロセスにおいて、サンプルを圧縮された連続潜伏空間にエンコードする。 Music2Latentは、音質と再現精度において、既存の連続オーディオオートエンコーダよりも優れていることを示す。
論文参考訳（メタデータ） (2024-08-12T21:25:19Z)
Diff-A-Riff: Musical Accompaniment Co-creation via Latent Diffusion Models [0.0]
ディフ・A・リフ(Diff-A-Riff)は、あらゆる音楽的文脈に適応する高品質な楽器を生成するために設計された潜在拡散モデルである。 48kHzの擬似ステレオオーディオを生成し、推論時間とメモリ使用量を大幅に削減する。
論文参考訳（メタデータ） (2024-06-12T16:34:26Z)
QA-MDT: Quality-aware Masked Diffusion Transformer for Enhanced Music Generation [45.03889461298873]
本稿では,大規模・品質不均衡なデータセットから高品質・高音質音楽を生成するための新しい品質意識学習パラダイムを提案する。低品質キャプションの問題に対処する3段階キャプション改善手法を提案する。実験では、客観的メトリクスと主観的メトリクスの両方で、ベンチマークデータセット上での最先端(SOTA)パフォーマンスを示す。
論文参考訳（メタデータ） (2024-05-24T18:09:27Z)
Tango 2: Aligning Diffusion-based Text-to-Audio Generations through Direct Preference Optimization [70.13218512896032]
テキストプロンプトから音声を生成することは、音楽や映画産業におけるそのようなプロセスの重要な側面である。我々の仮説は、これらのオーディオ生成の側面が、限られたデータの存在下でのオーディオ生成性能をどのように改善するかに焦点を当てている。我々は、各プロンプトが勝者の音声出力と、拡散モデルが学習するための敗者音声出力を持つ選好データセットを合成的に作成する。
論文参考訳（メタデータ） (2024-04-15T17:31:22Z)
Diffusion Models for Audio Restoration [22.385385150594185]
本稿では拡散モデルに基づく音声復元アルゴリズムを提案する。拡散モデルは両世界の長所を組み合わせることができ、オーディオ復元アルゴリズムを設計する機会を提供する。拡散形式とそのクリーンな音声信号の条件付き生成への応用について説明する。
論文参考訳（メタデータ） (2024-02-15T09:36:36Z)
Make-An-Audio: Text-To-Audio Generation with Prompt-Enhanced Diffusion Models [65.18102159618631]
マルチモーダル生成モデリングは、テキスト・ツー・イメージとテキスト・ツー・ビデオ生成においてマイルストーンを生み出した。高品質のテキストオーディオペアを備えた大規模データセットの欠如、長期連続的なオーディオデータのモデリングの複雑さ、という2つの主な理由から、オーディオへの適用は依然として遅れている。本稿では,これらのギャップに対処する急激な拡散モデルを用いたMake-An-Audioを提案する。
論文参考訳（メタデータ） (2023-01-30T04:44:34Z)
High Fidelity Neural Audio Compression [92.4812002532009]
我々は、ニューラルネットワークを利用した最先端のリアルタイム、高忠実、オーディオを導入する。ストリーミングエンコーダ-デコーダアーキテクチャと、エンドツーエンドでトレーニングされた量子化潜在空間で構成されている。単一マルチスケール・スペクトログラム・アドバイザリーを用いて、トレーニングを簡素化し、高速化する。
論文参考訳（メタデータ） (2022-10-24T17:52:02Z)
AudioGen: Textually Guided Audio Generation [116.57006301417306]
記述文キャプションに条件付き音声サンプルを生成する問題に対処する。本研究では,テキスト入力に条件付き音声サンプルを生成する自動回帰モデルであるAaudioGenを提案する。
論文参考訳（メタデータ） (2022-09-30T10:17:05Z)
BigVGAN: A Universal Neural Vocoder with Large-Scale Training [49.16254684584935]
ゼロショット設定において、様々な未知条件下でよく一般化する普遍的なボコーダであるBigVGANを提案する。生成器に周期的非線形性とアンチエイリアス表現を導入し、波形に所望の帰納バイアスをもたらす。我々はGANボコーダを最大1億2200万のパラメータで訓練する。
論文参考訳（メタデータ） (2022-06-09T17:56:10Z)
RefineGAN: Universally Generating Waveform Better than Ground Truth with Highly Accurate Pitch and Intensity Responses [15.599745604729842]
高速なリアルタイム生成機能を備えた高忠実性ニューラルボコーダRefineGANを提案する。我々は,マルチスケールのスペクトログラムに基づく損失関数を用いたピッチ誘導型精細アーキテクチャを用いて,トレーニングプロセスの安定化を図る。また, スピーカが生み出す欠陥を除去することにより, 波形再構成時の忠実度も向上することを示した。
論文参考訳（メタデータ） (2021-11-01T14:12:54Z)
SoundStream: An End-to-End Neural Audio Codec [78.94923131038682]
本稿では,音声,音楽,一般音声を効率よく圧縮できる新しいニューラルオーディオシステムSoundStreamを紹介する。 SoundStreamは完全な畳み込みエンコーダ/デコーダネットワークと残留ベクトル量子化器に頼っている。エンコーダまたはデコーダ側で、追加のレイテンシなしで、共同圧縮と拡張を行うことができます。
論文参考訳（メタデータ） (2021-07-07T15:45:42Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。