論文の概要: AudioSR: Versatile Audio Super-resolution at Scale
- arxiv url: http://arxiv.org/abs/2309.07314v1
- Date: Wed, 13 Sep 2023 21:00:09 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-15 16:47:30.400400
- Title: AudioSR: Versatile Audio Super-resolution at Scale
- Title(参考訳): AudioSR:超高解像度オーディオ
- Authors: Haohe Liu, Ke Chen, Qiao Tian, Wenwu Wang, Mark D. Plumbley
- Abstract要約: 本稿では,多目的オーディオの高解像度化が可能な拡散型生成モデルであるAudioSRを提案する。
具体的には、AudioSRは2kHzから16kHzの範囲内の任意の入力オーディオ信号を24kHzの高解像度オーディオ信号にアップサンプリングすることができる。
- 参考スコア(独自算出の注目度): 32.36683443201372
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Audio super-resolution is a fundamental task that predicts high-frequency
components for low-resolution audio, enhancing audio quality in digital
applications. Previous methods have limitations such as the limited scope of
audio types (e.g., music, speech) and specific bandwidth settings they can
handle (e.g., 4kHz to 8kHz). In this paper, we introduce a diffusion-based
generative model, AudioSR, that is capable of performing robust audio
super-resolution on versatile audio types, including sound effects, music, and
speech. Specifically, AudioSR can upsample any input audio signal within the
bandwidth range of 2kHz to 16kHz to a high-resolution audio signal at 24kHz
bandwidth with a sampling rate of 48kHz. Extensive objective evaluation on
various audio super-resolution benchmarks demonstrates the strong result
achieved by the proposed model. In addition, our subjective evaluation shows
that AudioSR can acts as a plug-and-play module to enhance the generation
quality of a wide range of audio generative models, including AudioLDM,
Fastspeech2, and MusicGen. Our code and demo are available at
https://audioldm.github.io/audiosr.
- Abstract(参考訳): オーディオスーパーレゾリューションは、低解像度オーディオの高周波成分を予測し、デジタルアプリケーションにおけるオーディオ品質を向上させる基本的なタスクである。
従来の手法には、オーディオタイプ(音楽、音声など)の制限や、扱える特定の帯域幅設定(例えば、4kHzから8kHz)といった制限がある。
本稿では,音響効果,音楽,音声など,多彩なオーディオタイプに対してロバストな音声超解像を行うことのできる拡散型生成モデルである audiosr を提案する。
具体的には、AudioSRは2kHzから16kHzの範囲内の任意の入力オーディオ信号を、サンプリングレート48kHzで24kHzの高解像度オーディオ信号にアップサンプリングすることができる。
様々な音響超解像ベンチマークの客観的評価は,提案モデルによる強い結果を示す。
さらに,本評価の結果から,audioldm,fastspeech2,musicgenなど,幅広い音声生成モデルの生成品質を向上させるために,audiosrはプラグアンドプレイモジュールとして機能することが示された。
コードとデモはhttps://audioldm.github.io/audiosr.com/で閲覧できます。
関連論文リスト
- Audio Mamba: Pretrained Audio State Space Model For Audio Tagging [1.2123876307427102]
状態空間モデルとの長い音声スペクトログラム依存性をキャプチャする自己注意のないアプローチであるAudio Mambaを提案する。
2つのオーディオタグ付けデータセットの実験結果から,Audio Mambaのパラメータ効率を示すとともに,第3パラメータを持つSOTAオーディオスペクトログラム変換器に匹敵する結果を得た。
論文 参考訳(メタデータ) (2024-05-22T13:35:56Z) - Fast Timing-Conditioned Latent Audio Diffusion [8.774733281142021]
安定オーディオは、A100 GPU上で8秒で95秒までのステレオ信号を44.1kHzでレンダリングすることができる。
これは2つの公開テキスト・トゥ・ミュージック・アンド・オーディオ・ベンチマークで最高の1つであり、最先端のモデルとは違い、構造とステレオ・サウンドで音楽を生成することができる。
論文 参考訳(メタデータ) (2024-02-07T13:23:25Z) - Retrieval-Augmented Text-to-Audio Generation [36.328134891428085]
本稿では,AudioLDMのような最先端モデルが,その世代性能に偏っていることを示す。
本稿では,TTAモデルに対する単純な検索拡張手法を提案する。
Re-AudioLDMは、複雑なシーン、稀なオーディオクラス、さらには目に見えないオーディオタイプに対して、現実的なオーディオを生成することができる。
論文 参考訳(メタデータ) (2023-09-14T22:35:39Z) - AdVerb: Visually Guided Audio Dereverberation [49.958724234969445]
本稿では,新しいオーディオ・ビジュアル・デバーベレーション・フレームワークであるAdVerbを紹介する。
残響音に加えて視覚的手がかりを用いてクリーンオーディオを推定する。
論文 参考訳(メタデータ) (2023-08-23T18:20:59Z) - Separate Anything You Describe [55.0784713558149]
言語クエリオーディオソース分離(LASS)は,CASA(Computer auditory scene analysis)の新しいパラダイムである
AudioSepは、自然言語クエリによるオープンドメインオーディオソース分離の基礎モデルである。
論文 参考訳(メタデータ) (2023-08-09T16:09:44Z) - Make-An-Audio: Text-To-Audio Generation with Prompt-Enhanced Diffusion
Models [65.18102159618631]
マルチモーダル生成モデリングは、テキスト・ツー・イメージとテキスト・ツー・ビデオ生成においてマイルストーンを生み出した。
高品質のテキストオーディオペアを備えた大規模データセットの欠如、長期連続的なオーディオデータのモデリングの複雑さ、という2つの主な理由から、オーディオへの適用は依然として遅れている。
本稿では,これらのギャップに対処する急激な拡散モデルを用いたMake-An-Audioを提案する。
論文 参考訳(メタデータ) (2023-01-30T04:44:34Z) - AudioGen: Textually Guided Audio Generation [116.57006301417306]
記述文キャプションに条件付き音声サンプルを生成する問題に対処する。
本研究では,テキスト入力に条件付き音声サンプルを生成する自動回帰モデルであるAaudioGenを提案する。
論文 参考訳(メタデータ) (2022-09-30T10:17:05Z) - SoundStream: An End-to-End Neural Audio Codec [78.94923131038682]
本稿では,音声,音楽,一般音声を効率よく圧縮できる新しいニューラルオーディオシステムSoundStreamを紹介する。
SoundStreamは完全な畳み込みエンコーダ/デコーダネットワークと残留ベクトル量子化器に頼っている。
エンコーダまたはデコーダ側で、追加のレイテンシなしで、共同圧縮と拡張を行うことができます。
論文 参考訳(メタデータ) (2021-07-07T15:45:42Z) - NU-GAN: High resolution neural upsampling with GAN [60.02736450639215]
NU-GANはサンプリングレート(アップサンプリング)の低値から高値へのオーディオ再サンプリング法である
このようなアプリケーションは44.1kHzまたは48kHzの解像度でオーディオを使用するが、現在の音声合成法は最大24kHzの解像度で処理できる。
ABX選好試験は、我々のNU-GAN再サンプリング装置が22kHzから44.1kHzのオーディオを再サンプリングでき、これは元のオーディオと区別できるが、単一の話者データセットのランダムな確率より7.4%高く、マルチスピーカーデータセットの確率より10.8%高い。
論文 参考訳(メタデータ) (2020-10-22T01:00:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。