論文の概要: Zero-Shot Blind Audio Bandwidth Extension
- arxiv url: http://arxiv.org/abs/2306.01433v1
- Date: Fri, 2 Jun 2023 10:47:15 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-05 15:33:58.074308
- Title: Zero-Shot Blind Audio Bandwidth Extension
- Title(参考訳): ゼロショットブラインドオーディオ帯域幅拡張
- Authors: Eloi Moliner, Filip Elvander, Vesa V\"alim\"aki
- Abstract要約: 過去の音声記録の復元など、低域劣化が不明な場合には、盲点となる。
本稿では,ゼロショット設定におけるブラインド問題に対処するBABEという新しい手法を提案する。
BABEは、実際の歴史的記録を強化する際に、堅牢な一般化能力を示す。
- 参考スコア(独自算出の注目度): 3.333967282951668
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Audio bandwidth extension involves the realistic reconstruction of
high-frequency spectra from bandlimited observations. In cases where the
lowpass degradation is unknown, such as in restoring historical audio
recordings, this becomes a blind problem. This paper introduces a novel method
called BABE (Blind Audio Bandwidth Extension) that addresses the blind problem
in a zero-shot setting, leveraging the generative priors of a pre-trained
unconditional diffusion model. During the inference process, BABE utilizes a
generalized version of diffusion posterior sampling, where the degradation
operator is unknown but parametrized and inferred iteratively. The performance
of the proposed method is evaluated using objective and subjective metrics, and
the results show that BABE surpasses state-of-the-art blind bandwidth extension
baselines and achieves competitive performance compared to non-blind
filter-informed methods when tested with synthetic data. Moreover, BABE
exhibits robust generalization capabilities when enhancing real historical
recordings, effectively reconstructing the missing high-frequency content while
maintaining coherence with the original recording. Subjective preference tests
confirm that BABE significantly improves the audio quality of historical music
recordings. Examples of historical recordings restored with the proposed method
are available on the companion webpage:
(http://research.spa.aalto.fi/publications/papers/ieee-taslp-babe/)
- Abstract(参考訳): 帯域幅拡張は、帯域制限観測による高周波スペクトルの現実的な再構成を含む。
過去の音声記録の復元など、低域劣化が不明な場合には、盲点となる。
本稿では,事前学習された無条件拡散モデルの生成前処理を活用し,ゼロショット設定におけるブラインド問題に対処するbabe(blind audio bandwidth extension)という新しい手法を提案する。
推論過程において、BABEは拡散後サンプリングの一般化版を使用し、分解演算子は未知だがパラメータ化され、反復的に推論される。
提案手法の性能は客観的および主観的指標を用いて評価され,babeは最先端ブラインド帯域拡張ベースラインを上回っており,合成データを用いてテストした場合の非blindフィルタインフォーム法と比較して競合性能が向上した。
また,本記録との一貫性を維持しつつ,失われた高周波コンテンツを効果的に再構築し,実記録を充実させる際に,babeは頑健な一般化能力を示す。
主観的嗜好テストは,BABEが歴史的録音の音質を著しく向上させることを確認した。
提案手法で復元された過去の記録の例は、同伴のWebページで見ることができる。
関連論文リスト
- Diffusion-based Unsupervised Audio-visual Speech Enhancement [26.937216751657697]
本稿では,新しい教師なし音声強調(AVSE)手法を提案する。
拡散に基づく音声視覚音声生成モデルと非負行列分解(NMF)ノイズモデルを組み合わせる。
実験結果から,提案手法は音声のみのアプローチより優れているだけでなく,近年の教師付き AVSE 法よりも優れていたことが確認された。
論文 参考訳(メタデータ) (2024-10-04T12:22:54Z) - Efficient Autoregressive Audio Modeling via Next-Scale Prediction [52.663934477127405]
我々は、音声トークン化のトークン長を分析し、新しいtextbfScaleレベルのtextbfAudio textbfTokenizer (SAT) を提案する。
SATをベースとした大規模テキストbfAcoustic textbfAutotextbfRegressive(AAR)モデリングフレームワークが提案されている。
論文 参考訳(メタデータ) (2024-08-16T21:48:53Z) - Unsupervised Blind Joint Dereverberation and Room Acoustics Estimation with Diffusion Models [21.669363620480333]
BUDDyと呼ばれるブラインド・デバーベーションと室内インパルス応答推定の教師なし手法を提案する。
室内のインパルス応答が不明な視覚的シナリオでは、BUDDyは音声の発声に成功している。
一般化に苦しむ教師付き手法とは異なり、BUDDyは異なる音響条件にシームレスに適応する。
論文 参考訳(メタデータ) (2024-08-14T11:31:32Z) - BUDDy: Single-Channel Blind Unsupervised Dereverberation with Diffusion Models [21.66936362048033]
そこで本研究では,非教師型単一チャネル方式による共同ブラインド除去と室内インパルス応答推定について述べる。
周波数サブバンド毎に指数減衰のフィルタを用いて残響演算子をパラメータ化し、音声発声が洗練されるにつれて、対応するパラメータを反復的に推定する。
論文 参考訳(メタデータ) (2024-05-07T12:41:31Z) - AdVerb: Visually Guided Audio Dereverberation [49.958724234969445]
本稿では,新しいオーディオ・ビジュアル・デバーベレーション・フレームワークであるAdVerbを紹介する。
残響音に加えて視覚的手がかりを用いてクリーンオーディオを推定する。
論文 参考訳(メタデータ) (2023-08-23T18:20:59Z) - DiffSED: Sound Event Detection with Denoising Diffusion [70.18051526555512]
生成学習の観点からSED問題を再構築する。
具体的には,騒音拡散過程において,雑音のある提案から音の時間境界を生成することを目的としている。
トレーニング中は,ノイズの多い遅延クエリを基本バージョンに変換することで,ノイズ発生過程の逆転を学習する。
論文 参考訳(メタデータ) (2023-08-14T17:29:41Z) - Do You Remember? Overcoming Catastrophic Forgetting for Fake Audio
Detection [54.20974251478516]
本稿では,破滅的な忘れを克服するために,偽音声検出のための連続学習アルゴリズムを提案する。
検出ネットワークを微調整する場合,本手法では,真の発話と偽発話の比率に応じて,重み付けの方向を適応的に計算する。
本手法は,音声の感情認識などの関連分野に容易に一般化できる。
論文 参考訳(メタデータ) (2023-08-07T05:05:49Z) - Diffusion Posterior Sampling for Informed Single-Channel Dereverberation [15.16865739526702]
拡散モデルを用いた条件生成に基づく情報単一チャネルのデバーベレーション手法を提案する。
室内インパルス応答の知識により、逆拡散により無響発話が生成される。
提案手法は, 計測ノイズに対して, 最先端のインフォメーション・シングルチャネル・デバベーション法に比べ, かなり頑健である。
論文 参考訳(メタデータ) (2023-06-21T14:14:05Z) - DiffusionAD: Norm-guided One-step Denoising Diffusion for Anomaly
Detection [89.49600182243306]
我々は拡散モデルを用いて再構成過程をノイズ・ツー・ノームパラダイムに再構成する。
本稿では,拡散モデルにおける従来の反復的復調よりもはるかに高速な高速な一段階復調パラダイムを提案する。
セグメント化サブネットワークは、入力画像とその異常のない復元を用いて画素レベルの異常スコアを予測する。
論文 参考訳(メタデータ) (2023-03-15T16:14:06Z) - Blind Restoration of Real-World Audio by 1D Operational GANs [18.462912387382346]
Op-GAN(Operational Generative Adversarial Networks)による実世界の音声信号のブラインド復元手法を提案する。
提案手法はTIMIT-RAR(音声)とGTZAN-RAR(非音声)のベンチマークで広く評価されている。
平均SDRの改善は7.2dB以上と4.9dB以上である。
論文 参考訳(メタデータ) (2022-12-30T10:11:57Z) - A Study on Speech Enhancement Based on Diffusion Probabilistic Model [63.38586161802788]
雑音信号からクリーンな音声信号を復元することを目的とした拡散確率モデルに基づく音声強調モデル(DiffuSE)を提案する。
実験結果から、DiffuSEは、標準化されたVoice Bankコーパスタスクにおいて、関連する音声生成モデルに匹敵する性能が得られることがわかった。
論文 参考訳(メタデータ) (2021-07-25T19:23:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。