論文の概要: StoRM: A Diffusion-based Stochastic Regeneration Model for Speech
Enhancement and Dereverberation
- arxiv url: http://arxiv.org/abs/2212.11851v2
- Date: Tue, 12 Mar 2024 15:31:01 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-14 02:37:46.485253
- Title: StoRM: A Diffusion-based Stochastic Regeneration Model for Speech
Enhancement and Dereverberation
- Title(参考訳): StoRM:音声強調と残響の拡散に基づく確率的再生モデル
- Authors: Jean-Marie Lemercier and Julius Richter and Simon Welker and Timo
Gerkmann
- Abstract要約: 本稿では,予測モデルによる推定値がさらなる拡散のガイドとして提供される再生手法を提案する。
提案手法は, 高い品質のサンプルを作成しながら, 発声・呼吸アーチファクトを除去するために, 予測モデルを用いていることを示す。
- 参考スコア(独自算出の注目度): 20.262426487434393
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Diffusion models have shown a great ability at bridging the performance gap
between predictive and generative approaches for speech enhancement. We have
shown that they may even outperform their predictive counterparts for
non-additive corruption types or when they are evaluated on mismatched
conditions. However, diffusion models suffer from a high computational burden,
mainly as they require to run a neural network for each reverse diffusion step,
whereas predictive approaches only require one pass. As diffusion models are
generative approaches they may also produce vocalizing and breathing artifacts
in adverse conditions. In comparison, in such difficult scenarios, predictive
models typically do not produce such artifacts but tend to distort the target
speech instead, thereby degrading the speech quality. In this work, we present
a stochastic regeneration approach where an estimate given by a predictive
model is provided as a guide for further diffusion. We show that the proposed
approach uses the predictive model to remove the vocalizing and breathing
artifacts while producing very high quality samples thanks to the diffusion
model, even in adverse conditions. We further show that this approach enables
to use lighter sampling schemes with fewer diffusion steps without sacrificing
quality, thus lifting the computational burden by an order of magnitude. Source
code and audio examples are available online (https://uhh.de/inf-sp-storm).
- Abstract(参考訳): 拡散モデルは、音声強調のための予測的アプローチと生成的アプローチの間の性能ギャップを埋める優れた能力を示している。
非付加的な汚職タイプや、不一致条件で評価された場合、予測結果よりも優れる可能性がある。
しかし、拡散モデルは主に逆拡散ステップごとにニューラルネットワークを実行する必要があるため、高い計算負荷を負う一方で、予測アプローチでは1つのパスしか必要としない。
拡散モデルは生成的アプローチであるため、悪条件下で発声や呼吸のアーチファクトを生み出すこともある。
対照的に、このような難しいシナリオでは、予測モデルは通常そのような成果物を生成せず、代わりに対象の音声を歪ませる傾向があり、それによって音声品質が低下する。
本研究では,予測モデルによる推定値がさらなる拡散のガイドとして提供される確率的再生手法を提案する。
提案手法は, 予測モデルを用いて発声と呼吸のアーチファクトを除去し, 拡散モデルにより非常に高品質なサンプルを生成できることを示す。
さらに,本手法は,より少ない拡散ステップでより軽量なサンプリング方式を,品質を犠牲にすることなく利用可能であることを示し,計算負荷を桁違いに高めている。
ソースコードとオーディオサンプルはオンラインで入手できる(https://uhh.de/inf-sp-storm)。
関連論文リスト
- Energy-Based Diffusion Language Models for Text Generation [126.23425882687195]
エネルギーベース拡散言語モデル(Energy-based Diffusion Language Model, EDLM)は、拡散ステップごとに全シーケンスレベルで動作するエネルギーベースモデルである。
我々のフレームワークは、既存の拡散モデルよりも1.3$times$のサンプリングスピードアップを提供する。
論文 参考訳(メタデータ) (2024-10-28T17:25:56Z) - Soft Mixture Denoising: Beyond the Expressive Bottleneck of Diffusion
Models [76.46246743508651]
我々は,現在の拡散モデルが後方認知において表現力のあるボトルネックを持っていることを示した。
本稿では,後方復調のための表現的かつ効率的なモデルであるソフトミキシング・デノナイジング(SMD)を導入する。
論文 参考訳(メタデータ) (2023-09-25T12:03:32Z) - Unsupervised speech enhancement with diffusion-based generative models [0.0]
拡散モデルの生成力を生かし、教師なしの方法で機能する代替手法を提案する。
本研究では,学習したクリーン音声と音声信号推論のための雑音モデルを組み合わせることで,音声強調のための後部サンプリング手法を開発した。
近年の変分オートエンコーダ (VAE) による教師なし手法と, 最先端の拡散型教師方式と比較して, 有望な結果が得られた。
論文 参考訳(メタデータ) (2023-09-19T09:11:31Z) - Diffusion Models in Vision: A Survey [80.82832715884597]
拡散モデルは、前方拡散段階と逆拡散段階の2つの段階に基づく深層生成モデルである。
拡散モデルは、既知の計算負荷にもかかわらず、生成したサンプルの品質と多様性に対して広く評価されている。
論文 参考訳(メタデータ) (2022-09-10T22:00:30Z) - How Much is Enough? A Study on Diffusion Times in Score-based Generative
Models [76.76860707897413]
現在のベストプラクティスは、フォワードダイナミクスが既知の単純なノイズ分布に十分に近づくことを確実にするために大きなTを提唱している。
本稿では, 理想とシミュレーションされたフォワードダイナミクスのギャップを埋めるために補助モデルを用いて, 標準的な逆拡散過程を導出する方法について述べる。
論文 参考訳(メタデータ) (2022-06-10T15:09:46Z) - Truncated Diffusion Probabilistic Models and Diffusion-based Adversarial
Auto-Encoders [137.1060633388405]
拡散に基づく生成モデルは、逆拡散連鎖を推論してデータを生成する方法を学ぶ。
我々は、データが純粋なランダムノイズになるまで、より高速で安価にノイズを付加するアプローチを提案する。
提案手法は,拡散過程と学習可能な暗黙的前処理の両方によって付与された逆自動エンコーダとしてキャスト可能であることを示す。
論文 参考訳(メタデータ) (2022-02-19T20:18:49Z) - Conditional Diffusion Probabilistic Model for Speech Enhancement [101.4893074984667]
本稿では,観測された雑音の音声信号の特徴を拡散・逆過程に組み込む新しい音声強調アルゴリズムを提案する。
本実験では, 代表的な生成モデルと比較して, 提案手法の強い性能を示す。
論文 参考訳(メタデータ) (2022-02-10T18:58:01Z) - Improved Denoising Diffusion Probabilistic Models [4.919647298882951]
その結果,ddpmは高いサンプル品質を維持しつつ,競合的なログライク性を達成できることがわかった。
また,逆拡散過程の学習分散により,フォワードパスが桁違いに小さくサンプリングできることがわかった。
これらのモデルのサンプルの品質と可能性について,モデルのキャパシティとトレーニング計算でスムーズに拡張できることを示し,スケーラビリティを向上する。
論文 参考訳(メタデータ) (2021-02-18T23:44:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。