論文の概要: SE-Bridge: Speech Enhancement with Consistent Brownian Bridge
- arxiv url: http://arxiv.org/abs/2305.13796v1
- Date: Tue, 23 May 2023 08:06:36 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-24 18:07:11.101323
- Title: SE-Bridge: Speech Enhancement with Consistent Brownian Bridge
- Title(参考訳): SE-Bridge: 一貫性のあるブラウン橋による音声強調
- Authors: Zhibin Qiu, Mengfan Fu, Fuchun Sun, Gulila Altenbek, Hao Huang
- Abstract要約: 音声強調(SE)の新しい手法であるSE-Bridgeを提案する。
提案手法は,同一のPF-ODE軌道上の任意の音声状態が同一の初期状態に対応することを保証する一貫性モデルに基づく。
Brownian Bridgeプロセスを統合することで、モデルは敵の訓練なしに高信頼度音声サンプルを生成することができる。
- 参考スコア(独自算出の注目度): 18.37042387650827
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We propose SE-Bridge, a novel method for speech enhancement (SE). After
recently applying the diffusion models to speech enhancement, we can achieve
speech enhancement by solving a stochastic differential equation (SDE). Each
SDE corresponds to a probabilistic flow ordinary differential equation
(PF-ODE), and the trajectory of the PF-ODE solution consists of the speech
states at different moments. Our approach is based on consistency model that
ensure any speech states on the same PF-ODE trajectory, correspond to the same
initial state. By integrating the Brownian Bridge process, the model is able to
generate high-intelligibility speech samples without adversarial training. This
is the first attempt that applies the consistency models to SE task, achieving
state-of-the-art results in several metrics while saving 15 x the time required
for sampling compared to the diffusion-based baseline. Our experiments on
multiple datasets demonstrate the effectiveness of SE-Bridge in SE.
Furthermore, we show through extensive experiments on downstream tasks,
including Automatic Speech Recognition (ASR) and Speaker Verification (SV),
that SE-Bridge can effectively support multiple downstream tasks.
- Abstract(参考訳): 音声強調(SE)の新しい手法であるSE-Bridgeを提案する。
近年,拡散モデルを音声強調に適用し,確率微分方程式(sde)を解いて音声強調を実現する。
各SDEは確率フロー常微分方程式(PF-ODE)に対応し、PF-ODE解の軌道は異なる時点の音声状態からなる。
提案手法は,同一PF-ODE軌道上の任意の音声状態が同一初期状態に対応することを保証する一貫性モデルに基づく。
Brownian Bridgeプロセスを統合することで、モデルは敵の訓練なしに高信頼度音声サンプルを生成することができる。
これは、seタスクに一貫性モデルを適用する最初の試みであり、分散ベースのベースラインと比較してサンプリングに要する15倍の時間を節約しながら、最先端の結果を複数のメトリクスで達成する。
複数のデータセットに対する実験により,SE-Bridgeの有効性が示された。
さらに,音声自動認識(ASR)や話者検証(SV)など,下流タスクに対する広範囲な実験を通じて,SE-Bridgeは複数の下流タスクを効果的にサポートできることを示す。
関連論文リスト
- Latent Schrodinger Bridge: Prompting Latent Diffusion for Fast Unpaired Image-to-Image Translation [58.19676004192321]
ノイズからの画像生成とデータからの逆変換の両方を可能にする拡散モデル (DM) は、強力な未ペア画像対イメージ(I2I)翻訳アルゴリズムにインスピレーションを与えている。
我々は、最小輸送コストの分布間の微分方程式(SDE)であるSchrodinger Bridges (SBs) を用いてこの問題に取り組む。
この観測に触発されて,SB ODE を予め訓練した安定拡散により近似する潜在シュロディンガー橋 (LSB) を提案する。
提案アルゴリズムは,従来のDMのコストをわずかに抑えながら,教師なし環境での競合的I2I翻訳を実現していることを示す。
論文 参考訳(メタデータ) (2024-11-22T11:24:14Z) - Consistency Diffusion Bridge Models [25.213664260896103]
拡散ブリッジモデル(DDBM)は、参照拡散プロセスに基づいて、固定データエンドポイント間でプロセスを構築する。
DDBMのサンプリングプロセスは通常、良好な性能を達成するために何百ものネットワーク評価を必要とする。
本稿では, DDBMに適用可能な整合性ブリッジ蒸留と整合性ブリッジ訓練の2つのパラダイムを提案する。
論文 参考訳(メタデータ) (2024-10-30T02:04:23Z) - Diffusion Bridge Implicit Models [25.213664260896103]
分散ブリッジモデル(DDBM)は、2つの任意の対の分布を補間するための拡散モデルの強力な変種である。
我々は,拡散モデルで確立されたレシピに動機づけられた,余分な訓練を伴わないDDBMの高速サンプリングの第一歩を踏み出す。
我々は、高次数値解法を誘導する、新しい、単純で洞察に富んだ常微分方程式(ODE)を誘導する。
論文 参考訳(メタデータ) (2024-05-24T19:08:30Z) - Fast Ensembling with Diffusion Schrödinger Bridge [17.334437293164566]
ディープ・アンサンブル(Deep Ensemble、DE)アプローチは、様々な初期点からニューラルネットワークを訓練し、様々な局所最適点に向かって収束させることにより、ディープ・ニューラルネットワークの性能を高めるための簡単な手法である。
本稿では,Diffusion Bridge Network (DBN) と呼ばれる新しい手法を提案する。
この軽量ニューラルネットワークDBNで重アンサンブルを置換することにより、CIFAR-10、CIFAR-100、TinyImageNetなどのベンチマークデータセットの精度と不確実性を維持しながら、計算コストを削減した推論を実現した。
論文 参考訳(メタデータ) (2024-04-24T11:35:02Z) - ToddlerDiffusion: Interactive Structured Image Generation with Cascaded Schrödinger Bridge [63.00793292863]
ToddlerDiffusionは、RGB画像生成の複雑なタスクを、よりシンプルで解釈可能なステージに分解するための新しいアプローチである。
提案手法はToddler Diffusionと呼ばれ,それぞれが中間表現を生成する責務を担っている。
ToddlerDiffusionは、常に最先端のメソッドより優れています。
論文 参考訳(メタデータ) (2023-11-24T15:20:01Z) - Gaussian Mixture Solvers for Diffusion Models [84.83349474361204]
本稿では,拡散モデルのためのGMSと呼ばれる,SDEに基づく新しい解法について紹介する。
画像生成およびストロークベース合成におけるサンプル品質の観点から,SDEに基づく多くの解法よりも優れる。
論文 参考訳(メタデータ) (2023-11-02T02:05:38Z) - Variance-Preserving-Based Interpolation Diffusion Models for Speech
Enhancement [53.2171981279647]
本稿では,VP-および分散拡散(VE)に基づく拡散法の両方をカプセル化するフレームワークを提案する。
本研究では,拡散モデルで発生する一般的な困難を解析し,性能の向上とモデルトレーニングの容易化を図る。
我々は,提案手法の有効性を示すために,公開ベンチマークを用いたいくつかの手法によるモデルの評価を行った。
論文 参考訳(メタデータ) (2023-06-14T14:22:22Z) - Boosting Fast and High-Quality Speech Synthesis with Linear Diffusion [85.54515118077825]
本稿では, 常微分方程式に基づく線形拡散モデル(LinDiff)を提案する。
計算複雑性を低減するため、LinDiffでは、入力信号を小さなパッチに分割するパッチベースの処理アプローチを採用している。
我々のモデルは、より高速な合成速度で自己回帰モデルに匹敵する品質の音声を合成することができる。
論文 参考訳(メタデータ) (2023-06-09T07:02:43Z) - Diffusion-Based Voice Conversion with Fast Maximum Likelihood Sampling
Scheme [4.053320933149689]
最も難しいのは、ソース話者とターゲット話者の両方がトレーニングデータセットに属さない場合、最も一般的な場合において、1つの参照発話のみからターゲット音声をコピーすることである。
拡散確率モデルに基づくスケーラブルな高品質なソリューションを提案し、最先端のワンショット音声変換手法と比較して優れた品質を示す。
論文 参考訳(メタデータ) (2021-09-28T15:48:22Z) - A Study on Speech Enhancement Based on Diffusion Probabilistic Model [63.38586161802788]
雑音信号からクリーンな音声信号を復元することを目的とした拡散確率モデルに基づく音声強調モデル(DiffuSE)を提案する。
実験結果から、DiffuSEは、標準化されたVoice Bankコーパスタスクにおいて、関連する音声生成モデルに匹敵する性能が得られることがわかった。
論文 参考訳(メタデータ) (2021-07-25T19:23:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。