論文の概要: Pre-training Feature Guided Diffusion Model for Speech Enhancement
- arxiv url: http://arxiv.org/abs/2406.07646v1
- Date: Tue, 11 Jun 2024 18:22:59 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-13 21:25:46.311706
- Title: Pre-training Feature Guided Diffusion Model for Speech Enhancement
- Title(参考訳): 音声強調のための事前学習特徴誘導拡散モデル
- Authors: Yiyuan Yang, Niki Trigoni, Andrew Markham,
- Abstract要約: 音声強調は、雑音環境下での音声の明瞭さと明瞭さを著しく向上させる。
本稿では,効率的な音声強調に適した事前学習機能誘導拡散モデルを提案する。
- 参考スコア(独自算出の注目度): 37.88469730135598
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Speech enhancement significantly improves the clarity and intelligibility of speech in noisy environments, improving communication and listening experiences. In this paper, we introduce a novel pretraining feature-guided diffusion model tailored for efficient speech enhancement, addressing the limitations of existing discriminative and generative models. By integrating spectral features into a variational autoencoder (VAE) and leveraging pre-trained features for guidance during the reverse process, coupled with the utilization of the deterministic discrete integration method (DDIM) to streamline sampling steps, our model improves efficiency and speech enhancement quality. Demonstrating state-of-the-art results on two public datasets with different SNRs, our model outshines other baselines in efficiency and robustness. The proposed method not only optimizes performance but also enhances practical deployment capabilities, without increasing computational demands.
- Abstract(参考訳): 音声強調は、雑音の多い環境下での音声の明瞭さと明瞭さを著しく改善し、コミュニケーションと聴取経験を向上する。
本稿では,既存の識別モデルと生成モデルの限界に対処する,効率的な音声強調に適した,事前学習型特徴誘導拡散モデルを提案する。
スペクトル特徴を可変オートエンコーダ (VAE) に統合し, 逆処理の指導に事前学習した特徴を活用することにより, サンプリングステップの合理化に決定論的離散積分法 (DDIM) を併用することにより, 効率と音声強調品質を向上させる。
異なるSNRを持つ2つの公開データセットの最先端結果を示すため、我々のモデルは効率とロバスト性において他のベースラインよりも優れている。
提案手法は, 性能を最適化するだけでなく, 計算要求を増大させることなく, 実用的な展開能力を向上する。
関連論文リスト
- Acoustic Model Optimization over Multiple Data Sources: Merging and Valuation [13.009945735929445]
本稿では,音声認識分野の課題を解くための新しいパラダイムを提案する。
最初の段階では、完全な音声データの異なるサブセットに基づいて複数の音響モデルを訓練する。
第2段階では、2つの新しいアルゴリズムを用いて高品質な音響モデルを生成する。
論文 参考訳(メタデータ) (2024-10-21T03:48:23Z) - Speaking in Wavelet Domain: A Simple and Efficient Approach to Speed up Speech Diffusion Model [30.771631264129763]
Denoising Diffusion Probabilistic Models (DDPM)は、様々な生成タスクにおいて主要なパフォーマンスを達成した。
音声信号自体を変更することにより、DDPMのトレーニング/推論速度と性能を向上させることが可能か?
本稿では、生成対象をウェーブレット領域に単純にリダイレクトすることで、音声DDPMのトレーニング速度と推論速度を2倍にする。
論文 参考訳(メタデータ) (2024-02-16T12:43:01Z) - SpeechGPT-Gen: Scaling Chain-of-Information Speech Generation [56.913182262166316]
CoIG(Chain-of-Information Generation)は、大規模音声生成において意味情報と知覚情報を分離する手法である。
SpeechGPT-Genはセマンティックおよび知覚情報モデリングにおいて効率的である。
ゼロショット音声変換、ゼロショット音声変換、音声音声対話に優れる。
論文 参考訳(メタデータ) (2024-01-24T15:25:01Z) - Density Adaptive Attention is All You Need: Robust Parameter-Efficient Fine-Tuning Across Multiple Modalities [0.9217021281095907]
DAAMは学習可能な平均と分散を、マルチヘッドフレームワークで実装されたアテンションメカニズムに統合する。
DAAMは、音声における感情認識、画像分類、テキスト分類など、様々なタスクにおいて優れた適応性と有効性を示す。
本稿では,DAAM法で学習したモデルの説明可能性を高めるための新しい学習基準であるImportance Factorを紹介する。
論文 参考訳(メタデータ) (2024-01-20T06:42:32Z) - When Parameter-efficient Tuning Meets General-purpose Vision-language
Models [65.19127815275307]
PETALは、一意のモード近似技術によって達成される全パラメータの0.5%しか必要とせず、トレーニングプロセスに革命をもたらす。
実験の結果,PETALは現状の手法をほとんどのシナリオで上回るだけでなく,完全な微調整モデルよりも優れていることがわかった。
論文 参考訳(メタデータ) (2023-12-16T17:13:08Z) - Boosting Inference Efficiency: Unleashing the Power of Parameter-Shared
Pre-trained Language Models [109.06052781040916]
本稿ではパラメータ共有言語モデルの推論効率を向上させる手法を提案する。
また、完全あるいは部分的に共有されたモデルにつながる単純な事前学習手法を提案する。
その結果,本手法が自己回帰的および自己符号化的PLMに与える影響が示された。
論文 参考訳(メタデータ) (2023-10-19T15:13:58Z) - VITS2: Improving Quality and Efficiency of Single-Stage Text-to-Speech
with Adversarial Learning and Architecture Design [7.005639198341213]
より自然な音声を効率よく合成する単段音声合成モデルVITS2を提案する。
本研究では,改良された構造と学習機構を提案し,本手法が自然性向上に有効であることを示す。
提案手法により,先行研究における音素変換への強い依存を著しく低減できることを示す。
論文 参考訳(メタデータ) (2023-07-31T06:36:44Z) - Variance-Preserving-Based Interpolation Diffusion Models for Speech
Enhancement [53.2171981279647]
本稿では,VP-および分散拡散(VE)に基づく拡散法の両方をカプセル化するフレームワークを提案する。
本研究では,拡散モデルで発生する一般的な困難を解析し,性能の向上とモデルトレーニングの容易化を図る。
我々は,提案手法の有効性を示すために,公開ベンチマークを用いたいくつかの手法によるモデルの評価を行った。
論文 参考訳(メタデータ) (2023-06-14T14:22:22Z) - A Novel Speech Intelligibility Enhancement Model based on
CanonicalCorrelation and Deep Learning [12.913738983870621]
完全畳み込みニューラルネットワーク(FCN)モデルをトレーニングするために,正準相関に基づく短時間客観的インテリジェンス(CC-STOI)コスト関数を提案する。
CC-STOIに基づく音声強調フレームワークは、従来の距離ベースおよびSTOIに基づく損失関数で訓練された最先端のDLモデルよりも優れていることを示す。
論文 参考訳(メタデータ) (2022-02-11T16:48:41Z) - Conditional Diffusion Probabilistic Model for Speech Enhancement [101.4893074984667]
本稿では,観測された雑音の音声信号の特徴を拡散・逆過程に組み込む新しい音声強調アルゴリズムを提案する。
本実験では, 代表的な生成モデルと比較して, 提案手法の強い性能を示す。
論文 参考訳(メタデータ) (2022-02-10T18:58:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。