論文の概要: Speaking in Wavelet Domain: A Simple and Efficient Approach to Speed up
Speech Diffusion Model
- arxiv url: http://arxiv.org/abs/2402.10642v1
- Date: Fri, 16 Feb 2024 12:43:01 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-19 16:13:19.140522
- Title: Speaking in Wavelet Domain: A Simple and Efficient Approach to Speed up
Speech Diffusion Model
- Title(参考訳): ウェーブレット領域での会話:音声拡散モデル高速化のためのシンプルで効率的なアプローチ
- Authors: Xiangyu Zhang, Daijiao Liu, Hexin Liu, Qiquan Zhang, Hanyu Meng,
Leibny Paola Garcia, Eng Siong Chng, Lina Yao
- Abstract要約: Denoising Diffusion Probabilistic Models (DDPM)は、様々な生成タスクにおいて主要なパフォーマンスを達成した。
音声信号自体を変更することにより、DDPMのトレーニング/推論速度と性能を向上させることが可能か?
本稿では、生成対象をウェーブレット領域に単純にリダイレクトすることで、音声DDPMのトレーニング速度と推論速度を2倍にする。
- 参考スコア(独自算出の注目度): 32.09697176638031
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recently, Denoising Diffusion Probabilistic Models (DDPMs) have attained
leading performances across a diverse range of generative tasks. However, in
the field of speech synthesis, although DDPMs exhibit impressive performance,
their long training duration and substantial inference costs hinder practical
deployment. Existing approaches primarily focus on enhancing inference speed,
while approaches to accelerate training a key factor in the costs associated
with adding or customizing voices often necessitate complex modifications to
the model, compromising their universal applicability. To address the
aforementioned challenges, we propose an inquiry: is it possible to enhance the
training/inference speed and performance of DDPMs by modifying the speech
signal itself? In this paper, we double the training and inference speed of
Speech DDPMs by simply redirecting the generative target to the wavelet domain.
This method not only achieves comparable or superior performance to the
original model in speech synthesis tasks but also demonstrates its versatility.
By investigating and utilizing different wavelet bases, our approach proves
effective not just in speech synthesis, but also in speech enhancement.
- Abstract(参考訳): 近年,拡散確率モデル (DDPM) は多種多様な生成タスクにおいて主要な性能を達成している。
しかし、音声合成の分野ではddpmは印象的な性能を示すが、長い訓練期間と実質的な推論コストは実用的な展開を妨げる。
既存のアプローチは主に推論速度の向上に重点を置いているが、音声の追加やカスタマイズに関わるコストの鍵となる要素をトレーニングするアプローチは、モデルの複雑な修正を必要とすることが多く、普遍的な適用可能性に妥協する。
以上の課題に対処するために、音声信号自体を変更することでDDPMのトレーニング/推論速度と性能を向上させることができるのか?
本稿では、生成対象をウェーブレットドメインにリダイレクトすることにより、音声ddpmのトレーニングと推論速度を2倍にする。
この手法は、音声合成タスクにおいて、元のモデルと同等あるいは優れた性能を達成するだけでなく、その汎用性も示す。
異なるウェーブレットベースを調査,活用することにより,音声合成だけでなく,音声強調にも有効であることを示す。
関連論文リスト
- FINALLY: fast and universal speech enhancement with studio-like quality [7.207284147264852]
本稿では,様々な歪みを含む実世界の録音における音声強調の課題に対処する。
本研究では, 対人訓練の安定性を高めるために, 知覚喪失のための様々な特徴抽出器について検討した。
我々は、WavLMに基づく知覚損失をMS-STFT逆行訓練パイプラインに統合し、音声強調モデルの効果的で安定した訓練手順を作成する。
論文 参考訳(メタデータ) (2024-10-08T11:16:03Z) - SpeechPrompt: Prompting Speech Language Models for Speech Processing Tasks [94.10497337235083]
我々はまず,音声処理分野における音声 LM の促進の可能性を探る。
音声処理タスクを音声単位生成タスクに再構成する。
提案手法は, 強い微調整法と比較して, 競争性能を向上できることを示す。
論文 参考訳(メタデータ) (2024-08-23T13:00:10Z) - Pre-training Feature Guided Diffusion Model for Speech Enhancement [37.88469730135598]
音声強調は、雑音環境下での音声の明瞭さと明瞭さを著しく向上させる。
本稿では,効率的な音声強調に適した事前学習機能誘導拡散モデルを提案する。
論文 参考訳(メタデータ) (2024-06-11T18:22:59Z) - uSee: Unified Speech Enhancement and Editing with Conditional Diffusion
Models [57.71199494492223]
本稿では,条件付き拡散モデルを用いた統一音声強調編集(uSee)モデルを提案する。
実験の結果,提案したuSeeモデルは,他の生成的音声強調モデルと比較して,発声および発声の双方において優れた性能が得られることがわかった。
論文 参考訳(メタデータ) (2023-10-02T04:36:39Z) - High-Fidelity Speech Synthesis with Minimal Supervision: All Using
Diffusion Models [56.00939852727501]
最小教師付き音声合成は、2種類の離散音声表現を組み合わせることでTSを分離する。
非自己回帰フレームワークは、制御可能性を高め、持続拡散モデルは、多様化された韻律表現を可能にする。
論文 参考訳(メタデータ) (2023-09-27T09:27:03Z) - Unsupervised speech enhancement with diffusion-based generative models [0.0]
拡散モデルの生成力を生かし、教師なしの方法で機能する代替手法を提案する。
本研究では,学習したクリーン音声と音声信号推論のための雑音モデルを組み合わせることで,音声強調のための後部サンプリング手法を開発した。
近年の変分オートエンコーダ (VAE) による教師なし手法と, 最先端の拡散型教師方式と比較して, 有望な結果が得られた。
論文 参考訳(メタデータ) (2023-09-19T09:11:31Z) - Robust Automatic Speech Recognition via WavAugment Guided Phoneme
Adversarial Training [20.33516009339207]
我々は,WavAugment Guided Phoneme Adrial Training (wapat)を提案する。
Wapatは音素空間の逆例を拡張として使用し、音素表現の小さなゆらぎにモデルを不変にします。
さらに、Wapatは、拡張サンプルの音素表現を利用して、敵の生成を誘導し、より安定で多様な勾配方向を見つけるのに役立つ。
論文 参考訳(メタデータ) (2023-07-24T03:07:40Z) - UnDiff: Unsupervised Voice Restoration with Unconditional Diffusion
Model [1.0874597293913013]
UnDiffは様々な音声逆タスクを解くことができる拡散確率モデルである。
インバージョン劣化、ニューラルボコーディング、ソース分離など、さまざまなタスクに適応することができる。
論文 参考訳(メタデータ) (2023-06-01T14:22:55Z) - A Study on Speech Enhancement Based on Diffusion Probabilistic Model [63.38586161802788]
雑音信号からクリーンな音声信号を復元することを目的とした拡散確率モデルに基づく音声強調モデル(DiffuSE)を提案する。
実験結果から、DiffuSEは、標準化されたVoice Bankコーパスタスクにおいて、関連する音声生成モデルに匹敵する性能が得られることがわかった。
論文 参考訳(メタデータ) (2021-07-25T19:23:18Z) - Time-domain Speech Enhancement with Generative Adversarial Learning [53.74228907273269]
本稿では,TSEGAN(Time-domain Speech Enhancement Generative Adversarial Network)という新しいフレームワークを提案する。
TSEGANは、スケーリング問題を軽減するためのメトリクス評価を備えた時間領域におけるジェネレーション・アドバーサリ・ネットワーク(GAN)の拡張である。
さらに,計量ganの性能を理論的に解析するために,客観的関数マッピングに基づく新しい手法を提案する。
論文 参考訳(メタデータ) (2021-03-30T08:09:49Z) - Real Time Speech Enhancement in the Waveform Domain [99.02180506016721]
本稿では,ラップトップCPU上でリアルタイムに動作する生波形を用いた因果音声強調モデルを提案する。
提案モデルは、スキップ接続を持つエンコーダデコーダアーキテクチャに基づいている。
静止ノイズや非定常ノイズを含む様々な背景ノイズを除去することができる。
論文 参考訳(メタデータ) (2020-06-23T09:19:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。