論文の概要: Diffiner: A Versatile Diffusion-based Generative Refiner for Speech
Enhancement
- arxiv url: http://arxiv.org/abs/2210.17287v2
- Date: Wed, 17 May 2023 22:59:12 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-20 01:01:03.370554
- Title: Diffiner: A Versatile Diffusion-based Generative Refiner for Speech
Enhancement
- Title(参考訳): diffiner:音声強調のための汎用拡散型生成精製器
- Authors: Ryosuke Sawata, Naoki Murata, Yuhta Takida, Toshimitsu Uesaka, Takashi
Shibuya, Shusuke Takahashi and Yuki Mitsufuji
- Abstract要約: そこで本研究では,DNNをベースとしたジェネレータDiffinerを導入し,SE法で事前処理した知覚音声品質を向上させる。
提案手法は, 従来のSE手法によらず, 知覚音声の質を向上する。
- 参考スコア(独自算出の注目度): 15.299996776389708
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Although deep neural network (DNN)-based speech enhancement (SE) methods
outperform the previous non-DNN-based ones, they often degrade the perceptual
quality of generated outputs. To tackle this problem, we introduce a DNN-based
generative refiner, Diffiner, aiming to improve perceptual speech quality
pre-processed by an SE method. We train a diffusion-based generative model by
utilizing a dataset consisting of clean speech only. Then, our refiner
effectively mixes clean parts newly generated via denoising diffusion
restoration into the degraded and distorted parts caused by a preceding SE
method, resulting in refined speech. Once our refiner is trained on a set of
clean speech, it can be applied to various SE methods without additional
training specialized for each SE module. Therefore, our refiner can be a
versatile post-processing module w.r.t. SE methods and has high potential in
terms of modularity. Experimental results show that our method improved
perceptual speech quality regardless of the preceding SE methods used.
- Abstract(参考訳): ディープニューラルネットワーク(DNN)ベースの音声強調法(SE)は、従来の非DNNベースの手法よりも優れているが、生成された出力の知覚品質を劣化させることが多い。
この問題に対処するために,我々は,SE法で事前処理した知覚音声品質の向上を目的としたDNNベースの生成精細器Diffinerを導入する。
クリーン音声のみからなるデータセットを利用して拡散に基づく生成モデルを訓練する。
そして, 従来のSE法により生じる劣化・歪曲した部分に, 拡散復元によって生成したクリーンな部分を効果的に混合し, 音声を洗練させる。
精製器をクリーンな音声で訓練すると、各SEモジュールに特別な追加の訓練を加えることなく、様々なSEメソッドに適用することができる。
したがって,本手法は多機能な後処理モジュールw.r.t.SE法であり,モジュラリティの面で高い可能性を持つ。
実験の結果,従来のSE手法によらず,知覚音声の質が向上した。
関連論文リスト
- Diffusion-based Unsupervised Audio-visual Speech Enhancement [26.937216751657697]
本稿では,新しい教師なし音声強調(AVSE)手法を提案する。
拡散に基づく音声視覚音声生成モデルと非負行列分解(NMF)ノイズモデルを組み合わせる。
実験結果から,提案手法は音声のみのアプローチより優れているだけでなく,近年の教師付き AVSE 法よりも優れていたことが確認された。
論文 参考訳(メタデータ) (2024-10-04T12:22:54Z) - Diffusion-based speech enhancement with a weighted generative-supervised
learning loss [0.0]
拡散に基づく生成モデルは近年,音声強調(SE)において注目を集めている。
そこで本研究では,従来の拡散訓練目標を平均二乗誤差(MSE)損失で拡張することを提案する。
論文 参考訳(メタデータ) (2023-09-19T09:13:35Z) - Unsupervised speech enhancement with diffusion-based generative models [0.0]
拡散モデルの生成力を生かし、教師なしの方法で機能する代替手法を提案する。
本研究では,学習したクリーン音声と音声信号推論のための雑音モデルを組み合わせることで,音声強調のための後部サンプリング手法を開発した。
近年の変分オートエンコーダ (VAE) による教師なし手法と, 最先端の拡散型教師方式と比較して, 有望な結果が得られた。
論文 参考訳(メタデータ) (2023-09-19T09:11:31Z) - Continuous Modeling of the Denoising Process for Speech Enhancement
Based on Deep Learning [61.787485727134424]
状態変数をデノナイジングプロセスを示すために使用します。
UNetのようなニューラルネットワークは、連続的復調プロセスからサンプリングされたすべての状態変数を推定することを学ぶ。
実験結果から, クリーンターゲットに少量の雑音を保存することは, 音声強調に有効であることが示唆された。
論文 参考訳(メタデータ) (2023-09-17T13:27:11Z) - UnDiff: Unsupervised Voice Restoration with Unconditional Diffusion
Model [1.0874597293913013]
UnDiffは様々な音声逆タスクを解くことができる拡散確率モデルである。
インバージョン劣化、ニューラルボコーディング、ソース分離など、さまざまなタスクに適応することができる。
論文 参考訳(メタデータ) (2023-06-01T14:22:55Z) - VideoFusion: Decomposed Diffusion Models for High-Quality Video
Generation [88.49030739715701]
本研究は, フレームごとのノイズを, 全フレーム間で共有されるベースノイズ, 時間軸に沿って変化する残雑音に分解することで, 拡散過程を分解する。
様々なデータセットの実験により,ビデオフュージョンと呼ばれる我々の手法が,高品質なビデオ生成において,GANベースと拡散ベースの両方の選択肢を上回ることが確認された。
論文 参考訳(メタデータ) (2023-03-15T02:16:39Z) - Speech Enhancement and Dereverberation with Diffusion-based Generative
Models [14.734454356396157]
本稿では,微分方程式に基づく拡散過程について概説する。
提案手法により,30段階の拡散しか行わず,高品質なクリーン音声推定が可能であることを示す。
大規模なクロスデータセット評価では、改良された手法が近年の識別モデルと競合することを示す。
論文 参考訳(メタデータ) (2022-08-11T13:55:12Z) - An Exploration of Prompt Tuning on Generative Spoken Language Model for
Speech Processing Tasks [112.1942546460814]
生成音声言語モデル(GSLM)に基づく音声処理タスクの即時チューニングパラダイムの最初の検討について報告する。
実験結果から, 学習可能なパラメータが少ない音声分類タスクにおいて, 高精度なダウンストリームモデルよりも, 即時チューニング手法が競合性能を達成できることが示唆された。
論文 参考訳(メタデータ) (2022-03-31T03:26:55Z) - Discretization and Re-synthesis: an alternative method to solve the
Cocktail Party Problem [65.25725367771075]
この研究は、初めて合成に基づくアプローチがこの問題にうまく対応できることを示した。
具体的には,離散シンボルの認識に基づく音声分離/強調モデルを提案する。
離散シンボルの入力による合成モデルを利用することで、離散シンボル列の予測後、各ターゲット音声を再合成することができる。
論文 参考訳(メタデータ) (2021-12-17T08:35:40Z) - A Study on Speech Enhancement Based on Diffusion Probabilistic Model [63.38586161802788]
雑音信号からクリーンな音声信号を復元することを目的とした拡散確率モデルに基づく音声強調モデル(DiffuSE)を提案する。
実験結果から、DiffuSEは、標準化されたVoice Bankコーパスタスクにおいて、関連する音声生成モデルに匹敵する性能が得られることがわかった。
論文 参考訳(メタデータ) (2021-07-25T19:23:18Z) - Rectified Meta-Learning from Noisy Labels for Robust Image-based Plant
Disease Diagnosis [64.82680813427054]
植物病は食料安全保障と作物生産に対する主要な脅威の1つである。
1つの一般的なアプローチは、葉画像分類タスクとしてこの問題を変換し、強力な畳み込みニューラルネットワーク(CNN)によって対処できる。
本稿では,正規化メタ学習モジュールを共通CNNパラダイムに組み込んだ新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2020-03-17T09:51:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。