Fugu-MT 論文翻訳(概要): Diffusion-based speech enhancement with a weighted generative-supervised learning loss

論文の概要: Diffusion-based speech enhancement with a weighted generative-supervised learning loss

arxiv url: http://arxiv.org/abs/2309.10457v1
Date: Tue, 19 Sep 2023 09:13:35 GMT
ステータス: 翻訳完了
システム内更新日: 2023-09-20 15:26:43.500602
Title: Diffusion-based speech enhancement with a weighted generative-supervised learning loss
Title（参考訳）: 重み付き生成教師付き学習損失を用いた拡散型音声強調
Authors: Jean-Eudes Ayilo (MULTISPEECH), Mostafa Sadeghi (MULTISPEECH), Romain Serizel (MULTISPEECH)
Abstract要約: 拡散に基づく生成モデルは近年,音声強調(SE)において注目を集めている。そこで本研究では,従来の拡散訓練目標を平均二乗誤差(MSE)損失で拡張することを提案する。
参考スコア（独自算出の注目度）: 0.0
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Diffusion-based generative models have recently gained attention in speech enhancement (SE), providing an alternative to conventional supervised methods. These models transform clean speech training samples into Gaussian noise centered at noisy speech, and subsequently learn a parameterized model to reverse this process, conditionally on noisy speech. Unlike supervised methods, generative-based SE approaches usually rely solely on an unsupervised loss, which may result in less efficient incorporation of conditioned noisy speech. To address this issue, we propose augmenting the original diffusion training objective with a mean squared error (MSE) loss, measuring the discrepancy between estimated enhanced speech and ground-truth clean speech at each reverse process iteration. Experimental results demonstrate the effectiveness of our proposed methodology.
Abstract（参考訳）: 拡散に基づく生成モデルは近年,従来の教師付き手法の代替として,音声強調(SE)に注目されている。これらのモデルは、清潔な音声訓練サンプルをノイズ中心のガウス雑音に変換し、その後パラメータ化されたモデルを学び、この過程を条件付きで雑音に戻す。教師付き手法とは異なり、生成ベースのseアプローチは通常教師なしの損失のみに依存するため、条件付きノイズ音声の効率が低下する可能性がある。この問題に対処するため,提案手法では, 平均二乗誤差(MSE)損失による拡散訓練目標の増大を提案し, 逆工程の各繰り返しにおける推定強調音声と接地トラスクリーン音声との差を計測する。実験の結果,提案手法の有効性が示された。

関連論文リスト

Posterior Transition Modeling for Unsupervised Diffusion-Based Speech Enhancement [26.937216751657697]
クリーン音声の表現的生成先として拡散モデルを用いた教師なし音声強調について検討する。既存の手法は、ノイズ摂動確率スコアを近似して雑音を用いた逆拡散過程を導出する。拡散状態の条件逆遷移分布を直接モデル化する2つの代替アルゴリズムを提案する。
論文参考訳（メタデータ） (2025-07-03T07:42:02Z)
Divide and Conquer: Heterogeneous Noise Integration for Diffusion-based Adversarial Purification [75.09791002021947]
既存の浄化法は,前向き拡散過程を通じて一定のノイズを発生させ,その後に逆の処理を行い,クリーンな例を回復させることによって,対向的摂動を妨害することを目的としている。この方法は、前処理の均一な操作が、対向的摂動と闘いながら通常のピクセルを損なうため、根本的な欠陥がある。ニューラルネットワークの解釈可能性に基づく異種浄化戦略を提案する。本手法は,被写体モデルが注目する特定の画素に対して高強度雑音を決定的に印加する一方,残りの画素は低強度雑音のみを被写体とする。
論文参考訳（メタデータ） (2025-03-03T11:00:25Z)
Diffusion-based Unsupervised Audio-visual Speech Enhancement [26.937216751657697]
本稿では,新しい教師なし音声強調(AVSE)手法を提案する。拡散に基づく音声視覚音声生成モデルと非負行列分解(NMF)ノイズモデルを組み合わせる。実験結果から,提案手法は音声のみのアプローチより優れているだけでなく,近年の教師付き AVSE 法よりも優れていたことが確認された。
論文参考訳（メタデータ） (2024-10-04T12:22:54Z)
Unsupervised speech enhancement with diffusion-based generative models [0.0]
拡散モデルの生成力を生かし、教師なしの方法で機能する代替手法を提案する。本研究では,学習したクリーン音声と音声信号推論のための雑音モデルを組み合わせることで,音声強調のための後部サンプリング手法を開発した。近年の変分オートエンコーダ (VAE) による教師なし手法と, 最先端の拡散型教師方式と比較して, 有望な結果が得られた。
論文参考訳（メタデータ） (2023-09-19T09:11:31Z)
Continuous Modeling of the Denoising Process for Speech Enhancement Based on Deep Learning [61.787485727134424]
状態変数をデノナイジングプロセスを示すために使用します。 UNetのようなニューラルネットワークは、連続的復調プロセスからサンプリングされたすべての状態変数を推定することを学ぶ。実験結果から, クリーンターゲットに少量の雑音を保存することは, 音声強調に有効であることが示唆された。
論文参考訳（メタデータ） (2023-09-17T13:27:11Z)
DiffSED: Sound Event Detection with Denoising Diffusion [70.18051526555512]
生成学習の観点からSED問題を再構築する。具体的には,騒音拡散過程において,雑音のある提案から音の時間境界を生成することを目的としている。トレーニング中は,ノイズの多い遅延クエリを基本バージョンに変換することで,ノイズ発生過程の逆転を学習する。
論文参考訳（メタデータ） (2023-08-14T17:29:41Z)
Diffiner: A Versatile Diffusion-based Generative Refiner for Speech Enhancement [22.67630435329088]
そこで本研究では,DNNをベースとしたジェネレータDiffinerを導入し,SE法で事前処理した知覚音声品質を向上させる。提案手法は, 従来のSE手法によらず, 知覚音声の質を向上する。
論文参考訳（メタデータ） (2022-10-27T10:46:32Z)
Speech Enhancement and Dereverberation with Diffusion-based Generative Models [14.734454356396157]
本稿では,微分方程式に基づく拡散過程について概説する。提案手法により,30段階の拡散しか行わず,高品質なクリーン音声推定が可能であることを示す。大規模なクロスデータセット評価では、改良された手法が近年の識別モデルと競合することを示す。
論文参考訳（メタデータ） (2022-08-11T13:55:12Z)
Zero-Shot Voice Conditioning for Denoising Diffusion TTS Models [95.97506031821217]
本研究では,事前学習した拡散音声モデルを用いて,学習中に見つからない新人の声で音声を生成する手法を提案する。この方法は、対象者からの短い(3秒)サンプルを必要とし、生成は、トレーニングステップなしで、推論時に操縦される。
論文参考訳（メタデータ） (2022-06-05T19:45:29Z)
On monoaural speech enhancement for automatic recognition of real noisy speech using mixture invariant training [33.79711018198589]
既存の混合不変訓練基準を拡張して、未ペア音声と実雑音データの両方を利用する。実雑音音声から分離した音声の品質を向上させるためには, 未ペアクリーン音声が不可欠であることがわかった。提案手法は、処理成果物を軽減するために、処理された信号と処理されていない信号のリミックスも行う。
論文参考訳（メタデータ） (2022-05-03T19:37:58Z)
Discretization and Re-synthesis: an alternative method to solve the Cocktail Party Problem [65.25725367771075]
この研究は、初めて合成に基づくアプローチがこの問題にうまく対応できることを示した。具体的には,離散シンボルの認識に基づく音声分離/強調モデルを提案する。離散シンボルの入力による合成モデルを利用することで、離散シンボル列の予測後、各ターゲット音声を再合成することができる。
論文参考訳（メタデータ） (2021-12-17T08:35:40Z)
Improving Noise Robustness of Contrastive Speech Representation Learning with Speech Reconstruction [109.44933866397123]
実環境における音声認識システムの実現には,雑音の堅牢性が不可欠である。雑音認識のための自己教師型フレームワークにより学習したノイズロスト表現を用いる。ラベル付きデータのわずか16%で報告された最高の教師付きアプローチに匹敵するパフォーマンスを実現した。
論文参考訳（メタデータ） (2021-10-28T20:39:02Z)
A Study on Speech Enhancement Based on Diffusion Probabilistic Model [63.38586161802788]
雑音信号からクリーンな音声信号を復元することを目的とした拡散確率モデルに基づく音声強調モデル(DiffuSE)を提案する。実験結果から、DiffuSEは、標準化されたVoice Bankコーパスタスクにおいて、関連する音声生成モデルに匹敵する性能が得られることがわかった。
論文参考訳（メタデータ） (2021-07-25T19:23:18Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。