論文の概要: Continuous Modeling of the Denoising Process for Speech Enhancement
Based on Deep Learning
- arxiv url: http://arxiv.org/abs/2309.09270v2
- Date: Sun, 7 Jan 2024 15:52:31 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-09 23:01:03.386487
- Title: Continuous Modeling of the Denoising Process for Speech Enhancement
Based on Deep Learning
- Title(参考訳): ディープラーニングに基づく音声強調のための発声過程の連続的モデル化
- Authors: Zilu Guo, Jun Du, CHin-Hui Lee
- Abstract要約: 状態変数をデノナイジングプロセスを示すために使用します。
UNetのようなニューラルネットワークは、連続的復調プロセスからサンプリングされたすべての状態変数を推定することを学ぶ。
実験結果から, クリーンターゲットに少量の雑音を保存することは, 音声強調に有効であることが示唆された。
- 参考スコア(独自算出の注目度): 61.787485727134424
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we explore a continuous modeling approach for
deep-learning-based speech enhancement, focusing on the denoising process. We
use a state variable to indicate the denoising process. The starting state is
noisy speech and the ending state is clean speech. The noise component in the
state variable decreases with the change of the state index until the noise
component is 0. During training, a UNet-like neural network learns to estimate
every state variable sampled from the continuous denoising process. In testing,
we introduce a controlling factor as an embedding, ranging from zero to one, to
the neural network, allowing us to control the level of noise reduction. This
approach enables controllable speech enhancement and is adaptable to various
application scenarios. Experimental results indicate that preserving a small
amount of noise in the clean target benefits speech enhancement, as evidenced
by improvements in both objective speech measures and automatic speech
recognition performance.
- Abstract(参考訳): 本稿では,ディープラーニングに基づく音声強調のための連続的モデリング手法について検討する。
状態変数を使用して、denoisingプロセスを示します。
開始状態はうるさいスピーチであり、終了状態は清潔なスピーチである。
状態変数のノイズ成分は、ノイズ成分が0になるまで状態指数の変化に伴って減少する。
トレーニング中、UNetのようなニューラルネットワークは、連続的な認知プロセスからサンプリングされたすべての状態変数を推定する。
テストでは、ゼロから1まで、ニューラルネットワークへの埋め込みとして制御因子を導入し、ノイズ低減のレベルを制御できるようにします。
このアプローチは、制御可能な音声強調を可能にし、様々なアプリケーションシナリオに適応できる。
実験結果から,クリーンターゲットにおける少量の雑音の保持は,客観的な音声計測と自動音声認識性能の改善により,音声強調に有効であることが示唆された。
関連論文リスト
- Large Language Models are Efficient Learners of Noise-Robust Speech
Recognition [65.95847272465124]
大規模言語モデル(LLM)の最近の進歩は、自動音声認識(ASR)のための生成誤り訂正(GER)を促進している。
本研究では,このベンチマークをノイズの多い条件に拡張し,GERのデノナイジングをLLMに教えることができるかを検討する。
最新のLLM実験では,単語誤り率を最大53.9%改善し,新たなブレークスルーを実現している。
論文 参考訳(メタデータ) (2024-01-19T01:29:27Z) - Diffusion-based speech enhancement with a weighted generative-supervised
learning loss [0.0]
拡散に基づく生成モデルは近年,音声強調(SE)において注目を集めている。
そこで本研究では,従来の拡散訓練目標を平均二乗誤差(MSE)損失で拡張することを提案する。
論文 参考訳(メタデータ) (2023-09-19T09:13:35Z) - DiffSED: Sound Event Detection with Denoising Diffusion [70.18051526555512]
生成学習の観点からSED問題を再構築する。
具体的には,騒音拡散過程において,雑音のある提案から音の時間境界を生成することを目的としている。
トレーニング中は,ノイズの多い遅延クエリを基本バージョンに変換することで,ノイズ発生過程の逆転を学習する。
論文 参考訳(メタデータ) (2023-08-14T17:29:41Z) - Improving the Intent Classification accuracy in Noisy Environment [9.447108578893639]
本稿では,エンド・ツー・エンドのニューラルモデルを用いた意図分類課題に対して,環境騒音とその関連ノイズ低減手法について検討する。
この課題に対して,音声強調処理を用いることで,雑音条件下での分類精度を大幅に向上させる。
論文 参考訳(メタデータ) (2023-03-12T06:11:44Z) - Robust Time Series Denoising with Learnable Wavelet Packet Transform [1.370633147306388]
多くのアプリケーションでは、後の分析や学習タスクの前に、信号の復号化が最初の前処理ステップであることが多い。
本稿では,ウェーブレットパケット変換の学習可能なバージョンである信号処理にインスパイアされたディープ・ラーニング・デノイング・モデルを適用することを提案する。
本稿では,提案アルゴリズムが信号処理手法の普遍性とディープラーニング手法の学習能力にどのように関係しているかを示す。
論文 参考訳(メタデータ) (2022-06-13T13:05:58Z) - Improving Noise Robustness of Contrastive Speech Representation Learning
with Speech Reconstruction [109.44933866397123]
実環境における音声認識システムの実現には,雑音の堅牢性が不可欠である。
雑音認識のための自己教師型フレームワークにより学習したノイズロスト表現を用いる。
ラベル付きデータのわずか16%で報告された最高の教師付きアプローチに匹敵するパフォーマンスを実現した。
論文 参考訳(メタデータ) (2021-10-28T20:39:02Z) - Distribution Conditional Denoising: A Flexible Discriminative Image
Denoiser [0.0]
U-Netに基づくデゾナイズFCNにマルチタスク学習手法を適用するフレキシブルな識別画像デノイザを導入する。
この条件付き学習法は, 定音レベルU-Netデノイザを様々な雑音レベルに一般化することができる。
論文 参考訳(メタデータ) (2020-11-24T21:27:18Z) - CITISEN: A Deep Learning-Based Speech Signal-Processing Mobile
Application [63.2243126704342]
本研究では,CitisENと呼ばれる深層学習に基づく音声信号処理モバイルアプリケーションを提案する。
CitisENは、音声強調(SE)、モデル適応(MA)、背景雑音変換(BNC)の3つの機能を提供している。
雑音の多い音声信号と比較すると、改良された音声信号の約6%と33%の改善が達成された。
論文 参考訳(メタデータ) (2020-08-21T02:04:12Z) - Simultaneous Denoising and Dereverberation Using Deep Embedding Features [64.58693911070228]
ディープ埋め込み特徴を用いた同時発声・発声同時学習法を提案する。
ノイズ発生段階では、DCネットワークを利用してノイズのないディープ埋込み特性を抽出する。
残響段階では、教師なしのK平均クラスタリングアルゴリズムの代わりに、別のニューラルネットワークを用いて無響音声を推定する。
論文 参考訳(メタデータ) (2020-04-06T06:34:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。