論文の概要: NASTAR: Noise Adaptive Speech Enhancement with Target-Conditional
Resampling
- arxiv url: http://arxiv.org/abs/2206.09058v1
- Date: Sat, 18 Jun 2022 00:15:48 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-26 17:29:14.081095
- Title: NASTAR: Noise Adaptive Speech Enhancement with Target-Conditional
Resampling
- Title(参考訳): nastar:ターゲット条件再サンプリングによる雑音適応型音声強調
- Authors: Chi-Chang Lee, Cheng-Hung Hu, Yu-Chen Lin, Chu-Song Chen, Hsin-Min
Wang, Yu Tsao
- Abstract要約: ターゲット条件再サンプリング(NASTAR)を用いた雑音適応音声強調手法を提案する。
NASTARはフィードバック機構を使用して、ノイズ抽出器と検索モデルを介して適応的なトレーニングデータをシミュレートする。
実験結果から,NASTARは1つの雑音のある音声サンプルを効果的に使用して,SEモデルを目標条件に適応させることができることがわかった。
- 参考スコア(独自算出の注目度): 34.565077865854484
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: For deep learning-based speech enhancement (SE) systems, the training-test
acoustic mismatch can cause notable performance degradation. To address the
mismatch issue, numerous noise adaptation strategies have been derived. In this
paper, we propose a novel method, called noise adaptive speech enhancement with
target-conditional resampling (NASTAR), which reduces mismatches with only one
sample (one-shot) of noisy speech in the target environment. NASTAR uses a
feedback mechanism to simulate adaptive training data via a noise extractor and
a retrieval model. The noise extractor estimates the target noise from the
noisy speech, called pseudo-noise. The noise retrieval model retrieves relevant
noise samples from a pool of noise signals according to the noisy speech,
called relevant-cohort. The pseudo-noise and the relevant-cohort set are
jointly sampled and mixed with the source speech corpus to prepare simulated
training data for noise adaptation. Experimental results show that NASTAR can
effectively use one noisy speech sample to adapt an SE model to a target
condition. Moreover, both the noise extractor and the noise retrieval model
contribute to model adaptation. To our best knowledge, NASTAR is the first work
to perform one-shot noise adaptation through noise extraction and retrieval.
- Abstract(参考訳): 深層学習に基づく音声強調(SE)システムでは、トレーニングテストの音響ミスマッチが顕著な性能劣化を引き起こす可能性がある。
ミスマッチ問題に対処するため、多くのノイズ適応戦略が導出された。
本稿では,ターゲット環境における雑音の1つのサンプル(1ショット)のみとミスマッチを低減できる,ターゲット条件再サンプリングを用いた雑音適応音声強調法(nastar)を提案する。
nastarはフィードバック機構を使用して、ノイズ抽出器と検索モデルを介して適応トレーニングデータをシミュレートする。
雑音抽出器は、疑似雑音と呼ばれる雑音音声から目標雑音を推定する。
ノイズ検索モデルは、関連するコホートと呼ばれるノイズ音声に従って、ノイズ信号プールから関連するノイズサンプルを検索する。
擬似ノイズと関連コホートセットとを共同でサンプリングしてソース音声コーパスと混合し、雑音適応のための模擬訓練データを作成する。
実験結果から,NASTARは1つの雑音のある音声サンプルを効果的に使用して,SEモデルを目標条件に適応させることができることがわかった。
さらに、ノイズ抽出器とノイズ検索モデルの両方がモデル適応に寄与する。
私たちの知る限りでは、nastarはノイズ抽出と検索を通じてワンショットノイズ適応を行う最初の作品です。
関連論文リスト
- Effective Noise-aware Data Simulation for Domain-adaptive Speech Enhancement Leveraging Dynamic Stochastic Perturbation [25.410770364140856]
クロスドメイン音声強調(SE)は、目に見えない対象領域におけるノイズや背景情報の不足により、しばしば深刻な課題に直面している。
本研究では,ノイズ抽出技術とGANを利用した新しいデータシミュレーション手法を提案する。
本研究では,動的摂動の概念を導入し,制御された摂動を推論中の雑音埋め込みに注入する。
論文 参考訳(メタデータ) (2024-09-03T02:29:01Z) - Noisy Pair Corrector for Dense Retrieval [59.312376423104055]
ノイズペアコレクタ(NPC)と呼ばれる新しい手法を提案する。
NPCは検出モジュールと修正モジュールから構成される。
我々は,テキスト検索ベンチマークのNatural QuestionとTriviaQA,コード検索ベンチマークのStaQCとSO-DSで実験を行った。
論文 参考訳(メタデータ) (2023-11-07T08:27:14Z) - DiffSED: Sound Event Detection with Denoising Diffusion [70.18051526555512]
生成学習の観点からSED問題を再構築する。
具体的には,騒音拡散過程において,雑音のある提案から音の時間境界を生成することを目的としている。
トレーニング中は,ノイズの多い遅延クエリを基本バージョンに変換することで,ノイズ発生過程の逆転を学習する。
論文 参考訳(メタデータ) (2023-08-14T17:29:41Z) - Improving the Robustness of Summarization Models by Detecting and
Removing Input Noise [50.27105057899601]
本研究では,様々な種類の入力ノイズから,様々なデータセットやモデルサイズに対する性能損失を定量化する大規模な実験的検討を行った。
本稿では,モデル推論中の入力中のそのようなノイズを検出し,除去するための軽量な手法を提案する。
論文 参考訳(メタデータ) (2022-12-20T00:33:11Z) - NLIP: Noise-robust Language-Image Pre-training [95.13287735264937]
雑音調和と雑音補完という2つの手法を用いて事前学習の安定化を図るため,NLIPの原理的手法を提案する。
我々のNLIPは、画像テキスト事前学習における一般的なノイズ効果をより効率的に軽減することができる。
論文 参考訳(メタデータ) (2022-12-14T08:19:30Z) - Improving Noise Robustness of Contrastive Speech Representation Learning
with Speech Reconstruction [109.44933866397123]
実環境における音声認識システムの実現には,雑音の堅牢性が不可欠である。
雑音認識のための自己教師型フレームワークにより学習したノイズロスト表現を用いる。
ラベル付きデータのわずか16%で報告された最高の教師付きアプローチに匹敵するパフォーマンスを実現した。
論文 参考訳(メタデータ) (2021-10-28T20:39:02Z) - Variational Autoencoder for Speech Enhancement with a Noise-Aware
Encoder [30.318947721658862]
本稿では,ノイズ対応エンコーダを用いて,学習段階での雑音情報を含むことを提案する。
提案するノイズ認識vaeは,モデルパラメータ数を増加させることなく,全体的な歪みの観点から標準vaeを上回っている。
論文 参考訳(メタデータ) (2021-02-17T11:40:42Z) - Adaptive noise imitation for image denoising [58.21456707617451]
本研究では,自然雑音画像からノイズデータを合成できる新しいテキストバッファ適応ノイズ模倣(ADANI)アルゴリズムを開発した。
現実的なノイズを生成するため、ノイズ発生装置はノイズ発生のガイドとなる雑音/クリーン画像を入力として利用する。
ADANIから出力されるノイズデータとそれに対応する基盤構造とを結合すると、デノイングCNNは、完全に教師された方法で訓練される。
論文 参考訳(メタデータ) (2020-11-30T02:49:36Z) - SERIL: Noise Adaptive Speech Enhancement using Regularization-based
Incremental Learning [36.24803486242198]
新しい環境への適応は、以前に学んだ環境を壊滅的に忘れてしまう可能性がある。
本稿では,正規化に基づくインクリメンタルラーニングSE(SERIL)戦略を提案する。
規則化制約により、パラメータは以前の騒音環境の知識を維持しつつ、新しい騒音環境に更新される。
論文 参考訳(メタデータ) (2020-05-24T14:49:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。