論文の概要: D4AM: A General Denoising Framework for Downstream Acoustic Models
- arxiv url: http://arxiv.org/abs/2311.16595v1
- Date: Tue, 28 Nov 2023 08:27:27 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-30 09:26:31.667988
- Title: D4AM: A General Denoising Framework for Downstream Acoustic Models
- Title(参考訳): d4am:下流音響モデルのための汎用分節フレームワーク
- Authors: Chi-Chang Lee, Yu Tsao, Hsin-Min Wang, Chu-Song Chen
- Abstract要約: 音声強調(SE)は、自動音声認識(ASR)システムを支援するフロントエンド戦略として用いられる。
既存のSE手法の訓練目的は、未知のASRシステムに向けたトレーニングのために、音声テキストとノイズクリーンなペアデータを統合するのに完全には有効ではない。
そこで我々は,様々な下流音響モデルのための一般的なデノベーションフレームワークD4AMを提案する。
- 参考スコア(独自算出の注目度): 45.04967351760919
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The performance of acoustic models degrades notably in noisy environments.
Speech enhancement (SE) can be used as a front-end strategy to aid automatic
speech recognition (ASR) systems. However, existing training objectives of SE
methods are not fully effective at integrating speech-text and noisy-clean
paired data for training toward unseen ASR systems. In this study, we propose a
general denoising framework, D4AM, for various downstream acoustic models. Our
framework fine-tunes the SE model with the backward gradient according to a
specific acoustic model and the corresponding classification objective. In
addition, our method aims to consider the regression objective as an auxiliary
loss to make the SE model generalize to other unseen acoustic models. To
jointly train an SE unit with regression and classification objectives, D4AM
uses an adjustment scheme to directly estimate suitable weighting coefficients
rather than undergoing a grid search process with additional training costs.
The adjustment scheme consists of two parts: gradient calibration and
regression objective weighting. The experimental results show that D4AM can
consistently and effectively provide improvements to various unseen acoustic
models and outperforms other combination setups. Specifically, when evaluated
on the Google ASR API with real noisy data completely unseen during SE
training, D4AM achieves a relative WER reduction of 24.65% compared with the
direct feeding of noisy input. To our knowledge, this is the first work that
deploys an effective combination scheme of regression (denoising) and
classification (ASR) objectives to derive a general pre-processor applicable to
various unseen ASR systems. Our code is available at
https://github.com/ChangLee0903/D4AM.
- Abstract(参考訳): 音響モデルの性能は特にノイズの多い環境で劣化する。
音声強調(SE)は、自動音声認識(ASR)システムを支援するフロントエンド戦略として用いられる。
しかし、既存のse手法の訓練目的は、音声テキストとノイズ除去されたペアデータを統合することで、asrシステムに対する訓練に完全には役に立たない。
本研究では,下流の様々な音響モデルに対して,d4amを提案する。
本フレームワークは, 特定の音響モデルと対応する分類対象に応じて, 後方勾配のSEモデルを微調整する。
さらに, 本手法は, SEモデルを他の未知音響モデルに一般化させるため, 回帰目標を補助的損失として考慮することを目的とする。
回帰および分類目的のSEユニットを共同で訓練するために、D4AMは、追加の訓練コストでグリッド探索処理を行うのではなく、適切な重み付け係数を直接推定する調整スキームを使用する。
この調整方式は、勾配校正と回帰目標重み付けの2つの部分からなる。
実験の結果,D4AMは様々な音響モデルの改良を一貫して効果的に行うことができ,他の組み合わせよりも優れることがわかった。
具体的には、Google ASR APIでSEトレーニング中に完全にノイズのないデータで評価すると、D4AMはノイズ入力の直接供給と比較して相対的なWERの24.65%の減少を達成する。
我々の知る限り、これは回帰(デノジング)と分類(ASR)の効果的な組み合わせを展開し、様々な未知のASRシステムに適用可能な一般的なプリプロセッサを導出する最初の試みである。
私たちのコードはhttps://github.com/ChangLee0903/D4AMで利用可能です。
関連論文リスト
- Unified Speech Recognition: A Single Model for Auditory, Visual, and Audiovisual Inputs [73.74375912785689]
本稿では,音声認識システムのための統合学習戦略を提案する。
3つのタスクの1つのモデルをトレーニングすることで、VSRとAVSRの性能が向上することを示す。
また,非ラベル標本をより効果的に活用するために,強欲な擬似ラベリング手法を導入する。
論文 参考訳(メタデータ) (2024-11-04T16:46:53Z) - Acoustic Model Optimization over Multiple Data Sources: Merging and Valuation [13.009945735929445]
本稿では,音声認識分野の課題を解くための新しいパラダイムを提案する。
最初の段階では、完全な音声データの異なるサブセットに基づいて複数の音響モデルを訓練する。
第2段階では、2つの新しいアルゴリズムを用いて高品質な音響モデルを生成する。
論文 参考訳(メタデータ) (2024-10-21T03:48:23Z) - Learning with Noisy Foundation Models [95.50968225050012]
本論文は、事前学習データセットにおけるノイズの性質を包括的に理解し分析する最初の研究である。
雑音の悪影響を緩和し、一般化を改善するため、特徴空間に適応するチューニング法(NMTune)を提案する。
論文 参考訳(メタデータ) (2024-03-11T16:22:41Z) - Efficient acoustic feature transformation in mismatched environments
using a Guided-GAN [1.495380389108477]
本稿では,資源共有環境における音声認識システムを改善するための新しいフレームワークを提案する。
音響入力機能を利用したGAN(Generative Adversarial Network)を用いて、ミスマッチしたデータの特徴を高める。
1時間未満のデータで、高品質なデータに基づいて訓練され、一致しないオーディオで評価されたASRシステムは、11.5%から19.7%の相対的な単語誤り率(WER)によって改善される。
論文 参考訳(メタデータ) (2022-10-03T05:33:28Z) - Improving Noise Robustness of Contrastive Speech Representation Learning
with Speech Reconstruction [109.44933866397123]
実環境における音声認識システムの実現には,雑音の堅牢性が不可欠である。
雑音認識のための自己教師型フレームワークにより学習したノイズロスト表現を用いる。
ラベル付きデータのわずか16%で報告された最高の教師付きアプローチに匹敵するパフォーマンスを実現した。
論文 参考訳(メタデータ) (2021-10-28T20:39:02Z) - Feature Replacement and Combination for Hybrid ASR Systems [47.74348197215634]
ハイブリッドASRシステムにおけるこれらのフロントエンドフレームワーク、すなわちwav2vecの有用性を検討する。
事前学習した特徴抽出器の展開に加えて,異なる特徴を持つ同一タスクで訓練された既存の音響モデル(AM)の活用方法について検討する。
我々は、LibriSpeechテストクリーンおよびテスト他のセットの以前の最良のモデルよりも4%と6%の相対的な改善を得た。
論文 参考訳(メタデータ) (2021-04-09T11:04:58Z) - Unsupervised Domain Adaptation for Acoustic Scene Classification Using
Band-Wise Statistics Matching [69.24460241328521]
機械学習アルゴリズムは、トレーニング(ソース)とテスト(ターゲット)データの分散のミスマッチの影響を受けやすい。
本研究では,ターゲット領域音響シーンの各周波数帯域の1次及び2次サンプル統計値と,ソース領域学習データセットの1次と2次サンプル統計値との整合性を有する教師なし領域適応手法を提案する。
提案手法は,文献にみられる最先端の教師なし手法よりも,ソース・ドメインの分類精度とターゲット・ドメインの分類精度の両面で優れていることを示す。
論文 参考訳(メタデータ) (2020-04-30T23:56:05Z) - Statistical Context-Dependent Units Boundary Correction for Corpus-based
Unit-Selection Text-to-Speech [1.4337588659482519]
本稿では, 分割の精度を向上させるために, 単位選択テキスト音声(TTS)システムに適用するための, 話者適応のための革新的な手法を提案する。
従来の話者適応手法とは違って,言語分析手法を応用した文脈依存特性のみの利用を目標としている。
論文 参考訳(メタデータ) (2020-03-05T12:42:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。