論文の概要: Gradient Remedy for Multi-Task Learning in End-to-End Noise-Robust
Speech Recognition
- arxiv url: http://arxiv.org/abs/2302.11362v1
- Date: Wed, 22 Feb 2023 13:31:13 GMT
- ステータス: 処理完了
- システム内更新日: 2023-02-23 15:02:41.664230
- Title: Gradient Remedy for Multi-Task Learning in End-to-End Noise-Robust
Speech Recognition
- Title(参考訳): end-to-end noise-robust音声認識におけるマルチタスク学習のための勾配修正
- Authors: Yuchen Hu, Chen Chen, Ruizhe Li, Qiushi Zhu, Eng Siong Chng
- Abstract要約: グラデーション・レメディ(GR)はノイズロス音声認識におけるタスク・グラデーション間の干渉を解決するためのシンプルで効果的な手法である。
提案手法は,マルチタスク学習ベースラインに対して,勾配干渉と相対単語誤り率(WER)を9.3%,11.1%削減する。
- 参考スコア(独自算出の注目度): 23.042478625584653
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Speech enhancement (SE) is proved effective in reducing noise from noisy
speech signals for downstream automatic speech recognition (ASR), where
multi-task learning strategy is employed to jointly optimize these two tasks.
However, the enhanced speech learned by SE objective may not always yield good
ASR results. From the optimization view, there sometimes exists interference
between the gradients of SE and ASR tasks, which could hinder the multi-task
learning and finally lead to sub-optimal ASR performance. In this paper, we
propose a simple yet effective approach called gradient remedy (GR) to solve
interference between task gradients in noise-robust speech recognition, from
perspectives of both angle and magnitude. Specifically, we first project the SE
task's gradient onto a dynamic surface that is at acute angle to ASR gradient,
in order to remove the conflict between them and assist in ASR optimization.
Furthermore, we adaptively rescale the magnitude of two gradients to prevent
the dominant ASR task from being misled by SE gradient. Experimental results
show that the proposed approach well resolves the gradient interference and
achieves relative word error rate (WER) reductions of 9.3% and 11.1% over
multi-task learning baseline, on RATS and CHiME-4 datasets, respectively. Our
code is available at GitHub.
- Abstract(参考訳): 音声強調 (se) は, 下流自動音声認識 (asr) におけるノイズ低減に有効であり, これら2つのタスクを協調的に最適化するためにマルチタスク学習戦略が採用されている。
しかし、SE目標によって学習された強化音声は、必ずしも良好なASR結果をもたらすとは限らない。
最適化の観点からは、SEタスクとASRタスクの勾配が干渉することがあるため、マルチタスク学習が妨げられ、最終的に準最適ASR性能につながる可能性がある。
本稿では,ノイズロスト音声認識におけるタスク勾配間の干渉を,角度と大きさの両面から解消する,グラデーション・レメディエーション(GR)と呼ばれるシンプルなアプローチを提案する。
具体的には,seタスクの勾配をasr勾配に鋭角の動的表面に投影し,それらの衝突を除去し,asr最適化を支援する。
さらに,2つの勾配の大きさを適応的に再スケールすることで,asrタスクがse勾配によってミスされるのを防ぐ。
実験の結果, 提案手法は, ラットおよびchime-4データセットにおいて, 勾配干渉を良好に解決し, 単語誤り率 (wer) を9.3%, 11.1%削減できた。
私たちのコードはGitHubで入手可能です。
関連論文リスト
- Unifying Speech Enhancement and Separation with Gradient Modulation for
End-to-End Noise-Robust Speech Separation [23.758202121043805]
本稿では,音声の強調と分離を勾配変調で統一し,ノイズ・ロバスト性を改善する新しいネットワークを提案する。
実験結果から,大規模Libri2Mix-およびLibri3Mix-noisyデータセットの最先端化が得られた。
論文 参考訳(メタデータ) (2023-02-22T03:54:50Z) - Enhancing and Adversarial: Improve ASR with Speaker Labels [49.73714831258699]
そこで本研究では,チューニングを伴わない安定かつ効果的な対向訓練のための適応的勾配反転層を提案する。
ASRニューラルネットワーク(NN)の最適な位置を示すために、詳細な分析と実験的検証を行い、話者強化と対向訓練を適用した。
最高のスピーカーベースのMTLは、Switchboard Hub5'00の相対的な改善を7%達成しています。
論文 参考訳(メタデータ) (2022-11-11T17:40:08Z) - Dual-Path Style Learning for End-to-End Noise-Robust Speech Recognition [26.77806246793544]
音声強調(SE)は、ASRの雑音を低減するためにフロントエンドとして導入されるが、重要な音声情報も抑制する。
エンドツーエンドノイズロスト音声認識(DPSL-ASR)のためのデュアルパス型学習手法を提案する。
実験の結果,提案手法はIFF-Netベースラインよりも10.6%,8.6%の相対単語誤り率(WER)の低減を実現している。
論文 参考訳(メタデータ) (2022-03-28T15:21:57Z) - Improving Noise Robustness of Contrastive Speech Representation Learning
with Speech Reconstruction [109.44933866397123]
実環境における音声認識システムの実現には,雑音の堅牢性が不可欠である。
雑音認識のための自己教師型フレームワークにより学習したノイズロスト表現を用いる。
ラベル付きデータのわずか16%で報告された最高の教師付きアプローチに匹敵するパフォーマンスを実現した。
論文 参考訳(メタデータ) (2021-10-28T20:39:02Z) - Conflict-Averse Gradient Descent for Multi-task Learning [56.379937772617]
マルチタスクモデルを最適化する際の大きな課題は、矛盾する勾配である。
本稿では、平均損失関数を最小化する衝突-逆勾配降下(CAGrad)を導入する。
CAGradは目標を自動的にバランスし、平均損失よりも最小限に確実に収束する。
論文 参考訳(メタデータ) (2021-10-26T22:03:51Z) - Gated Recurrent Fusion with Joint Training Framework for Robust
End-to-End Speech Recognition [64.9317368575585]
本稿では,ロバスト・エンド・ツー・エンドASRのためのジョイント・トレーニング・フレームワークを用いたゲート・リカレント・フュージョン(GRF)法を提案する。
GRFアルゴリズムはノイズと拡張された特徴を動的に組み合わせるために使用される。
提案手法は従来の関節強化・変圧器法に比べて10.04%の相対的文字誤り率(CER)低減を実現する。
論文 参考訳(メタデータ) (2020-11-09T08:52:05Z) - Improving Readability for Automatic Speech Recognition Transcription [50.86019112545596]
我々は、可読性のためのASRポストプロセッシング(APR)と呼ばれる新しいNLPタスクを提案する。
APRは、ノイズの多いASR出力を、話者の意味を保ちながら、人間や下流タスクのための読みやすいテキストに変換することを目的としている。
我々は,いくつかのオープンソースモデルと適応型事前学習モデルに基づく微調整モデルと,従来のパイプライン手法との比較を行った。
論文 参考訳(メタデータ) (2020-04-09T09:26:42Z) - Improving noise robust automatic speech recognition with single-channel
time-domain enhancement network [100.1041336974175]
単一チャネルの時間領域分割手法により,ASRの性能が大幅に向上することを示す。
単一チャネル雑音の低減はASR性能を向上できることを示す。
論文 参考訳(メタデータ) (2020-03-09T09:36:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。