論文の概要: Enhancing and Adversarial: Improve ASR with Speaker Labels
- arxiv url: http://arxiv.org/abs/2211.06369v1
- Date: Fri, 11 Nov 2022 17:40:08 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-14 17:17:01.477466
- Title: Enhancing and Adversarial: Improve ASR with Speaker Labels
- Title(参考訳): エンハンシングとアドバイザリ:話者ラベルによるASRの改善
- Authors: Wei Zhou, Haotian Wu, Jingjing Xu, Mohammad Zeineldeen, Christoph
L\"uscher, Ralf Schl\"uter, Hermann Ney
- Abstract要約: そこで本研究では,チューニングを伴わない安定かつ効果的な対向訓練のための適応的勾配反転層を提案する。
ASRニューラルネットワーク(NN)の最適な位置を示すために、詳細な分析と実験的検証を行い、話者強化と対向訓練を適用した。
最高のスピーカーベースのMTLは、Switchboard Hub5'00の相対的な改善を7%達成しています。
- 参考スコア(独自算出の注目度): 49.73714831258699
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: ASR can be improved by multi-task learning (MTL) with domain enhancing or
domain adversarial training, which are two opposite objectives with the aim to
increase/decrease domain variance towards domain-aware/agnostic ASR,
respectively. In this work, we study how to best apply these two opposite
objectives with speaker labels to improve conformer-based ASR. We also propose
a novel adaptive gradient reversal layer for stable and effective adversarial
training without tuning effort. Detailed analysis and experimental verification
are conducted to show the optimal positions in the ASR neural network (NN) to
apply speaker enhancing and adversarial training. We also explore their
combination for further improvement, achieving the same performance as
i-vectors plus adversarial training. Our best speaker-based MTL achieves 7\%
relative improvement on the Switchboard Hub5'00 set. We also investigate the
effect of such speaker-based MTL w.r.t. cleaner dataset and weaker ASR NN.
- Abstract(参考訳): ASRは、ドメインの認識/認識ASRに対するドメインの分散を増大/減少させることを目的として、ドメインの強化とドメインの敵対的トレーニングを併用したマルチタスク学習(MTL)によって改善することができる。
本研究では,これら2つの対向する目的を話者ラベルで最善に適用し,コンフォーメータベースのasrを改善する方法について検討する。
また,チューニングを伴わない安定かつ効果的な対向訓練のための適応的勾配反転層を提案する。
ASRニューラルネットワーク(NN)の最適な位置を示すために、詳細な分析と実験的検証を行い、話者強化と対向訓練を適用した。
また,i-vectorsと同等の性能と対人訓練を達成し,さらなる改善に向けた組み合わせについても検討する。
最高のスピーカーベースのMTLは、Switchboard Hub5'00セットで7倍の相対的な改善を実現しています。
また、このような話者ベースMTLw.r.t.クリーナーデータセットと弱いASR NNの効果についても検討する。
関連論文リスト
- Mutual Learning for Acoustic Matching and Dereverberation via Visual Scene-driven Diffusion [93.32354378820648]
本稿では拡散モデルに基づく相互学習フレームワークMVSDを紹介する。
MVSDは2つのタスクを対称的に考慮し、逆タスクからの学習を容易にするために相互関係を利用する。
我々のフレームワークは、残響器と残響器の性能を向上させることができる。
論文 参考訳(メタデータ) (2024-07-15T00:47:56Z) - ROSE: A Recognition-Oriented Speech Enhancement Framework in Air Traffic Control Using Multi-Objective Learning [6.60571587618006]
無線音声エコー(Radio speech echo)は、空気交通制御(ATC)領域において特定の現象であり、音声品質を低下させ、自動音声認識(ASR)の精度に影響を与える。
本研究では,時間領域認識指向音声強調フレームワークを提案し,音声認識能力の向上とASR精度の向上を図る。
このフレームワークはATCシナリオのプラグイン・アンド・プレイツールとして機能し、ASRモデルのさらなる再トレーニングを必要としない。
論文 参考訳(メタデータ) (2023-12-11T04:51:41Z) - DASA: Difficulty-Aware Semantic Augmentation for Speaker Verification [55.306583814017046]
本稿では,話者認証のための難易度認識型セマンティック拡張(DASA)手法を提案する。
DASAは、話者埋め込み空間における多様なトレーニングサンプルを、無視できる余分な計算コストで生成する。
最も良い結果は、CN-Celeb評価セット上でのEER測定値の14.6%の相対的な減少を達成する。
論文 参考訳(メタデータ) (2023-10-18T17:07:05Z) - Gradient Remedy for Multi-Task Learning in End-to-End Noise-Robust
Speech Recognition [23.042478625584653]
グラデーション・レメディ(GR)はノイズロス音声認識におけるタスク・グラデーション間の干渉を解決するためのシンプルで効果的な手法である。
提案手法は,マルチタスク学習ベースラインに対して,勾配干渉と相対単語誤り率(WER)を9.3%,11.1%削減する。
論文 参考訳(メタデータ) (2023-02-22T13:31:13Z) - Effect and Analysis of Large-scale Language Model Rescoring on
Competitive ASR Systems [30.873546090458678]
大規模言語モデル (LLM) は ASR N-best Rescoring に適用されている。
本研究では,LLM再構成を最も競争力のあるASRベースラインである Conformer-Transducer モデルに組み込む。
論文 参考訳(メタデータ) (2022-04-01T05:20:55Z) - Automated Audio Captioning using Transfer Learning and Reconstruction
Latent Space Similarity Regularization [21.216783537997426]
本稿では,PANNが自動音声キャプチャータスクに提供した音響特性をよりよく活用するアーキテクチャを提案する。
また、新しい自己監督型ラテント空間類似度正規化(RLSSR)も導入する。
論文 参考訳(メタデータ) (2021-08-10T13:49:41Z) - Transferable Deep Reinforcement Learning Framework for Autonomous
Vehicles with Joint Radar-Data Communications [69.24726496448713]
本稿では,AVの最適決定を支援するために,マルコフ決定プロセス(MDP)に基づくインテリジェントな最適化フレームワークを提案する。
そこで我々は,近年の深層強化学習技術を活用した効果的な学習アルゴリズムを開発し,AVの最適方針を見出す。
提案手法は,従来の深部強化学習手法と比較して,AVによる障害物ミス検出確率を最大67%削減することを示す。
論文 参考訳(メタデータ) (2021-05-28T08:45:37Z) - Improving RNN Transducer Based ASR with Auxiliary Tasks [21.60022481898402]
単一ニューラルネットワークを用いたエンドツーエンド自動音声認識(ASR)モデルは、最近最先端の結果を実証した。
本研究では,リカレントニューラルネットワークトランスデューサ(RNN-T)が補助タスクを実行することで,より優れたASR精度を実現する方法を検討する。
論文 参考訳(メタデータ) (2020-11-05T21:46:32Z) - Characterizing Speech Adversarial Examples Using Self-Attention U-Net
Enhancement [102.48582597586233]
本稿では,U-Net$_At$という,U-Netに基づくアテンションモデルを提案する。
対戦型音声アタックを用いた自動音声認識(ASR)タスクの実験を行った。
論文 参考訳(メタデータ) (2020-03-31T02:16:34Z) - Joint Contextual Modeling for ASR Correction and Language Understanding [60.230013453699975]
言語理解(LU)と協調してASR出力の文脈的言語補正を行うマルチタスクニューラルアプローチを提案する。
そこで本研究では,市販のASRおよびLUシステムの誤差率を,少量のドメイン内データを用いてトレーニングしたジョイントモデルと比較して14%削減できることを示した。
論文 参考訳(メタデータ) (2020-01-28T22:09:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。