論文の概要: Improving ASR Contextual Biasing with Guided Attention
- arxiv url: http://arxiv.org/abs/2401.08835v1
- Date: Tue, 16 Jan 2024 21:16:12 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-18 17:50:10.231572
- Title: Improving ASR Contextual Biasing with Guided Attention
- Title(参考訳): 誘導注意によるASRコンテキストバイアスの改善
- Authors: Jiyang Tang, Kwangyoun Kim, Suwon Shon, Felix Wu, Prashant Sridhar,
Shinji Watanabe
- Abstract要約: 従来の文献では、文脈バイアスによる単語誤り率(WER)の減少は、バイアスフレーズの数が増えるにつれて減少する。
本稿では,自動音声認識(ASR)の文脈バイアスの有効性と堅牢性を,追加パラメータを導入することなく向上させる,ガイド付き注意(GA)補助訓練損失を提案する。
- 参考スコア(独自算出の注目度): 47.74990801299927
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we propose a Guided Attention (GA) auxiliary training loss,
which improves the effectiveness and robustness of automatic speech recognition
(ASR) contextual biasing without introducing additional parameters. A common
challenge in previous literature is that the word error rate (WER) reduction
brought by contextual biasing diminishes as the number of bias phrases
increases. To address this challenge, we employ a GA loss as an additional
training objective besides the Transducer loss. The proposed GA loss aims to
teach the cross attention how to align bias phrases with text tokens or audio
frames. Compared to studies with similar motivations, the proposed loss
operates directly on the cross attention weights and is easier to implement.
Through extensive experiments based on Conformer Transducer with Contextual
Adapter, we demonstrate that the proposed method not only leads to a lower WER
but also retains its effectiveness as the number of bias phrases increases.
Specifically, the GA loss decreases the WER of rare vocabularies by up to 19.2%
on LibriSpeech compared to the contextual biasing baseline, and up to 49.3%
compared to a vanilla Transducer.
- Abstract(参考訳): 本稿では,追加パラメータを導入することなく,自動音声認識(ASR)の文脈バイアスの有効性とロバスト性を向上する,ガイド付き注意(GA)補助訓練損失を提案する。
前回の文献では、文脈バイアスによってもたらされる単語誤り率(wer)の減少は、バイアスフレーズの数が増えるにつれて減少する。
この課題に対処するため,Transducerの損失に加えて,GA損失をトレーニング目標として採用する。
提案したGA損失は、バイアスフレーズをテキストトークンやオーディオフレームに合わせる方法を教えることを目的としている。
同様のモチベーションを持つ研究と比較して、提案された損失はクロスアテンション重みに直接作用し、実装が容易である。
Conformer TransducerとContextual Adapterを併用した広範囲な実験により,提案手法がWERを低下させるだけでなく,バイアスフレーズの増加とともにその有効性も維持できることを示した。
具体的には、GA損失は、文脈バイアスベースラインと比較して、希少語彙のWERを19.2%まで減少させ、バニラトランスデューサと比較して49.3%まで減少させる。
関連論文リスト
- Contextualized End-to-end Automatic Speech Recognition with Intermediate Biasing Loss [44.94458898538114]
エンコーダ中間層における補助的なタスクとして明示的なバイアス損失を使用することで、テキストトークンやオーディオフレームを望ましい目的と整合させることができる。
提案する中間バイアス損失は,ネットワークにより規則化と文脈化をもたらす。
論文 参考訳(メタデータ) (2024-06-23T14:22:59Z) - Text Injection for Neural Contextual Biasing [57.589903308622745]
本研究では文脈テキストインジェクション(CTI)を提案する。
1000億のテキストを持つCTIは、強い神経バイアスモデルから43.3%の相対的なWER削減を達成することができる。
論文 参考訳(メタデータ) (2024-06-05T04:20:17Z) - Incorporating granularity bias as the margin into contrastive loss for
video captioning [0.0]
句の長い尾の分布は、キャプションモデルにおいて、正確な文ではなく曖昧な文を生成する傾向がある。
本稿では,統計に基づく偏差抽出器を導入し,ビデオ文対が粒度バイアスの影響を受けている可能性を推定する。
次に,比較学習損失にマージンスコアを組み込んで,頭と尾の文の訓練目標を確立する。
論文 参考訳(メタデータ) (2023-11-25T09:38:24Z) - Can Contextual Biasing Remain Effective with Whisper and GPT-2? [18.783162616664363]
本稿では,GPT-2を併用したWhisperに対する神経コンテキストバイアスの有効性について検討する。
3つのデータセットに対する実験では、1000単語の偏りリストで単語の偏りの誤差が大幅に減少している。
論文 参考訳(メタデータ) (2023-06-02T22:56:01Z) - Contextualized End-to-End Speech Recognition with Contextual Phrase
Prediction Network [14.115294331065318]
本稿では,注目に基づくディープバイアス手法のための文脈的フレーズ予測ネットワークを提案する。
このネットワークは、文脈埋め込みを用いて発話中の文脈句を予測し、バイアス損失を計算し、文脈化されたモデルの訓練を支援する。
提案手法は,様々なエンドツーエンド音声認識モデルにおいて,単語誤り率 (WER) の低減を実現した。
論文 参考訳(メタデータ) (2023-05-21T16:08:04Z) - Consistency Regularization for Adversarial Robustness [88.65786118562005]
adversarial trainingは、ディープニューラルネットワークの敵対的堅牢性を得るために最も成功した方法の1つである。
しかし、ATから得られる堅牢性の大幅な一般化ギャップは問題視されている。
本稿では,この問題に対処するためにデータ拡張手法について検討する。
論文 参考訳(メタデータ) (2021-03-08T09:21:41Z) - A Simple but Tough-to-Beat Data Augmentation Approach for Natural
Language Understanding and Generation [53.8171136907856]
カットオフと呼ばれる、シンプルで効果的なデータ拡張戦略のセットを紹介します。
カットオフはサンプリング一貫性に依存しているため、計算オーバーヘッドが少なくなる。
cutoffは、敵のトレーニングを一貫して上回り、IWSLT2014 German- English データセットで最先端の結果を達成する。
論文 参考訳(メタデータ) (2020-09-29T07:08:35Z) - PCPL: Predicate-Correlation Perception Learning for Unbiased Scene Graph
Generation [58.98802062945709]
本稿では,適切な損失重みを適応的に求めるための新しい述語相関知覚学習手法を提案する。
我々のPCPLフレームワークは、文脈特徴をよりよく抽出するグラフエンコーダモジュールも備えています。
論文 参考訳(メタデータ) (2020-09-02T08:30:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。