論文の概要: Contextualized End-to-end Automatic Speech Recognition with Intermediate Biasing Loss
- arxiv url: http://arxiv.org/abs/2406.16120v1
- Date: Sun, 23 Jun 2024 14:22:59 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-25 18:54:26.444470
- Title: Contextualized End-to-end Automatic Speech Recognition with Intermediate Biasing Loss
- Title(参考訳): 中間バイアス損失を考慮した文脈付きエンドツーエンド音声認識
- Authors: Muhammad Shakeel, Yui Sudo, Yifan Peng, Shinji Watanabe,
- Abstract要約: エンコーダ中間層における補助的なタスクとして明示的なバイアス損失を使用することで、テキストトークンやオーディオフレームを望ましい目的と整合させることができる。
提案する中間バイアス損失は,ネットワークにより規則化と文脈化をもたらす。
- 参考スコア(独自算出の注目度): 44.94458898538114
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Contextualized end-to-end automatic speech recognition has been an active research area, with recent efforts focusing on the implicit learning of contextual phrases based on the final loss objective. However, these approaches ignore the useful contextual knowledge encoded in the intermediate layers. We hypothesize that employing explicit biasing loss as an auxiliary task in the encoder intermediate layers may better align text tokens or audio frames with the desired objectives. Our proposed intermediate biasing loss brings more regularization and contextualization to the network. Our method outperforms a conventional contextual biasing baseline on the LibriSpeech corpus, achieving a relative improvement of 22.5% in biased word error rate (B-WER) and up to 44% compared to the non-contextual baseline with a biasing list size of 100. Moreover, employing RNN-transducer-driven joint decoding further reduces the unbiased word error rate (U-WER), resulting in a more robust network.
- Abstract(参考訳): 文脈的エンドツーエンドの自動音声認識は, 最終損失目標に基づく文脈的フレーズの暗黙的な学習に焦点を当てた, 活発な研究分野である。
しかし、これらのアプローチは中間層に符号化された有用な文脈知識を無視している。
我々は、エンコーダ中間層における補助的なタスクとして明示的な偏見損失を用いることで、テキストトークンやオーディオフレームを所望の目的と整合させることができると仮定する。
提案する中間バイアス損失は,ネットワークにより規則化と文脈化をもたらす。
本手法は,従来の文脈偏差ベースラインよりも優れており,バイアス付き単語誤り率(B-WER)が22.5%,非文脈偏差ベースラインが最大44%,偏差リストが100。
さらに、RNN-transducer-driven joint decodingを用いることで、未バイアスの単語誤り率(U-WER)をさらに低減し、より堅牢なネットワークを実現する。
関連論文リスト
- Improving ASR Contextual Biasing with Guided Attention [47.74990801299927]
従来の文献では、文脈バイアスによる単語誤り率(WER)の減少は、バイアスフレーズの数が増えるにつれて減少する。
本稿では,自動音声認識(ASR)の文脈バイアスの有効性と堅牢性を,追加パラメータを導入することなく向上させる,ガイド付き注意(GA)補助訓練損失を提案する。
論文 参考訳(メタデータ) (2024-01-16T21:16:12Z) - Contextualized End-to-End Speech Recognition with Contextual Phrase
Prediction Network [14.115294331065318]
本稿では,注目に基づくディープバイアス手法のための文脈的フレーズ予測ネットワークを提案する。
このネットワークは、文脈埋め込みを用いて発話中の文脈句を予測し、バイアス損失を計算し、文脈化されたモデルの訓練を支援する。
提案手法は,様々なエンドツーエンド音声認識モデルにおいて,単語誤り率 (WER) の低減を実現した。
論文 参考訳(メタデータ) (2023-05-21T16:08:04Z) - Robust Acoustic and Semantic Contextual Biasing in Neural Transducers
for Speech Recognition [14.744220870243932]
そこで本稿では,文脈バイアスを改善するために,軽量な文字表現を用いて微粒な発音特徴を符号化することを提案する。
さらに、事前学習されたニューラルネットワークモデル(NLM)をベースとしたエンコーダを統合し、発話の意味的文脈を符号化する。
Librispeechデータセット上のConformer Transducerモデルを用いた実験では、異なるバイアスリストサイズに対するWERの相対的な改善が4.62%から9.26%である。
論文 参考訳(メタデータ) (2023-05-09T08:51:44Z) - Minimising Biasing Word Errors for Contextual ASR with the
Tree-Constrained Pointer Generator [19.372248692745167]
高評価長尾語における音声認識誤りの低減には文脈知識が不可欠である。
本稿では,木制約付きポインタジェネレータ(TCPGen)コンポーネントを提案する。
論文 参考訳(メタデータ) (2022-05-18T16:40:50Z) - Speaker Embedding-aware Neural Diarization: a Novel Framework for
Overlapped Speech Diarization in the Meeting Scenario [51.5031673695118]
重なり合う音声のダイアリゼーションを単一ラベル予測問題として再構成する。
話者埋め込み認識型ニューラルダイアリゼーション(SEND)システムを提案する。
論文 参考訳(メタデータ) (2022-03-18T06:40:39Z) - Improving End-to-End Contextual Speech Recognition with Fine-grained
Contextual Knowledge Selection [21.116123328330467]
本研究は,微粒な文脈知識選択(FineCoS)による混乱問題の緩和に焦点をあてる。
まず,句候補の範囲を狭めるために句選択を適用し,選択した句候補のトークンにトークンの注意を向ける。
我々は、より焦点を絞ったフレーズレベルの文脈表現を得るために、最も関連性の高いフレーズの注意重みを再正規化する。
論文 参考訳(メタデータ) (2022-01-30T13:08:16Z) - Speaker Embedding-aware Neural Diarization for Flexible Number of
Speakers with Textual Information [55.75018546938499]
本稿では,話者埋め込み認識型ニューラルダイアリゼーション(SEND)手法を提案する。
本手法は,ターゲット話者の音声活動検出よりも低いダイアリゼーション誤差率を実現する。
論文 参考訳(メタデータ) (2021-11-28T12:51:04Z) - On Addressing Practical Challenges for RNN-Transduce [72.72132048437751]
オーディオデータを収集することなく、よく訓練されたRNN-Tモデルを新しいドメインに適応します。
復号時に計算された複数の特徴を利用して単語レベルの信頼度を求める。
提案手法では,平均で50ms以下の単語のタイミング差が得られる。
論文 参考訳(メタデータ) (2021-04-27T23:31:43Z) - Label-Synchronous Speech-to-Text Alignment for ASR Using Forward and
Backward Transformers [49.403414751667135]
本稿では,音声認識のための新しいラベル同期音声テキストアライメント手法を提案する。
提案手法はラベル同期テキストマッピング問題として音声からテキストへのアライメントを再定義する。
自発日本語コーパス(CSJ)を用いた実験により,提案手法が正確な発話方向のアライメントを提供することを示した。
論文 参考訳(メタデータ) (2021-04-21T03:05:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。