論文の概要: Robust Acoustic and Semantic Contextual Biasing in Neural Transducers
for Speech Recognition
- arxiv url: http://arxiv.org/abs/2305.05271v1
- Date: Tue, 9 May 2023 08:51:44 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-10 13:16:34.572747
- Title: Robust Acoustic and Semantic Contextual Biasing in Neural Transducers
for Speech Recognition
- Title(参考訳): 音声認識のためのニューラルトランスデューサにおけるロバスト音響・意味的文脈バイアス
- Authors: Xuandi Fu, Kanthashree Mysore Sathyendra, Ankur Gandhe, Jing Liu,
Grant P. Strimel, Ross McGowan, Athanasios Mouchtaris
- Abstract要約: そこで本稿では,文脈バイアスを改善するために,軽量な文字表現を用いて微粒な発音特徴を符号化することを提案する。
さらに、事前学習されたニューラルネットワークモデル(NLM)をベースとしたエンコーダを統合し、発話の意味的文脈を符号化する。
Librispeechデータセット上のConformer Transducerモデルを用いた実験では、異なるバイアスリストサイズに対するWERの相対的な改善が4.62%から9.26%である。
- 参考スコア(独自算出の注目度): 14.744220870243932
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Attention-based contextual biasing approaches have shown significant
improvements in the recognition of generic and/or personal rare-words in
End-to-End Automatic Speech Recognition (E2E ASR) systems like neural
transducers. These approaches employ cross-attention to bias the model towards
specific contextual entities injected as bias-phrases to the model. Prior
approaches typically relied on subword encoders for encoding the bias phrases.
However, subword tokenizations are coarse and fail to capture granular
pronunciation information which is crucial for biasing based on acoustic
similarity. In this work, we propose to use lightweight character
representations to encode fine-grained pronunciation features to improve
contextual biasing guided by acoustic similarity between the audio and the
contextual entities (termed acoustic biasing). We further integrate pretrained
neural language model (NLM) based encoders to encode the utterance's semantic
context along with contextual entities to perform biasing informed by the
utterance's semantic context (termed semantic biasing). Experiments using a
Conformer Transducer model on the Librispeech dataset show a 4.62% - 9.26%
relative WER improvement on different biasing list sizes over the baseline
contextual model when incorporating our proposed acoustic and semantic biasing
approach. On a large-scale in-house dataset, we observe 7.91% relative WER
improvement compared to our baseline model. On tail utterances, the
improvements are even more pronounced with 36.80% and 23.40% relative WER
improvements on Librispeech rare words and an in-house testset respectively.
- Abstract(参考訳): 注意に基づく文脈バイアスアプローチは、ニューラルトランスデューサのようなエンドツーエンド自動音声認識(e2e asr)システムにおいて、ジェネリックおよび/またはパーソナルレアワードの認識において著しく改善している。
これらのアプローチは、モデルにバイアス・フレーズとして注入される特定の文脈エンティティに対してモデルをバイアスするためにクロス・アテンションを用いる。
それまでのアプローチは、バイアスフレーズをエンコードするサブワードエンコーダに頼っていた。
しかし、サブワードのトークン化は粗く、音響的類似性に基づいてバイアス付けに不可欠である粒度の発音情報を捕捉できない。
本研究では,音声と文脈要素の音響的類似性(音響バイアス)に導かれる文脈バイアスを改善するために,軽量な文字表現を用いた発音特徴の符号化を提案する。
さらに、事前学習されたニューラルネットワークモデル(NLM)に基づくエンコーダを統合し、発話の意味的コンテキストと文脈的エンティティをエンコードし、発話の意味的コンテキスト(終端的意味的バイアス)によって通知されるバイアスを実行する。
librispeechデータセット上のコンフォーメータトランスデューサモデルを用いた実験では、提案する音響的・意味的バイアス手法を組み込んだ場合、ベースライン文脈モデルに対する異なるバイアスリストサイズに対する4.62% - 9.26%の相対 wer改善を示す。
大規模社内データセットでは,ベースラインモデルと比較して7.91%のwar改善が見られた。
末尾の発話では、それぞれ36.80%と23.40%がリブリスピーチのレアワードと社内テストセットに対して改善されている。
関連論文リスト
- Contextual Biasing to Improve Domain-specific Custom Vocabulary Audio Transcription without Explicit Fine-Tuning of Whisper Model [0.0]
OpenAIのWhisper Automated Speech Recognitionモデルでは、さまざまなデータセットやドメインをまたいだ一般化が優れている。
モデルパラメータを明示的に微調整したり変更したりすることなく、転写精度を向上させる手法を提案する。
論文 参考訳(メタデータ) (2024-10-24T01:58:11Z) - Improving Neural Biasing for Contextual Speech Recognition by Early Context Injection and Text Perturbation [27.057810339120664]
文脈認識型ASRモデルを改善するための2つの手法を提案する。
LibriSpeechでは, バイアスや浅い融合に比べて, 単語誤り率を60%, 25%削減する。
SPGISpeechと実世界のデータセットConECでは、ベースラインよりも優れた改善が得られます。
論文 参考訳(メタデータ) (2024-07-14T19:32:33Z) - HyPoradise: An Open Baseline for Generative Speech Recognition with
Large Language Models [81.56455625624041]
ASRの誤り訂正に外部の大規模言語モデル(LLM)を利用する最初のオープンソースベンチマークを導入する。
提案したベンチマークには、334,000組以上のN-best仮説を含む新しいデータセットHyPoradise (HP)が含まれている。
合理的なプロンプトと生成能力を持つLLMは、N-bestリストに欠けているトークンを修正できる。
論文 参考訳(メタデータ) (2023-09-27T14:44:10Z) - Adaptive Contextual Biasing for Transducer Based Streaming Speech
Recognition [21.90433428015086]
ディープバイアス法は、パーソナライズされた単語の音声認識のための有望な解決策として現れました。
現実の音声アシスタントでは、予測スコアの高い単語に常に偏りがあるため、一般的な単語を認識する性能は著しく低下する。
適応型文脈バイアスに基づく文脈認識変換器 (CATT) を提案し, バイアス付きエンコーダと予測器を用いて文脈句発生のストリーミング予測を行う。
論文 参考訳(メタデータ) (2023-06-01T15:33:30Z) - CB-Conformer: Contextual biasing Conformer for biased word recognition [33.28780163232423]
本稿では,Vanilla ConformerにContextual Biasing ModuleとSelf-Adaptive Language Modelを導入する。
提案手法は,文字誤り率を15.34%削減し,14.13%の単語リコール,6.80%の単語F1スコアアップを実現した。
論文 参考訳(メタデータ) (2023-04-19T12:26:04Z) - Speaker Embedding-aware Neural Diarization: a Novel Framework for
Overlapped Speech Diarization in the Meeting Scenario [51.5031673695118]
重なり合う音声のダイアリゼーションを単一ラベル予測問題として再構成する。
話者埋め込み認識型ニューラルダイアリゼーション(SEND)システムを提案する。
論文 参考訳(メタデータ) (2022-03-18T06:40:39Z) - End-to-end contextual asr based on posterior distribution adaptation for
hybrid ctc/attention system [61.148549738631814]
エンドツーエンド(E2E)音声認識アーキテクチャは、従来の音声認識システムのすべてのコンポーネントを単一のモデルに組み立てる。
これはASRシステムを単純化するが、文脈的ASRの欠点を導入している: E2Eモデルは、頻繁な固有名詞を含む発話に対して、より悪い性能を持つ。
本稿では,文脈的単語認識能力を向上させるために,文脈バイアスアテンション(CBA)モジュールをアテンションベースエンコーダデコーダ(AED)モデルに追加することを提案する。
論文 参考訳(メタデータ) (2022-02-18T03:26:02Z) - Speaker Embedding-aware Neural Diarization for Flexible Number of
Speakers with Textual Information [55.75018546938499]
本稿では,話者埋め込み認識型ニューラルダイアリゼーション(SEND)手法を提案する。
本手法は,ターゲット話者の音声活動検出よりも低いダイアリゼーション誤差率を実現する。
論文 参考訳(メタデータ) (2021-11-28T12:51:04Z) - Wav2vec-Switch: Contrastive Learning from Original-noisy Speech Pairs
for Robust Speech Recognition [52.71604809100364]
音声の文脈化表現に雑音のロバスト性をエンコードするwav2vec-Switchを提案する。
具体的には、オリジナルノイズの多い音声ペアを同時にwav2vec 2.0ネットワークに供給する。
既存のコントラスト学習タスクに加えて、原音声と雑音音声の量子化表現を追加の予測対象に切り替える。
論文 参考訳(メタデータ) (2021-10-11T00:08:48Z) - Label-Synchronous Speech-to-Text Alignment for ASR Using Forward and
Backward Transformers [49.403414751667135]
本稿では,音声認識のための新しいラベル同期音声テキストアライメント手法を提案する。
提案手法はラベル同期テキストマッピング問題として音声からテキストへのアライメントを再定義する。
自発日本語コーパス(CSJ)を用いた実験により,提案手法が正確な発話方向のアライメントを提供することを示した。
論文 参考訳(メタデータ) (2021-04-21T03:05:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。