論文の概要: Contextualized Automatic Speech Recognition with Dynamic Vocabulary Prediction and Activation
- arxiv url: http://arxiv.org/abs/2505.23077v1
- Date: Thu, 29 May 2025 04:31:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-01 15:33:20.158242
- Title: Contextualized Automatic Speech Recognition with Dynamic Vocabulary Prediction and Activation
- Title(参考訳): 動的語彙予測とアクティベーションを用いた文脈自動音声認識
- Authors: Zhennan Lin, Kaixun Huang, Wei Ren, Linju Yang, Lei Xie,
- Abstract要約: 本稿では,動的語彙予測とアクティベーションを利用するエンコーダに基づくフレーズレベルの文脈化ASR手法を提案する。
Librispeech と Wenetspeech のデータセットの実験により、我々の手法はベースラインと比較して28.31% と 23.49% の WER の相対的な削減を実現していることが示された。
- 参考スコア(独自算出の注目度): 7.455706251115513
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Deep biasing improves automatic speech recognition (ASR) performance by incorporating contextual phrases. However, most existing methods enhance subwords in a contextual phrase as independent units, potentially compromising contextual phrase integrity, leading to accuracy reduction. In this paper, we propose an encoder-based phrase-level contextualized ASR method that leverages dynamic vocabulary prediction and activation. We introduce architectural optimizations and integrate a bias loss to extend phrase-level predictions based on frame-level outputs. We also introduce a confidence-activated decoding method that ensures the complete output of contextual phrases while suppressing incorrect bias. Experiments on Librispeech and Wenetspeech datasets demonstrate that our approach achieves relative WER reductions of 28.31% and 23.49% compared to baseline, with the WER on contextual phrases decreasing relatively by 72.04% and 75.69%.
- Abstract(参考訳): ディープバイアスは文脈的フレーズを組み込んだ自動音声認識(ASR)の性能を向上させる。
しかし、既存のほとんどの手法は、文脈的フレーズのサブワードを独立した単位として拡張し、文脈的フレーズの完全性を損なう可能性があり、精度が低下する。
本稿では,動的語彙予測とアクティベーションを利用したエンコーダに基づくフレーズレベルの文脈化ASR手法を提案する。
アーキテクチャ最適化を導入し、フレームレベルの出力に基づいたフレーズレベルの予測を拡張するためにバイアス損失を統合する。
また,不正確なバイアスを抑えつつ,文脈語句の完全出力を保証する信頼活性化復号法も導入する。
Librispeech と Wenetspeech のデータセットの実験により、我々の手法はベースラインに比べて28.31% と 23.49% の WER の相対的な削減を実現しており、WER の文脈的フレーズは72.04% と 75.69% に減少している。
関連論文リスト
- Contextualized End-to-end Automatic Speech Recognition with Intermediate Biasing Loss [44.94458898538114]
エンコーダ中間層における補助的なタスクとして明示的なバイアス損失を使用することで、テキストトークンやオーディオフレームを望ましい目的と整合させることができる。
提案する中間バイアス損失は,ネットワークにより規則化と文脈化をもたらす。
論文 参考訳(メタデータ) (2024-06-23T14:22:59Z) - Text Injection for Neural Contextual Biasing [57.589903308622745]
本研究では文脈テキストインジェクション(CTI)を提案する。
1000億のテキストを持つCTIは、強い神経バイアスモデルから43.3%の相対的なWER削減を達成することができる。
論文 参考訳(メタデータ) (2024-06-05T04:20:17Z) - Contextualized End-to-End Speech Recognition with Contextual Phrase
Prediction Network [14.115294331065318]
本稿では,注目に基づくディープバイアス手法のための文脈的フレーズ予測ネットワークを提案する。
このネットワークは、文脈埋め込みを用いて発話中の文脈句を予測し、バイアス損失を計算し、文脈化されたモデルの訓練を支援する。
提案手法は,様々なエンドツーエンド音声認識モデルにおいて,単語誤り率 (WER) の低減を実現した。
論文 参考訳(メタデータ) (2023-05-21T16:08:04Z) - Speaker Embedding-aware Neural Diarization for Flexible Number of
Speakers with Textual Information [55.75018546938499]
本稿では,話者埋め込み認識型ニューラルダイアリゼーション(SEND)手法を提案する。
本手法は,ターゲット話者の音声活動検出よりも低いダイアリゼーション誤差率を実現する。
論文 参考訳(メタデータ) (2021-11-28T12:51:04Z) - Label-Synchronous Speech-to-Text Alignment for ASR Using Forward and
Backward Transformers [49.403414751667135]
本稿では,音声認識のための新しいラベル同期音声テキストアライメント手法を提案する。
提案手法はラベル同期テキストマッピング問題として音声からテキストへのアライメントを再定義する。
自発日本語コーパス(CSJ)を用いた実験により,提案手法が正確な発話方向のアライメントを提供することを示した。
論文 参考訳(メタデータ) (2021-04-21T03:05:12Z) - Dynamic Acoustic Unit Augmentation With BPE-Dropout for Low-Resource
End-to-End Speech Recognition [62.94773371761236]
我々は、OOVレートの高い低リソースセットアップで効果的なエンドツーエンドASRシステムを構築することを検討します。
本稿では,BPE-dropout法に基づく動的音響ユニット拡張法を提案する。
我々の単言語トルココンフォーマーは22.2%の文字誤り率(CER)と38.9%の単語誤り率(WER)の競争結果を確立した。
論文 参考訳(メタデータ) (2021-03-12T10:10:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。