論文の概要: Contextualized Automatic Speech Recognition with Dynamic Vocabulary Prediction and Activation
- arxiv url: http://arxiv.org/abs/2505.23077v1
- Date: Thu, 29 May 2025 04:31:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-01 15:33:20.158242
- Title: Contextualized Automatic Speech Recognition with Dynamic Vocabulary Prediction and Activation
- Title(参考訳): 動的語彙予測とアクティベーションを用いた文脈自動音声認識
- Authors: Zhennan Lin, Kaixun Huang, Wei Ren, Linju Yang, Lei Xie,
- Abstract要約: 本稿では,動的語彙予測とアクティベーションを利用するエンコーダに基づくフレーズレベルの文脈化ASR手法を提案する。
Librispeech と Wenetspeech のデータセットの実験により、我々の手法はベースラインと比較して28.31% と 23.49% の WER の相対的な削減を実現していることが示された。
- 参考スコア(独自算出の注目度): 7.455706251115513
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Deep biasing improves automatic speech recognition (ASR) performance by incorporating contextual phrases. However, most existing methods enhance subwords in a contextual phrase as independent units, potentially compromising contextual phrase integrity, leading to accuracy reduction. In this paper, we propose an encoder-based phrase-level contextualized ASR method that leverages dynamic vocabulary prediction and activation. We introduce architectural optimizations and integrate a bias loss to extend phrase-level predictions based on frame-level outputs. We also introduce a confidence-activated decoding method that ensures the complete output of contextual phrases while suppressing incorrect bias. Experiments on Librispeech and Wenetspeech datasets demonstrate that our approach achieves relative WER reductions of 28.31% and 23.49% compared to baseline, with the WER on contextual phrases decreasing relatively by 72.04% and 75.69%.
- Abstract(参考訳): ディープバイアスは文脈的フレーズを組み込んだ自動音声認識(ASR)の性能を向上させる。
しかし、既存のほとんどの手法は、文脈的フレーズのサブワードを独立した単位として拡張し、文脈的フレーズの完全性を損なう可能性があり、精度が低下する。
本稿では,動的語彙予測とアクティベーションを利用したエンコーダに基づくフレーズレベルの文脈化ASR手法を提案する。
アーキテクチャ最適化を導入し、フレームレベルの出力に基づいたフレーズレベルの予測を拡張するためにバイアス損失を統合する。
また,不正確なバイアスを抑えつつ,文脈語句の完全出力を保証する信頼活性化復号法も導入する。
Librispeech と Wenetspeech のデータセットの実験により、我々の手法はベースラインに比べて28.31% と 23.49% の WER の相対的な削減を実現しており、WER の文脈的フレーズは72.04% と 75.69% に減少している。
関連論文リスト
- Contextualized End-to-end Automatic Speech Recognition with Intermediate Biasing Loss [44.94458898538114]
エンコーダ中間層における補助的なタスクとして明示的なバイアス損失を使用することで、テキストトークンやオーディオフレームを望ましい目的と整合させることができる。
提案する中間バイアス損失は,ネットワークにより規則化と文脈化をもたらす。
論文 参考訳(メタデータ) (2024-06-23T14:22:59Z) - Towards Unsupervised Speech Recognition Without Pronunciation Models [57.222729245842054]
本稿では,ペア音声とテキストコーパスを使わずにASRシステムを開発するという課題に取り組む。
音声合成とテキスト・テキスト・マスクによるトークン埋込から教師なし音声認識が実現可能であることを実験的に実証した。
この革新的なモデルは、レキシコンフリー環境下での以前の教師なしASRモデルの性能を上回る。
論文 参考訳(メタデータ) (2024-06-12T16:30:58Z) - Text Injection for Neural Contextual Biasing [57.589903308622745]
本研究では文脈テキストインジェクション(CTI)を提案する。
1000億のテキストを持つCTIは、強い神経バイアスモデルから43.3%の相対的なWER削減を達成することができる。
論文 参考訳(メタデータ) (2024-06-05T04:20:17Z) - Contextualized Automatic Speech Recognition with Attention-Based Bias
Phrase Boosted Beam Search [44.94458898538114]
本稿では、編集可能なフレーズリストを用いてカスタマイズ可能な、注意に基づくコンテキストバイアス手法を提案する。
提案手法は、入力音声データ中のバイアスフレーズを検出するために、バイアスフレーズインデックス損失と特別なトークンを組み合わせることで効果的に訓練することができる。
論文 参考訳(メタデータ) (2024-01-19T01:36:07Z) - Adaptive Contextual Biasing for Transducer Based Streaming Speech
Recognition [21.90433428015086]
ディープバイアス法は、パーソナライズされた単語の音声認識のための有望な解決策として現れました。
現実の音声アシスタントでは、予測スコアの高い単語に常に偏りがあるため、一般的な単語を認識する性能は著しく低下する。
適応型文脈バイアスに基づく文脈認識変換器 (CATT) を提案し, バイアス付きエンコーダと予測器を用いて文脈句発生のストリーミング予測を行う。
論文 参考訳(メタデータ) (2023-06-01T15:33:30Z) - Contextualized End-to-End Speech Recognition with Contextual Phrase
Prediction Network [14.115294331065318]
本稿では,注目に基づくディープバイアス手法のための文脈的フレーズ予測ネットワークを提案する。
このネットワークは、文脈埋め込みを用いて発話中の文脈句を予測し、バイアス損失を計算し、文脈化されたモデルの訓練を支援する。
提案手法は,様々なエンドツーエンド音声認識モデルにおいて,単語誤り率 (WER) の低減を実現した。
論文 参考訳(メタデータ) (2023-05-21T16:08:04Z) - Robust Acoustic and Semantic Contextual Biasing in Neural Transducers
for Speech Recognition [14.744220870243932]
そこで本稿では,文脈バイアスを改善するために,軽量な文字表現を用いて微粒な発音特徴を符号化することを提案する。
さらに、事前学習されたニューラルネットワークモデル(NLM)をベースとしたエンコーダを統合し、発話の意味的文脈を符号化する。
Librispeechデータセット上のConformer Transducerモデルを用いた実験では、異なるバイアスリストサイズに対するWERの相対的な改善が4.62%から9.26%である。
論文 参考訳(メタデータ) (2023-05-09T08:51:44Z) - Speaker Embedding-aware Neural Diarization for Flexible Number of
Speakers with Textual Information [55.75018546938499]
本稿では,話者埋め込み認識型ニューラルダイアリゼーション(SEND)手法を提案する。
本手法は,ターゲット話者の音声活動検出よりも低いダイアリゼーション誤差率を実現する。
論文 参考訳(メタデータ) (2021-11-28T12:51:04Z) - Label-Synchronous Speech-to-Text Alignment for ASR Using Forward and
Backward Transformers [49.403414751667135]
本稿では,音声認識のための新しいラベル同期音声テキストアライメント手法を提案する。
提案手法はラベル同期テキストマッピング問題として音声からテキストへのアライメントを再定義する。
自発日本語コーパス(CSJ)を用いた実験により,提案手法が正確な発話方向のアライメントを提供することを示した。
論文 参考訳(メタデータ) (2021-04-21T03:05:12Z) - Dynamic Acoustic Unit Augmentation With BPE-Dropout for Low-Resource
End-to-End Speech Recognition [62.94773371761236]
我々は、OOVレートの高い低リソースセットアップで効果的なエンドツーエンドASRシステムを構築することを検討します。
本稿では,BPE-dropout法に基づく動的音響ユニット拡張法を提案する。
我々の単言語トルココンフォーマーは22.2%の文字誤り率(CER)と38.9%の単語誤り率(WER)の競争結果を確立した。
論文 参考訳(メタデータ) (2021-03-12T10:10:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。