論文の概要: Context Biasing for Pronunciations-Orthography Mismatch in Automatic Speech Recognition
- arxiv url: http://arxiv.org/abs/2506.18703v1
- Date: Mon, 23 Jun 2025 14:42:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-24 19:06:37.030413
- Title: Context Biasing for Pronunciations-Orthography Mismatch in Automatic Speech Recognition
- Title(参考訳): 音声認識における発音・オーソグラフィミスマッチの文脈バイアス
- Authors: Christian Huber, Alexander Waibel,
- Abstract要約: 本稿では,置換誤りの訂正を可能とし,難解な単語の認識精度を向上させる手法を提案する。
この手法により, 単語誤り率の相対的な改善を最大11%に抑えつつ, 単語誤り率の競争力を維持することができることを示す。
- 参考スコア(独自算出の注目度): 56.972851337263755
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Neural sequence-to-sequence systems deliver state-of-the-art performance for automatic speech recognition. When using appropriate modeling units, e.g., byte-pair encoded characters, these systems are in principal open vocabulary systems. In practice, however, they often fail to recognize words not seen during training, e.g., named entities, acronyms, or domain-specific special words. To address this problem, many context biasing methods have been proposed; however, for words with a pronunciation-orthography mismatch, these methods may still struggle. We propose a method which allows corrections of substitution errors to improve the recognition accuracy of such challenging words. Users can add corrections on the fly during inference. We show that with this method we get a relative improvement in biased word error rate of up to 11\%, while maintaining a competitive overall word error rate.
- Abstract(参考訳): ニューラルシークエンス・ツー・シーケンスシステムは、音声認識のための最先端のパフォーマンスを提供する。
適切なモデリング単位、例えばバイトペアエンコード文字を使用する場合、これらのシステムは主要なオープン語彙システムである。
しかし実際には、訓練中に見られない単語、例えば名前付きエンティティ、頭字語、ドメイン固有の特別な単語を認識できないことが多い。
この問題に対処するために、多くの文脈偏見法が提案されているが、発音・オーソグラフィのミスマッチを持つ単語の場合、これらの手法はいまだに困難である。
本稿では,置換誤りの訂正を可能とし,このような難解な単語の認識精度を向上させる手法を提案する。
ユーザーは推論中に修正を加えることができる。
本手法により, 単語誤り率の相対的改善を最大11倍まで達成し, 単語誤り率の競争性を維持した。
関連論文リスト
- WCTC-Biasing: Retraining-free Contextual Biasing ASR with Wildcard CTC-based Keyword Spotting and Inter-layer Biasing [5.50485371072671]
そこで本研究では,CTCに基づくモデルにおけるレアワードの認識精度を,追加の訓練やテキスト音声システムなしで向上させる手法を提案する。
キーワード検出には,高速かつ不明瞭な一致に寛容なワイルドカードCTCを採用する。
日本語音声認識の実験では,未知語に対するF1スコアが29%向上した。
論文 参考訳(メタデータ) (2025-06-02T02:30:26Z) - Contextualized Automatic Speech Recognition with Attention-Based Bias
Phrase Boosted Beam Search [44.94458898538114]
本稿では、編集可能なフレーズリストを用いてカスタマイズ可能な、注意に基づくコンテキストバイアス手法を提案する。
提案手法は、入力音声データ中のバイアスフレーズを検出するために、バイアスフレーズインデックス損失と特別なトークンを組み合わせることで効果的に訓練することができる。
論文 参考訳(メタデータ) (2024-01-19T01:36:07Z) - Continuously Learning New Words in Automatic Speech Recognition [56.972851337263755]
音声認識のための自己教師付き連続学習手法を提案する。
文献からのメモリ拡張型ASRモデルを用いて、スライドから新しい単語を復号する。
提案手法により,新たな単語の出現頻度が高くなると,新たな単語のパフォーマンスが向上することを示す。
論文 参考訳(メタデータ) (2024-01-09T10:39:17Z) - Short-Term Word-Learning in a Dynamically Changing Environment [63.025297637716534]
本稿では、単語/フレーズメモリと、このメモリにアクセスして単語やフレーズを正しく認識するためのメカニズムを用いて、エンドツーエンドのASRシステムを補完する方法を示す。
誤報がわずかに増加しただけで, 単語の検出速度が大幅に向上した。
論文 参考訳(メタデータ) (2022-03-29T10:05:39Z) - Instant One-Shot Word-Learning for Context-Specific Neural
Sequence-to-Sequence Speech Recognition [62.997667081978825]
本稿では、単語/フレーズメモリと、このメモリにアクセスして単語やフレーズを正しく認識する機構を備えたエンドツーエンドのASRシステムを提案する。
本稿では,この機構により,これまで認識できなかった単語の85%以上を認識できることを示す。
論文 参考訳(メタデータ) (2021-07-05T21:08:34Z) - Fast and Robust Unsupervised Contextual Biasing for Speech Recognition [16.557586847398778]
明示的な文脈言語モデルを必要としない代替手法を提案する。
学習コーパスからシステム語彙の各単語に対するバイアススコアを導出する。
関連するコンテキストが利用できる場合,認識精度が大幅に向上することを示す。
論文 参考訳(メタデータ) (2020-05-04T17:29:59Z) - Techniques for Vocabulary Expansion in Hybrid Speech Recognition Systems [54.49880724137688]
語彙外単語(OOV)の問題は、音声認識システムにおいて典型的である。
OOVをカバーするための一般的なアプローチの1つは、単語ではなくサブワード単位を使用することである。
本稿では,グラフ構築法と探索法の両方のレベルで,この解の既存手法について検討する。
論文 参考訳(メタデータ) (2020-03-19T21:24:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。