論文の概要: Zero-shot Context Biasing with Trie-based Decoding using Synthetic Multi-Pronunciation
- arxiv url: http://arxiv.org/abs/2508.17796v1
- Date: Mon, 25 Aug 2025 08:41:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-26 18:43:45.695045
- Title: Zero-shot Context Biasing with Trie-based Decoding using Synthetic Multi-Pronunciation
- Title(参考訳): 合成多重発音を用いたトリエベースデコーディングによるゼロショットコンテキストバイアス
- Authors: Changsong Liu, Yizhou Peng, Eng Siong Chng,
- Abstract要約: 合成駆動型多発音文脈バイアス法を提案する。
提案手法は,非バイアスの単語誤り率(WER)を,テストクリーンでは42%,他では43%削減し,非バイアスの単語誤り率(WER)は本質的に変化しない。
- 参考スコア(独自算出の注目度): 38.053484403802834
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Contextual automatic speech recognition (ASR) systems allow for recognizing out-of-vocabulary (OOV) words, such as named entities or rare words. However, it remains challenging due to limited training data and ambiguous or inconsistent pronunciations. In this paper, we propose a synthesis-driven multi-pronunciation contextual biasing method that performs zero-shot contextual ASR on a pretrained Whisper model. Specifically, we leverage text-to-speech (TTS) systems to synthesize diverse speech samples containing each target rare word, and then use the pretrained Whisper model to extract multiple predicted pronunciation variants. These variant token sequences are compiled into a prefix-trie, which assigns rewards to beam hypotheses in a shallow-fusion manner during beam-search decoding. After which, any recognized variant is mapped back to the original rare word in the final transcription. The evaluation results on the Librispeech dataset show that our method reduces biased word error rate (WER) by 42% on test-clean and 43% on test-other while maintaining unbiased WER essentially unchanged.
- Abstract(参考訳): 文脈自動音声認識(ASR)システムは、名前付きエンティティやまれな単語など、語彙外単語(OOV)の認識を可能にする。
しかし、限られた訓練データと曖昧または一貫性のない発音のため、依然として挑戦的である。
本稿では,事前学習したWhisperモデル上で,ゼロショットコンテキストASRを実行する合成駆動型コンテキストバイアス法を提案する。
具体的には、テキスト音声(TTS)システムを利用して、各対象単語を含む多様な音声サンプルを合成し、事前学習されたWhisperモデルを用いて複数の予測発音変種を抽出する。
これらの変種トークンシーケンスはプレフィックス・トリーにコンパイルされ、ビーム探索復号中に浅い融合方式でビーム仮説をビームする報酬を割り当てる。
その後、認識された変種は最終転写において元のレアワードにマッピングされる。
Librispeech データセットによる評価結果から,提案手法はテストクリーンでは42%,テストクリーンでは43%,非バイアスな WER は基本的に変化しないものの,バイアス付き単語誤り率 (WER) を42%削減することが示された。
関連論文リスト
- Context Biasing for Pronunciations-Orthography Mismatch in Automatic Speech Recognition [56.972851337263755]
本稿では,置換誤りの訂正を可能とし,難解な単語の認識精度を向上させる手法を提案する。
この手法により, 単語誤り率の相対的な改善を最大11%に抑えつつ, 単語誤り率の競争力を維持することができることを示す。
論文 参考訳(メタデータ) (2025-06-23T14:42:03Z) - Transcript-Prompted Whisper with Dictionary-Enhanced Decoding for Japanese Speech Annotation [4.314729314139958]
音声と韻律のラベルを与えられた音声と音声のペアにアノテートする方法を提案する。
音韻ラベリングにおける誤りの訂正に辞書事前知識を用いた復号方式を用いる。
提案手法を用いてアノテートしたラベルで訓練したTTSモデルにより合成された音声の自然性は,手動のアノテーションで訓練したモデルに匹敵することを示す。
論文 参考訳(メタデータ) (2025-06-09T11:10:24Z) - Contextualized Automatic Speech Recognition with Dynamic Vocabulary Prediction and Activation [7.455706251115513]
本稿では,動的語彙予測とアクティベーションを利用するエンコーダに基づくフレーズレベルの文脈化ASR手法を提案する。
Librispeech と Wenetspeech のデータセットの実験により、我々の手法はベースラインと比較して28.31% と 23.49% の WER の相対的な削減を実現していることが示された。
論文 参考訳(メタデータ) (2025-05-29T04:31:33Z) - Continuously Learning New Words in Automatic Speech Recognition [56.972851337263755]
音声認識のための自己教師付き連続学習手法を提案する。
文献からのメモリ拡張型ASRモデルを用いて、スライドから新しい単語を復号する。
提案手法により,新たな単語の出現頻度が高くなると,新たな単語のパフォーマンスが向上することを示す。
論文 参考訳(メタデータ) (2024-01-09T10:39:17Z) - HyPoradise: An Open Baseline for Generative Speech Recognition with
Large Language Models [81.56455625624041]
ASRの誤り訂正に外部の大規模言語モデル(LLM)を利用する最初のオープンソースベンチマークを導入する。
提案したベンチマークには、334,000組以上のN-best仮説を含む新しいデータセットHyPoradise (HP)が含まれている。
合理的なプロンプトと生成能力を持つLLMは、N-bestリストに欠けているトークンを修正できる。
論文 参考訳(メタデータ) (2023-09-27T14:44:10Z) - Robust Acoustic and Semantic Contextual Biasing in Neural Transducers
for Speech Recognition [14.744220870243932]
そこで本稿では,文脈バイアスを改善するために,軽量な文字表現を用いて微粒な発音特徴を符号化することを提案する。
さらに、事前学習されたニューラルネットワークモデル(NLM)をベースとしたエンコーダを統合し、発話の意味的文脈を符号化する。
Librispeechデータセット上のConformer Transducerモデルを用いた実験では、異なるバイアスリストサイズに対するWERの相対的な改善が4.62%から9.26%である。
論文 参考訳(メタデータ) (2023-05-09T08:51:44Z) - Improving Contextual Recognition of Rare Words with an Alternate
Spelling Prediction Model [0.0]
Earnings21データセットに付随するコンテキストバイアスリストをリリースします。
2つの異なる復号アルゴリズムに適用した浅層融合文脈偏差の計算結果を示す。
稀な単語のリコールを34.7%改善するスペル予測モデルを提案する。
論文 参考訳(メタデータ) (2022-09-02T19:30:16Z) - Class LM and word mapping for contextual biasing in End-to-End ASR [4.989480853499918]
近年、オールニューラル・エンド・ツー・エンド(E2E)ASRシステムは音声認識コミュニティに急速に関心を寄せている。
本稿では,コンテキスト認識型E2Eモデルの学習アルゴリズムを提案する。
E2Eモデルは発音辞書を必要としないが、既存の発音知識を利用して精度を向上させることは興味深い。
論文 参考訳(メタデータ) (2020-07-10T20:58:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。