論文の概要: Efficient Trie-based Biasing using K-step Prediction for Rare Word Recognition
- arxiv url: http://arxiv.org/abs/2509.09196v1
- Date: Thu, 11 Sep 2025 07:11:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-12 16:52:24.259024
- Title: Efficient Trie-based Biasing using K-step Prediction for Rare Word Recognition
- Title(参考訳): 単語認識のためのKステップ予測を用いた効率的な試行ベースのバイザリング
- Authors: Chin Yuen Kwok, Jia Qi yip,
- Abstract要約: 一般的なアプローチは、部分仮説に「結合スコア」を与えるトリーベースの偏見である。
我々は、ASRモデルに前向きに適応し、同時に複数のステップを予測することを提案する。
これにより、部分仮説が完全なまれな単語の生成につながるかどうかをより正確に推定することで、取り消しのステップを完全に回避できる。
- 参考スコア(独自算出の注目度): 7.165585508923673
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Contextual biasing improves rare word recognition of ASR models by prioritizing the output of rare words during decoding. A common approach is Trie-based biasing, which gives "bonus scores" to partial hypothesis (e.g. "Bon") that may lead to the generation of the rare word (e.g. "Bonham"). If the full word ("Bonham") isn't ultimately recognized, the system revokes those earlier bonuses. This revocation is limited to beam search and is computationally expensive, particularly for models with large decoders. To overcome these limitations, we propose adapting ASR models to look ahead and predict multiple steps at once. This avoids the revocation step entirely by better estimating whether a partial hypothesis will lead to the generation of the full rare word. By fine-tuning Whisper with only 10 hours of synthetic data, our method reduces the word error rate on the NSC Part 2 test set from 30.86% to 12.19%.
- Abstract(参考訳): 文脈バイアスは、復号中に稀な単語の出力を優先順位付けすることで、ASRモデルの稀な単語認識を改善する。
一般的なアプローチは、トリエに基づく偏見(英語版)であり、これは部分仮説(例えば「ボン」)に「結合スコア」を与え、まれな単語(例えば「ボンハム」)の生成につながる可能性がある。
Bonham"という単語が最終的に認識されない場合、システムは以前のボーナスを無効にします。
この取り消しはビームサーチに限られており、特に大きなデコーダを持つモデルでは計算コストがかかる。
これらの制限を克服するため、我々はASRモデルを前向きに検討し、同時に複数のステップを予測することを提案する。
これにより、部分仮説が完全なまれな単語の生成につながるかどうかをより正確に推定することで、取り消しのステップを完全に回避できる。
合成データ10時間分のWhisperを微調整することにより,NSC Part 2テストの単語誤り率を30.86%から12.19%に削減する。
関連論文リスト
- Improving Synthetic Data Training for Contextual Biasing Models with a Keyword-Aware Cost Function [39.43946600820569]
そこで本研究では,モジュールの学習において,偏りのある単語に着目したキーワード認識損失関数を提案する。
合成データ10時間にWhisperを適用することにより, NSC Part 2テストの単語誤り率を29.71%から11.81%に削減した。
論文 参考訳(メタデータ) (2025-09-11T07:12:17Z) - Zero-shot Context Biasing with Trie-based Decoding using Synthetic Multi-Pronunciation [38.053484403802834]
合成駆動型多発音文脈バイアス法を提案する。
本手法は,非バイアスワード誤り率(B-WER)をテストクリーンで43%,他で44%削減し,非バイアスワードエラー率(U-WER)は基本的に変化しない。
論文 参考訳(メタデータ) (2025-08-25T08:41:52Z) - Continuously Learning New Words in Automatic Speech Recognition [56.972851337263755]
音声認識のための自己教師付き連続学習手法を提案する。
文献からのメモリ拡張型ASRモデルを用いて、スライドから新しい単語を復号する。
提案手法により,新たな単語の出現頻度が高くなると,新たな単語のパフォーマンスが向上することを示す。
論文 参考訳(メタデータ) (2024-01-09T10:39:17Z) - HyPoradise: An Open Baseline for Generative Speech Recognition with
Large Language Models [81.56455625624041]
ASRの誤り訂正に外部の大規模言語モデル(LLM)を利用する最初のオープンソースベンチマークを導入する。
提案したベンチマークには、334,000組以上のN-best仮説を含む新しいデータセットHyPoradise (HP)が含まれている。
合理的なプロンプトと生成能力を持つLLMは、N-bestリストに欠けているトークンを修正できる。
論文 参考訳(メタデータ) (2023-09-27T14:44:10Z) - SpellMapper: A non-autoregressive neural spellchecker for ASR
customization with candidate retrieval based on n-gram mappings [76.87664008338317]
文脈スペル補正モデルは、音声認識を改善するために浅い融合に代わるものである。
ミススペルn-gramマッピングに基づく候補探索のための新しいアルゴリズムを提案する。
Spoken Wikipediaの実験では、ベースラインのASRシステムに比べて21.4%のワードエラー率の改善が見られた。
論文 参考訳(メタデータ) (2023-06-04T10:00:12Z) - Improving Contextual Recognition of Rare Words with an Alternate
Spelling Prediction Model [0.0]
Earnings21データセットに付随するコンテキストバイアスリストをリリースします。
2つの異なる復号アルゴリズムに適用した浅層融合文脈偏差の計算結果を示す。
稀な単語のリコールを34.7%改善するスペル予測モデルを提案する。
論文 参考訳(メタデータ) (2022-09-02T19:30:16Z) - End-to-end contextual asr based on posterior distribution adaptation for
hybrid ctc/attention system [61.148549738631814]
エンドツーエンド(E2E)音声認識アーキテクチャは、従来の音声認識システムのすべてのコンポーネントを単一のモデルに組み立てる。
これはASRシステムを単純化するが、文脈的ASRの欠点を導入している: E2Eモデルは、頻繁な固有名詞を含む発話に対して、より悪い性能を持つ。
本稿では,文脈的単語認識能力を向上させるために,文脈バイアスアテンション(CBA)モジュールをアテンションベースエンコーダデコーダ(AED)モデルに追加することを提案する。
論文 参考訳(メタデータ) (2022-02-18T03:26:02Z) - Less Is More: Improved RNN-T Decoding Using Limited Label Context and
Path Merging [43.388004364072174]
本稿では,ラベルコンテキストの量がモデルの精度に及ぼす影響と復号処理の効率に与える影響について検討する。
我々は、全文ベースラインと比較して単語誤り率(WER)を低下させることなく、トレーニング中の繰り返しニューラルネットワークトランスデューサ(RNN-T)のコンテキストを従来の4つの単語ピースラベルに制限できることを見出しました。
論文 参考訳(メタデータ) (2020-12-12T07:39:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。