論文の概要: Improving Synthetic Data Training for Contextual Biasing Models with a Keyword-Aware Cost Function
- arxiv url: http://arxiv.org/abs/2509.09197v1
- Date: Thu, 11 Sep 2025 07:12:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-12 16:52:24.260047
- Title: Improving Synthetic Data Training for Contextual Biasing Models with a Keyword-Aware Cost Function
- Title(参考訳): キーワード認識コスト関数を用いたコンテキストバイアスモデルのための合成データトレーニングの改善
- Authors: Chin Yuen Kwok, Jia Qi Yip, Eng Siong Chng,
- Abstract要約: そこで本研究では,モジュールの学習において,偏りのある単語に着目したキーワード認識損失関数を提案する。
合成データ10時間にWhisperを適用することにより, NSC Part 2テストの単語誤り率を29.71%から11.81%に削減した。
- 参考スコア(独自算出の注目度): 39.43946600820569
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Rare word recognition can be improved by adapting ASR models to synthetic data that includes these words. Further improvements can be achieved through contextual biasing, which trains and adds a biasing module into the model architecture to prioritize rare words. While training the module on synthetic rare word data is more effective than using non-rare-word data, it can lead to overfitting due to artifacts in the synthetic audio. To address this, we enhance the TCPGen-based contextual biasing approach and propose a keyword-aware loss function that additionally focuses on biased words when training biasing modules. This loss includes a masked cross-entropy term for biased word prediction and a binary classification term for detecting biased word positions. These two terms complementarily support the decoding of biased words during inference. By adapting Whisper to 10 hours of synthetic data, our method reduced the word error rate on the NSC Part 2 test set from 29.71% to 11.81%.
- Abstract(参考訳): これらの単語を含む合成データにASRモデルを適用することで、希少な単語認識を改善することができる。
これにより、稀な単語を優先順位付けするためにモデルアーキテクチャにバイアスモジュールをトレーニングし、追加することで、さらなる改善が達成できる。
合成レアワードデータを用いたモジュールのトレーニングは、非レアワードデータよりも効果的であるが、合成オーディオのアーティファクトによる過度な適合につながる可能性がある。
そこで本稿では,TCPGenに基づくコンテキストバイアス処理手法を改良し,バイアス処理モジュールを訓練する際のバイアス付き単語に重きを置くキーワード認識損失関数を提案する。
この損失は、バイアス付き単語予測のためのマスク付きクロスエントロピー項と、バイアス付き単語位置を検出するバイナリ分類項とを含む。
これら2つの用語は、推論中の偏りのある単語の復号を補完的に支援する。
合成データ10時間にWhisperを適用することにより, NSC Part 2テストの単語誤り率を29.71%から11.81%に削減した。
関連論文リスト
- Context Biasing for Pronunciations-Orthography Mismatch in Automatic Speech Recognition [56.972851337263755]
本稿では,置換誤りの訂正を可能とし,難解な単語の認識精度を向上させる手法を提案する。
この手法により, 単語誤り率の相対的な改善を最大11%に抑えつつ, 単語誤り率の競争力を維持することができることを示す。
論文 参考訳(メタデータ) (2025-06-23T14:42:03Z) - WCTC-Biasing: Retraining-free Contextual Biasing ASR with Wildcard CTC-based Keyword Spotting and Inter-layer Biasing [5.50485371072671]
そこで本研究では,CTCに基づくモデルにおけるレアワードの認識精度を,追加の訓練やテキスト音声システムなしで向上させる手法を提案する。
キーワード検出には,高速かつ不明瞭な一致に寛容なワイルドカードCTCを採用する。
日本語音声認識の実験では,未知語に対するF1スコアが29%向上した。
論文 参考訳(メタデータ) (2025-06-02T02:30:26Z) - Improving Neural Biasing for Contextual Speech Recognition by Early Context Injection and Text Perturbation [27.057810339120664]
文脈認識型ASRモデルを改善するための2つの手法を提案する。
LibriSpeechでは, バイアスや浅い融合に比べて, 単語誤り率を60%, 25%削減する。
SPGISpeechと実世界のデータセットConECでは、ベースラインよりも優れた改善が得られます。
論文 参考訳(メタデータ) (2024-07-14T19:32:33Z) - CB-Conformer: Contextual biasing Conformer for biased word recognition [33.28780163232423]
本稿では,Vanilla ConformerにContextual Biasing ModuleとSelf-Adaptive Language Modelを導入する。
提案手法は,文字誤り率を15.34%削減し,14.13%の単語リコール,6.80%の単語F1スコアアップを実現した。
論文 参考訳(メタデータ) (2023-04-19T12:26:04Z) - Improving Contextual Recognition of Rare Words with an Alternate
Spelling Prediction Model [0.0]
Earnings21データセットに付随するコンテキストバイアスリストをリリースします。
2つの異なる復号アルゴリズムに適用した浅層融合文脈偏差の計算結果を示す。
稀な単語のリコールを34.7%改善するスペル予測モデルを提案する。
論文 参考訳(メタデータ) (2022-09-02T19:30:16Z) - Semantic-Preserving Adversarial Text Attacks [85.32186121859321]
深層モデルの脆弱性を調べるために, Bigram と Unigram を用いた適応的セマンティック保存最適化法 (BU-SPO) を提案する。
提案手法は,既存手法と比較して最小の単語数を変更することで,攻撃成功率とセマンティックス率を最大化する。
論文 参考訳(メタデータ) (2021-08-23T09:05:18Z) - Rejuvenating Low-Frequency Words: Making the Most of Parallel Data in
Non-Autoregressive Translation [98.11249019844281]
知識蒸留(KD)は、非自己回帰翻訳(NAT)モデルを訓練するための合成データを構築するために一般的に用いられる。
低周波対象語に対するアライメントを向上するために,逆KDを提案する。
その結果,提案手法は翻訳品質を大幅に向上させることができることがわかった。
論文 参考訳(メタデータ) (2021-06-02T02:41:40Z) - Improving Robustness by Augmenting Training Sentences with
Predicate-Argument Structures [62.562760228942054]
データセットバイアスに対するロバスト性を改善する既存のアプローチは、主にトレーニング目標の変更に焦点を当てている。
本稿では,学習データ中の入力文に対応する述語句構造を付加することを提案する。
特定のバイアスを対象とせずに、文の増大は、複数のバイアスに対してトランスフォーマーモデルの堅牢性を向上することを示す。
論文 参考訳(メタデータ) (2020-10-23T16:22:05Z) - Taking Notes on the Fly Helps BERT Pre-training [94.43953312613577]
Takeing Notes on the Fly (TNF) は、事前トレーニング中にフライで稀な単語のメモを取り、次回発生するときにモデルがそれらを理解するのに役立つ。
TNFは、文中のまれな単語によって引き起こされる不適切な意味をカバーするために、クロス文情報を用いるので、より良いデータ利用を提供する。
論文 参考訳(メタデータ) (2020-08-04T11:25:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。