論文の概要: Contextual Biasing with the Knuth-Morris-Pratt Matching Algorithm
- arxiv url: http://arxiv.org/abs/2310.00178v1
- Date: Fri, 29 Sep 2023 22:50:10 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-05 06:00:24.040056
- Title: Contextual Biasing with the Knuth-Morris-Pratt Matching Algorithm
- Title(参考訳): Knuth-Morris-Prattマッチングアルゴリズムによるコンテキストバイアス
- Authors: Weiran Wang, Zelin Wu, Diamantino Caseiro, Tsendsuren Munkhdalai, Khe
Chai Sim, Pat Rondon, Golan Pundak, Gan Song, Rohit Prabhavalkar, Zhong Meng,
Ding Zhao, Tara Sainath, Pedro Moreno Mengibar
- Abstract要約: 文脈バイアスとは、音声認識システムを希少な実体に偏り付ける問題を指す。
パターンマッチングのためのKnuth-Morris-Prattアルゴリズムに基づく文脈バイアスのアルゴリズムを提案する。
- 参考スコア(独自算出の注目度): 45.42075576656938
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Contextual biasing refers to the problem of biasing the automatic speech
recognition (ASR) systems towards rare entities that are relevant to the
specific user or application scenarios. We propose algorithms for contextual
biasing based on the Knuth-Morris-Pratt algorithm for pattern matching. During
beam search, we boost the score of a token extension if it extends matching
into a set of biasing phrases. Our method simulates the classical approaches
often implemented in the weighted finite state transducer (WFST) framework, but
avoids the FST language altogether, with careful considerations on memory
footprint and efficiency on tensor processing units (TPUs) by vectorization.
Without introducing additional model parameters, our method achieves
significant word error rate (WER) reductions on biasing test sets by itself,
and yields further performance gain when combined with a model-based biasing
method.
- Abstract(参考訳): コンテキストバイアス(Contextual biasing)とは、音声認識システム(ASR)を特定のユーザやアプリケーションシナリオに関連する稀なエンティティにバイアスする問題を指す。
パターンマッチングのためのKnuth-Morris-Prattアルゴリズムに基づく文脈バイアスのアルゴリズムを提案する。
ビーム探索中、バイアスフレーズのセットにマッチングを拡張した場合、トークン拡張のスコアを増加させる。
本手法は、有限状態トランスデューサ(WFST)フレームワークでしばしば実装される古典的アプローチをシミュレートするが、メモリフットプリントとベクトル化によるテンソル処理ユニット(TPU)の効率を考慮し、FST言語を完全に回避する。
追加のモデルパラメータを導入することなく、バイアステストセットに対する単語誤り率(wer)の大幅な削減を実現し、モデルベースのバイアス手法と組み合わせることで、さらなるパフォーマンス向上を実現する。
関連論文リスト
- Optimizing Contextual Speech Recognition Using Vector Quantization for Efficient Retrieval [18.333752341467083]
バイアス機構は典型的には、オーディオとバイアスのエントリのカタログの間のクロスアテンションモジュールに基づいている。
本研究では,ベクトル量子化に基づくクロスアテンションスコアリングに対する近似を提案する。
検索に基づくショートリスト化により,数千のエントリのバイアス付けカタログを効率よく活用できることを示す。
論文 参考訳(メタデータ) (2024-11-01T15:28:03Z) - LM-assisted keyword biasing with Aho-Corasick algorithm for Transducer-based ASR [3.841280537264271]
そこで本研究では,音声認識性能向上のためのライトオンザフライ方式を提案する。
我々は、名前付きエンティティのバイアスリストと単語レベルのn-gram言語モデルと、Aho-Corasick文字列マッチングアルゴリズムに基づく浅い融合アプローチを組み合わせる。
逆実時間係数の実用的差のない一般単語誤り率の21.6%の相対的な改善を実現した。
論文 参考訳(メタデータ) (2024-09-20T13:53:37Z) - Beyond Levenshtein: Leveraging Multiple Algorithms for Robust Word Error Rate Computations And Granular Error Classifications [5.266869303483375]
単語誤り率(WER)は自動音声認識(ASR)の精度の一般的な尺度である
本稿では,ロバストな WER を計算するために,拡張Levenshtein 距離アルゴリズムを用いた非破壊的トークンベース手法を提案する。
我々はまた、句読点誤り率などの派生したユースケースの例分析や、実装のインタラクティブな使用と可視化のためのWebアプリケーションも提供する。
論文 参考訳(メタデータ) (2024-08-28T08:14:51Z) - Contextualized Automatic Speech Recognition with Attention-Based Bias
Phrase Boosted Beam Search [44.94458898538114]
本稿では、編集可能なフレーズリストを用いてカスタマイズ可能な、注意に基づくコンテキストバイアス手法を提案する。
提案手法は、入力音声データ中のバイアスフレーズを検出するために、バイアスフレーズインデックス損失と特別なトークンを組み合わせることで効果的に訓練することができる。
論文 参考訳(メタデータ) (2024-01-19T01:36:07Z) - Noisy Correspondence Learning with Self-Reinforcing Errors Mitigation [63.180725016463974]
クロスモーダル検索は、実際は精力的な、十分に整合した大規模データセットに依存している。
我々は、新しい雑音対応学習フレームワーク、textbfSelf-textbfReinforcing textbfErrors textbfMitigation(SREM)を導入する。
論文 参考訳(メタデータ) (2023-12-27T09:03:43Z) - Wiki-En-ASR-Adapt: Large-scale synthetic dataset for English ASR
Customization [66.22007368434633]
自動音声認識(ASR)のコンテキストスペルチェックカスタマイズのための,最初の大規模公開合成データセットを提案する。
提案手法により、崩壊したASR仮説の数百万の現実的な例を作成し、カスタマイズタスクの非自明なバイアスリストをシミュレートすることができる。
提案したデータセット上で,オープンソースのカスタマイズモデルをトレーニングした実験を報告し,ハードネガティブなバイアスフレーズの注入がWERを減少させ,誤報の回数を減少させることを示す。
論文 参考訳(メタデータ) (2023-09-29T14:18:59Z) - Hierarchical Phrase-based Sequence-to-Sequence Learning [94.10257313923478]
本稿では、学習中の帰納バイアスの源として階層的フレーズを取り入れ、推論中の明示的な制約として、標準的なシーケンス・ツー・シーケンス(seq2seq)モデルの柔軟性を維持するニューラルトランスデューサについて述べる。
本手法では,木が原文と対象句を階層的に整列するブラケット文法に基づく識別的導出法と,整列した句を1対1で翻訳するニューラルネットワークセク2セックモデルという2つのモデルを訓練する。
論文 参考訳(メタデータ) (2022-11-15T05:22:40Z) - Towards Contextual Spelling Correction for Customization of End-to-end
Speech Recognition Systems [27.483603895258437]
そこで本研究では,文脈的スペル補正モデルをエンド・ツー・エンドのASRシステム上に付加することで,コンテキストバイアスを行う新しい手法を提案する。
本稿では,大規模コンテキストリストを扱うフィルタリングアルゴリズムと,モデルのバイアス度を制御する性能バランス機構を提案する。
実験の結果,提案手法はASRシステムよりも51%の相対単語誤り率(WER)の低減を実現し,従来のバイアス法よりも優れていた。
論文 参考訳(メタデータ) (2022-03-02T06:00:48Z) - End-to-end contextual asr based on posterior distribution adaptation for
hybrid ctc/attention system [61.148549738631814]
エンドツーエンド(E2E)音声認識アーキテクチャは、従来の音声認識システムのすべてのコンポーネントを単一のモデルに組み立てる。
これはASRシステムを単純化するが、文脈的ASRの欠点を導入している: E2Eモデルは、頻繁な固有名詞を含む発話に対して、より悪い性能を持つ。
本稿では,文脈的単語認識能力を向上させるために,文脈バイアスアテンション(CBA)モジュールをアテンションベースエンコーダデコーダ(AED)モデルに追加することを提案する。
論文 参考訳(メタデータ) (2022-02-18T03:26:02Z) - Pre-training Is (Almost) All You Need: An Application to Commonsense
Reasoning [61.32992639292889]
事前学習されたトランスモデルの微調整は、一般的なNLPタスクを解決するための標準的なアプローチとなっている。
そこで本研究では,可視性ランキングタスクをフルテキスト形式でキャストする新たなスコアリング手法を提案する。
提案手法は, ランダム再起動にまたがって, より安定した学習段階を提供することを示す。
論文 参考訳(メタデータ) (2020-04-29T10:54:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。