論文の概要: SpellMapper: A non-autoregressive neural spellchecker for ASR
customization with candidate retrieval based on n-gram mappings
- arxiv url: http://arxiv.org/abs/2306.02317v1
- Date: Sun, 4 Jun 2023 10:00:12 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-06 18:37:13.337729
- Title: SpellMapper: A non-autoregressive neural spellchecker for ASR
customization with candidate retrieval based on n-gram mappings
- Title(参考訳): SpellMapper:n-gramマッピングに基づく候補検索によるASRカスタマイズのための非自己回帰型ニューラルネットワークスペルチェッカー
- Authors: Alexandra Antonova, Evelina Bakhturina, Boris Ginsburg
- Abstract要約: 文脈スペル補正モデルは、音声認識を改善するために浅い融合に代わるものである。
ミススペルn-gramマッピングに基づく候補探索のための新しいアルゴリズムを提案する。
Spoken Wikipediaの実験では、ベースラインのASRシステムに比べて21.4%のワードエラー率の改善が見られた。
- 参考スコア(独自算出の注目度): 76.87664008338317
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Contextual spelling correction models are an alternative to shallow fusion to
improve automatic speech recognition (ASR) quality given user vocabulary. To
deal with large user vocabularies, most of these models include candidate
retrieval mechanisms, usually based on minimum edit distance between fragments
of ASR hypothesis and user phrases. However, the edit-distance approach is
slow, non-trainable, and may have low recall as it relies only on common
letters. We propose: 1) a novel algorithm for candidate retrieval, based on
misspelled n-gram mappings, which gives up to 90% recall with just the top 10
candidates on Spoken Wikipedia; 2) a non-autoregressive neural model based on
BERT architecture, where the initial transcript and ten candidates are combined
into one input. The experiments on Spoken Wikipedia show 21.4% word error rate
improvement compared to a baseline ASR system.
- Abstract(参考訳): 文脈的綴り補正モデルは、ユーザ語彙による自動音声認識(asr)品質を改善するための浅い融合の代替手段である。
大規模なユーザ語彙を扱うために、これらのモデルの多くは候補検索機構を含み、通常、ASR仮説の断片とユーザフレーズの最小編集距離に基づいている。
しかし、編集距離のアプローチは遅く、訓練不能であり、通常の文字のみに依存するため、リコールは少ない可能性がある。
提案します
1) 誤字n-gramマッピングに基づく候補検索のための新しいアルゴリズムは,wikipediaの上位10個の候補のみに対して最大90%のリコールを与える。
2)BERTアーキテクチャに基づく非自己回帰型ニューラルモデルでは,最初の転写文字と10の候補を1つの入力に結合する。
音声wikipediaによる実験では、ベースラインasrシステムと比較して21.4%の単語誤り率向上を示した。
関連論文リスト
- Spelling Correction through Rewriting of Non-Autoregressive ASR Lattices [8.77712061194924]
本稿では,トランスフォーマーを用いたCTCモデルにより生成されたワードピース格子を書き換える有限状態トランスデューサ(FST)手法を提案する。
本アルゴリズムは,単語から音素への変換を直接行うため,明示的な単語表現を避けることができる。
文脈関連エンティティを用いたテストにおいて, 文誤り率(SER)の15.2%の相対的低減を実現した。
論文 参考訳(メタデータ) (2024-09-24T21:42:25Z) - Improving Neural Biasing for Contextual Speech Recognition by Early Context Injection and Text Perturbation [27.057810339120664]
文脈認識型ASRモデルを改善するための2つの手法を提案する。
LibriSpeechでは, バイアスや浅い融合に比べて, 単語誤り率を60%, 25%削減する。
SPGISpeechと実世界のデータセットConECでは、ベースラインよりも優れた改善が得られます。
論文 参考訳(メタデータ) (2024-07-14T19:32:33Z) - Wiki-En-ASR-Adapt: Large-scale synthetic dataset for English ASR
Customization [66.22007368434633]
自動音声認識(ASR)のコンテキストスペルチェックカスタマイズのための,最初の大規模公開合成データセットを提案する。
提案手法により、崩壊したASR仮説の数百万の現実的な例を作成し、カスタマイズタスクの非自明なバイアスリストをシミュレートすることができる。
提案したデータセット上で,オープンソースのカスタマイズモデルをトレーニングした実験を報告し,ハードネガティブなバイアスフレーズの注入がWERを減少させ,誤報の回数を減少させることを示す。
論文 参考訳(メタデータ) (2023-09-29T14:18:59Z) - HyPoradise: An Open Baseline for Generative Speech Recognition with
Large Language Models [81.56455625624041]
ASRの誤り訂正に外部の大規模言語モデル(LLM)を利用する最初のオープンソースベンチマークを導入する。
提案したベンチマークには、334,000組以上のN-best仮説を含む新しいデータセットHyPoradise (HP)が含まれている。
合理的なプロンプトと生成能力を持つLLMは、N-bestリストに欠けているトークンを修正できる。
論文 参考訳(メタデータ) (2023-09-27T14:44:10Z) - Improving Contextual Recognition of Rare Words with an Alternate
Spelling Prediction Model [0.0]
Earnings21データセットに付随するコンテキストバイアスリストをリリースします。
2つの異なる復号アルゴリズムに適用した浅層融合文脈偏差の計算結果を示す。
稀な単語のリコールを34.7%改善するスペル予測モデルを提案する。
論文 参考訳(メタデータ) (2022-09-02T19:30:16Z) - Minimising Biasing Word Errors for Contextual ASR with the
Tree-Constrained Pointer Generator [19.372248692745167]
高評価長尾語における音声認識誤りの低減には文脈知識が不可欠である。
本稿では,木制約付きポインタジェネレータ(TCPGen)コンポーネントを提案する。
論文 参考訳(メタデータ) (2022-05-18T16:40:50Z) - Short-Term Word-Learning in a Dynamically Changing Environment [63.025297637716534]
本稿では、単語/フレーズメモリと、このメモリにアクセスして単語やフレーズを正しく認識するためのメカニズムを用いて、エンドツーエンドのASRシステムを補完する方法を示す。
誤報がわずかに増加しただけで, 単語の検出速度が大幅に向上した。
論文 参考訳(メタデータ) (2022-03-29T10:05:39Z) - FastCorrect 2: Fast Error Correction on Multiple Candidates for
Automatic Speech Recognition [92.12910821300034]
本稿では,複数のASR候補を入力として取り込んだ誤り訂正モデルFastCorrect 2を提案する。
FastCorrect 2は、カスケードされた再描画と修正パイプラインよりも優れたパフォーマンスを実現している。
論文 参考訳(メタデータ) (2021-09-29T13:48:03Z) - Semantic-Preserving Adversarial Text Attacks [85.32186121859321]
深層モデルの脆弱性を調べるために, Bigram と Unigram を用いた適応的セマンティック保存最適化法 (BU-SPO) を提案する。
提案手法は,既存手法と比較して最小の単語数を変更することで,攻撃成功率とセマンティックス率を最大化する。
論文 参考訳(メタデータ) (2021-08-23T09:05:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。