論文の概要: Improving Contextual Recognition of Rare Words with an Alternate
Spelling Prediction Model
- arxiv url: http://arxiv.org/abs/2209.01250v1
- Date: Fri, 2 Sep 2022 19:30:16 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-07 14:48:16.327298
- Title: Improving Contextual Recognition of Rare Words with an Alternate
Spelling Prediction Model
- Title(参考訳): 交互スペル予測モデルによる希少単語の文脈認識の改善
- Authors: Jennifer Drexler Fox, Natalie Delworth
- Abstract要約: Earnings21データセットに付随するコンテキストバイアスリストをリリースします。
2つの異なる復号アルゴリズムに適用した浅層融合文脈偏差の計算結果を示す。
稀な単語のリコールを34.7%改善するスペル予測モデルを提案する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Contextual ASR, which takes a list of bias terms as input along with audio,
has drawn recent interest as ASR use becomes more widespread. We are releasing
contextual biasing lists to accompany the Earnings21 dataset, creating a public
benchmark for this task. We present baseline results on this benchmark using a
pretrained end-to-end ASR model from the WeNet toolkit. We show results for
shallow fusion contextual biasing applied to two different decoding algorithms.
Our baseline results confirm observations that end-to-end models struggle in
particular with words that are rarely or never seen during training, and that
existing shallow fusion techniques do not adequately address this problem. We
propose an alternate spelling prediction model that improves recall of rare
words by 34.7% relative and of out-of-vocabulary words by 97.2% relative,
compared to contextual biasing without alternate spellings. This model is
conceptually similar to ones used in prior work, but is simpler to implement as
it does not rely on either a pronunciation dictionary or an existing
text-to-speech system.
- Abstract(参考訳): 音声と共に入力としてバイアス項のリストを取るContextual ASRは、ASRの使用がより広まるにつれて、近年の関心を集めている。
Earnings21データセットに付随するコンテキストバイアスリストをリリースし、このタスクの公開ベンチマークを作成しています。
WeNetツールキットから事前学習したエンドツーエンドのASRモデルを用いて,本ベンチマークのベースライン結果を示す。
2つの異なる復号アルゴリズムに適用した浅層融合コンテキストバイアスの結果を示す。
本研究のベースラインは,特に訓練中に稀に,あるいは一度も見られない単語に終末モデルが苦しむこと,そして既存の浅層融合技術がこの問題に適切に対処していないことを確認する。
代用スペルのない文脈バイアスと比較して,稀な単語のリコールを34.7%,語彙外単語のリコールを97.2%改善する代用スペル予測モデルを提案する。
このモデルは概念的には以前の作業で使われたものと似ているが、発音辞書や既存のテキストから音声へのシステムに依存しないため、実装が容易である。
関連論文リスト
- LM-assisted keyword biasing with Aho-Corasick algorithm for Transducer-based ASR [3.841280537264271]
そこで本研究では,音声認識性能向上のためのライトオンザフライ方式を提案する。
我々は、名前付きエンティティのバイアスリストと単語レベルのn-gram言語モデルと、Aho-Corasick文字列マッチングアルゴリズムに基づく浅い融合アプローチを組み合わせる。
逆実時間係数の実用的差のない一般単語誤り率の21.6%の相対的な改善を実現した。
論文 参考訳(メタデータ) (2024-09-20T13:53:37Z) - An Effective Context-Balanced Adaptation Approach for Long-Tailed Speech Recognition [10.234673954430221]
周波数分布の異なる単語がモデルの性能に与える影響について検討する。
AISHELL-1ベンチマークデータセットで実施された一連の実験は、トレーニングコーパスのすべての語彙をコンテキストリストとして使用し、バランスの取れた目的と組み合わせることで、最高のパフォーマンスが得られることを示唆している。
論文 参考訳(メタデータ) (2024-09-10T12:52:36Z) - Improving Neural Biasing for Contextual Speech Recognition by Early Context Injection and Text Perturbation [27.057810339120664]
文脈認識型ASRモデルを改善するための2つの手法を提案する。
LibriSpeechでは, バイアスや浅い融合に比べて, 単語誤り率を60%, 25%削減する。
SPGISpeechと実世界のデータセットConECでは、ベースラインよりも優れた改善が得られます。
論文 参考訳(メタデータ) (2024-07-14T19:32:33Z) - Continuously Learning New Words in Automatic Speech Recognition [56.972851337263755]
本稿では,新たな単語認識のための自己教師付き連続学習手法を提案する。
過去の研究から,メモリ拡張型自動音声認識モデルを用いた。
提案手法により,新たな単語の出現頻度が高くなると,新たな単語のパフォーマンスが向上することを示す。
論文 参考訳(メタデータ) (2024-01-09T10:39:17Z) - HyPoradise: An Open Baseline for Generative Speech Recognition with
Large Language Models [81.56455625624041]
ASRの誤り訂正に外部の大規模言語モデル(LLM)を利用する最初のオープンソースベンチマークを導入する。
提案したベンチマークには、334,000組以上のN-best仮説を含む新しいデータセットHyPoradise (HP)が含まれている。
合理的なプロンプトと生成能力を持つLLMは、N-bestリストに欠けているトークンを修正できる。
論文 参考訳(メタデータ) (2023-09-27T14:44:10Z) - SpellMapper: A non-autoregressive neural spellchecker for ASR
customization with candidate retrieval based on n-gram mappings [76.87664008338317]
文脈スペル補正モデルは、音声認識を改善するために浅い融合に代わるものである。
ミススペルn-gramマッピングに基づく候補探索のための新しいアルゴリズムを提案する。
Spoken Wikipediaの実験では、ベースラインのASRシステムに比べて21.4%のワードエラー率の改善が見られた。
論文 参考訳(メタデータ) (2023-06-04T10:00:12Z) - Robust Acoustic and Semantic Contextual Biasing in Neural Transducers
for Speech Recognition [14.744220870243932]
そこで本稿では,文脈バイアスを改善するために,軽量な文字表現を用いて微粒な発音特徴を符号化することを提案する。
さらに、事前学習されたニューラルネットワークモデル(NLM)をベースとしたエンコーダを統合し、発話の意味的文脈を符号化する。
Librispeechデータセット上のConformer Transducerモデルを用いた実験では、異なるバイアスリストサイズに対するWERの相対的な改善が4.62%から9.26%である。
論文 参考訳(メタデータ) (2023-05-09T08:51:44Z) - Query Expansion Using Contextual Clue Sampling with Language Models [69.51976926838232]
本稿では,実効的なフィルタリング戦略と検索した文書の融合の組み合わせを,各文脈の生成確率に基づいて提案する。
我々の語彙マッチングに基づくアプローチは、よく確立された高密度検索モデルDPRと比較して、同様のトップ5/トップ20検索精度と上位100検索精度を実現する。
エンド・ツー・エンドのQAでは、読者モデルも我々の手法の恩恵を受けており、いくつかの競争基準に対してエクサクト・マッチのスコアが最も高い。
論文 参考訳(メタデータ) (2022-10-13T15:18:04Z) - End-to-end contextual asr based on posterior distribution adaptation for
hybrid ctc/attention system [61.148549738631814]
エンドツーエンド(E2E)音声認識アーキテクチャは、従来の音声認識システムのすべてのコンポーネントを単一のモデルに組み立てる。
これはASRシステムを単純化するが、文脈的ASRの欠点を導入している: E2Eモデルは、頻繁な固有名詞を含む発話に対して、より悪い性能を持つ。
本稿では,文脈的単語認識能力を向上させるために,文脈バイアスアテンション(CBA)モジュールをアテンションベースエンコーダデコーダ(AED)モデルに追加することを提案する。
論文 参考訳(メタデータ) (2022-02-18T03:26:02Z) - MASKER: Masked Keyword Regularization for Reliable Text Classification [73.90326322794803]
文脈に基づく予測を容易にする微調整手法であるマスク付きキーワード正規化(MASKER)を提案する。
maskerはモデルを規則化し、他の単語からキーワードを再構築し、十分な文脈なしに低信頼の予測を行う。
分類精度を低下させることなくOOD検出とクロスドメインの一般化を改善したMASKERを提案する。
論文 参考訳(メタデータ) (2020-12-17T04:54:16Z) - Class LM and word mapping for contextual biasing in End-to-End ASR [4.989480853499918]
近年、オールニューラル・エンド・ツー・エンド(E2E)ASRシステムは音声認識コミュニティに急速に関心を寄せている。
本稿では,コンテキスト認識型E2Eモデルの学習アルゴリズムを提案する。
E2Eモデルは発音辞書を必要としないが、既存の発音知識を利用して精度を向上させることは興味深い。
論文 参考訳(メタデータ) (2020-07-10T20:58:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。