論文の概要: Improving Contextual Recognition of Rare Words with an Alternate
Spelling Prediction Model
- arxiv url: http://arxiv.org/abs/2209.01250v1
- Date: Fri, 2 Sep 2022 19:30:16 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-07 14:48:16.327298
- Title: Improving Contextual Recognition of Rare Words with an Alternate
Spelling Prediction Model
- Title(参考訳): 交互スペル予測モデルによる希少単語の文脈認識の改善
- Authors: Jennifer Drexler Fox, Natalie Delworth
- Abstract要約: Earnings21データセットに付随するコンテキストバイアスリストをリリースします。
2つの異なる復号アルゴリズムに適用した浅層融合文脈偏差の計算結果を示す。
稀な単語のリコールを34.7%改善するスペル予測モデルを提案する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Contextual ASR, which takes a list of bias terms as input along with audio,
has drawn recent interest as ASR use becomes more widespread. We are releasing
contextual biasing lists to accompany the Earnings21 dataset, creating a public
benchmark for this task. We present baseline results on this benchmark using a
pretrained end-to-end ASR model from the WeNet toolkit. We show results for
shallow fusion contextual biasing applied to two different decoding algorithms.
Our baseline results confirm observations that end-to-end models struggle in
particular with words that are rarely or never seen during training, and that
existing shallow fusion techniques do not adequately address this problem. We
propose an alternate spelling prediction model that improves recall of rare
words by 34.7% relative and of out-of-vocabulary words by 97.2% relative,
compared to contextual biasing without alternate spellings. This model is
conceptually similar to ones used in prior work, but is simpler to implement as
it does not rely on either a pronunciation dictionary or an existing
text-to-speech system.
- Abstract(参考訳): 音声と共に入力としてバイアス項のリストを取るContextual ASRは、ASRの使用がより広まるにつれて、近年の関心を集めている。
Earnings21データセットに付随するコンテキストバイアスリストをリリースし、このタスクの公開ベンチマークを作成しています。
WeNetツールキットから事前学習したエンドツーエンドのASRモデルを用いて,本ベンチマークのベースライン結果を示す。
2つの異なる復号アルゴリズムに適用した浅層融合コンテキストバイアスの結果を示す。
本研究のベースラインは,特に訓練中に稀に,あるいは一度も見られない単語に終末モデルが苦しむこと,そして既存の浅層融合技術がこの問題に適切に対処していないことを確認する。
代用スペルのない文脈バイアスと比較して,稀な単語のリコールを34.7%,語彙外単語のリコールを97.2%改善する代用スペル予測モデルを提案する。
このモデルは概念的には以前の作業で使われたものと似ているが、発音辞書や既存のテキストから音声へのシステムに依存しないため、実装が容易である。
関連論文リスト
- Self-consistent context aware conformer transducer for speech
recognition [0.0675253870287079]
本研究では,コンバータトランスデューサをベースとした新しいニューラルネットワークアーキテクチャを提案する。
本手法は,通常の単語の単語誤り率を損なうことなく,非一般的な単語を認識する精度を向上させる。
論文 参考訳(メタデータ) (2024-02-09T18:12:11Z) - Contextualized Automatic Speech Recognition with Attention-Based Bias
Phrase Boosted Beam Search [44.94458898538114]
本稿では、編集可能なフレーズリストを用いてカスタマイズ可能な、注意に基づくコンテキストバイアス手法を提案する。
提案手法は、入力音声データ中のバイアスフレーズを検出するために、バイアスフレーズインデックス損失と特別なトークンを組み合わせることで効果的に訓練することができる。
論文 参考訳(メタデータ) (2024-01-19T01:36:07Z) - Continuously Learning New Words in Automatic Speech Recognition [64.03177537617113]
本稿では,新たな単語認識のための自己教師付き連続学習手法を提案する。
過去の研究から,メモリ拡張型自動音声認識モデルを用いた。
提案手法により,新たな単語の出現頻度が高くなると,新たな単語のパフォーマンスが向上することを示す。
論文 参考訳(メタデータ) (2024-01-09T10:39:17Z) - HyPoradise: An Open Baseline for Generative Speech Recognition with
Large Language Models [81.56455625624041]
ASRの誤り訂正に外部の大規模言語モデル(LLM)を利用する最初のオープンソースベンチマークを導入する。
提案したベンチマークには、334,000組以上のN-best仮説を含む新しいデータセットHyPoradise (HP)が含まれている。
合理的なプロンプトと生成能力を持つLLMは、N-bestリストに欠けているトークンを修正できる。
論文 参考訳(メタデータ) (2023-09-27T14:44:10Z) - SpellMapper: A non-autoregressive neural spellchecker for ASR
customization with candidate retrieval based on n-gram mappings [76.87664008338317]
文脈スペル補正モデルは、音声認識を改善するために浅い融合に代わるものである。
ミススペルn-gramマッピングに基づく候補探索のための新しいアルゴリズムを提案する。
Spoken Wikipediaの実験では、ベースラインのASRシステムに比べて21.4%のワードエラー率の改善が見られた。
論文 参考訳(メタデータ) (2023-06-04T10:00:12Z) - Robust Acoustic and Semantic Contextual Biasing in Neural Transducers
for Speech Recognition [14.744220870243932]
そこで本稿では,文脈バイアスを改善するために,軽量な文字表現を用いて微粒な発音特徴を符号化することを提案する。
さらに、事前学習されたニューラルネットワークモデル(NLM)をベースとしたエンコーダを統合し、発話の意味的文脈を符号化する。
Librispeechデータセット上のConformer Transducerモデルを用いた実験では、異なるバイアスリストサイズに対するWERの相対的な改善が4.62%から9.26%である。
論文 参考訳(メタデータ) (2023-05-09T08:51:44Z) - Query Expansion Using Contextual Clue Sampling with Language Models [69.51976926838232]
本稿では,実効的なフィルタリング戦略と検索した文書の融合の組み合わせを,各文脈の生成確率に基づいて提案する。
我々の語彙マッチングに基づくアプローチは、よく確立された高密度検索モデルDPRと比較して、同様のトップ5/トップ20検索精度と上位100検索精度を実現する。
エンド・ツー・エンドのQAでは、読者モデルも我々の手法の恩恵を受けており、いくつかの競争基準に対してエクサクト・マッチのスコアが最も高い。
論文 参考訳(メタデータ) (2022-10-13T15:18:04Z) - End-to-end contextual asr based on posterior distribution adaptation for
hybrid ctc/attention system [61.148549738631814]
エンドツーエンド(E2E)音声認識アーキテクチャは、従来の音声認識システムのすべてのコンポーネントを単一のモデルに組み立てる。
これはASRシステムを単純化するが、文脈的ASRの欠点を導入している: E2Eモデルは、頻繁な固有名詞を含む発話に対して、より悪い性能を持つ。
本稿では,文脈的単語認識能力を向上させるために,文脈バイアスアテンション(CBA)モジュールをアテンションベースエンコーダデコーダ(AED)モデルに追加することを提案する。
論文 参考訳(メタデータ) (2022-02-18T03:26:02Z) - End-to-End Open Vocabulary Keyword Search [13.90172596423425]
本稿では,キーワード検索に最適化されたモデルを提案する。
提案モデルでは, 正と負の試行比率が人工的に均衡するタスクにおいて, 同様のエンド・ツー・エンドモデルより優れる。
LVCSRをベースとしたキーワード検索システムでは,出力の再スコア付けに本システムを用いることで,大幅な改善が期待できる。
論文 参考訳(メタデータ) (2021-08-23T18:34:53Z) - MASKER: Masked Keyword Regularization for Reliable Text Classification [73.90326322794803]
文脈に基づく予測を容易にする微調整手法であるマスク付きキーワード正規化(MASKER)を提案する。
maskerはモデルを規則化し、他の単語からキーワードを再構築し、十分な文脈なしに低信頼の予測を行う。
分類精度を低下させることなくOOD検出とクロスドメインの一般化を改善したMASKERを提案する。
論文 参考訳(メタデータ) (2020-12-17T04:54:16Z) - Class LM and word mapping for contextual biasing in End-to-End ASR [4.989480853499918]
近年、オールニューラル・エンド・ツー・エンド(E2E)ASRシステムは音声認識コミュニティに急速に関心を寄せている。
本稿では,コンテキスト認識型E2Eモデルの学習アルゴリズムを提案する。
E2Eモデルは発音辞書を必要としないが、既存の発音知識を利用して精度を向上させることは興味深い。
論文 参考訳(メタデータ) (2020-07-10T20:58:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。