論文の概要: Short-Term Word-Learning in a Dynamically Changing Environment
- arxiv url: http://arxiv.org/abs/2203.15404v1
- Date: Tue, 29 Mar 2022 10:05:39 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-31 01:01:48.809251
- Title: Short-Term Word-Learning in a Dynamically Changing Environment
- Title(参考訳): 動的に変化する環境における短期単語学習
- Authors: Christian Huber, Rishu Kumar, Ond\v{r}ej Bojar, Alexander Waibel
- Abstract要約: 本稿では、単語/フレーズメモリと、このメモリにアクセスして単語やフレーズを正しく認識するためのメカニズムを用いて、エンドツーエンドのASRシステムを補完する方法を示す。
誤報がわずかに増加しただけで, 単語の検出速度が大幅に向上した。
- 参考スコア(独自算出の注目度): 63.025297637716534
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Neural sequence-to-sequence automatic speech recognition (ASR) systems are in
principle open vocabulary systems, when using appropriate modeling units. In
practice, however, they often fail to recognize words not seen during training,
e.g., named entities, numbers or technical terms. To alleviate this problem,
Huber et al. proposed to supplement an end-to-end ASR system with a word/phrase
memory and a mechanism to access this memory to recognize the words and phrases
correctly. In this paper we study, a) methods to acquire important words for
this memory dynamically and, b) the trade-off between improvement in
recognition accuracy of new words and the potential danger of false alarms for
those added words. We demonstrate significant improvements in the detection
rate of new words with only a minor increase in false alarms (F1 score 0.30
$\rightarrow$ 0.80), when using an appropriate number of new words. In
addition, we show that important keywords can be extracted from supporting
documents and used effectively.
- Abstract(参考訳): 適切なモデリングユニットを使用する場合、ニューラルネットワークのシーケンスからシーケンスへの自動音声認識(asr)システムは原則としてオープンボキャブラリシステムである。
しかし実際には、訓練中に見られない単語、例えば名前付きエンティティ、番号、技術的用語を認識できないことが多い。
この問題を軽減するため、huberらは、単語/フレーズメモリとこのメモリにアクセスして単語やフレーズを正しく認識するメカニズムをエンドツーエンドのasrシステムで補うことを提案した。
本稿では,研究する。
a) この記憶の重要な単語を動的かつ動的に取得する方法
b)新規単語の認識精度の向上と追加単語に対する誤報の危険性とのトレードオフ
適切な数の新しい単語を使用すると、誤報がわずかに増加する(f1 スコア 0.30$\rightarrow$ 0.80)だけで、新しい単語の検出速度が著しく改善する。
さらに,支援文書から重要なキーワードを抽出し,効果的に活用できることを示す。
関連論文リスト
- Continuously Learning New Words in Automatic Speech Recognition [56.972851337263755]
本稿では,新たな単語認識のための自己教師付き連続学習手法を提案する。
過去の研究から,メモリ拡張型自動音声認識モデルを用いた。
提案手法により,新たな単語の出現頻度が高くなると,新たな単語のパフォーマンスが向上することを示す。
論文 参考訳(メタデータ) (2024-01-09T10:39:17Z) - Open-vocabulary Keyword-spotting with Adaptive Instance Normalization [18.250276540068047]
本稿では,キーワード条件付き正規化パラメータを出力するためにテキストエンコーダを訓練するキーワードスポッティングの新しい手法であるAdaKWSを提案する。
近年のキーワードスポッティングやASRベースラインよりも大幅に改善されている。
論文 参考訳(メタデータ) (2023-09-13T13:49:42Z) - SpellMapper: A non-autoregressive neural spellchecker for ASR
customization with candidate retrieval based on n-gram mappings [76.87664008338317]
文脈スペル補正モデルは、音声認識を改善するために浅い融合に代わるものである。
ミススペルn-gramマッピングに基づく候補探索のための新しいアルゴリズムを提案する。
Spoken Wikipediaの実験では、ベースラインのASRシステムに比べて21.4%のワードエラー率の改善が見られた。
論文 参考訳(メタデータ) (2023-06-04T10:00:12Z) - Emphasizing Unseen Words: New Vocabulary Acquisition for End-to-End
Speech Recognition [21.61242091927018]
トレンディングワードや新しい名前を持つエンティティなど、Of-Vocabulary以外の単語は、現代のASRシステムに問題を引き起こす。
我々は,テキスト音声システムを用いてOOV語を生成することを提案し,損失を再スケールすることで,ニューラルネットワークがOOV語により多くの注意を払うことを奨励する。
論文 参考訳(メタデータ) (2023-02-20T02:21:30Z) - Spell my name: keyword boosted speech recognition [25.931897154065663]
名前や専門用語のような一般的な言葉は、会話を文脈で理解するのに重要である。
本稿では、これらの非一般的なキーワードをよりよく認識できる、単純だが強力なASR復号法を提案する。
本手法は,音響モデル予測に基づくビームサーチにおいて,与えられたキーワードの確率を高める。
本稿では,本手法の有効性を実世界の会話の内部データとLibriSpeeechテストセットで実証する。
論文 参考訳(メタデータ) (2021-10-06T14:16:57Z) - Instant One-Shot Word-Learning for Context-Specific Neural
Sequence-to-Sequence Speech Recognition [62.997667081978825]
本稿では、単語/フレーズメモリと、このメモリにアクセスして単語やフレーズを正しく認識する機構を備えたエンドツーエンドのASRシステムを提案する。
本稿では,この機構により,これまで認識できなかった単語の85%以上を認識できることを示す。
論文 参考訳(メタデータ) (2021-07-05T21:08:34Z) - Wake Word Detection with Alignment-Free Lattice-Free MMI [66.12175350462263]
音声言語インタフェース、例えばパーソナルデジタルアシスタントは、音声入力の処理を開始するためにウェイクワードに依存している。
本稿では,部分的にラベル付けされたトレーニングデータから,ハイブリッドDNN/HMM覚醒単語検出システムの学習方法を提案する。
提案手法を2つの実データ集合上で評価し, 前報よりも50%~90%の誤報率の減少率を示した。
論文 参考訳(メタデータ) (2020-05-17T19:22:25Z) - Techniques for Vocabulary Expansion in Hybrid Speech Recognition Systems [54.49880724137688]
語彙外単語(OOV)の問題は、音声認識システムにおいて典型的である。
OOVをカバーするための一般的なアプローチの1つは、単語ではなくサブワード単位を使用することである。
本稿では,グラフ構築法と探索法の両方のレベルで,この解の既存手法について検討する。
論文 参考訳(メタデータ) (2020-03-19T21:24:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。