論文の概要: Instant One-Shot Word-Learning for Context-Specific Neural
Sequence-to-Sequence Speech Recognition
- arxiv url: http://arxiv.org/abs/2107.02268v1
- Date: Mon, 5 Jul 2021 21:08:34 GMT
- ステータス: 処理完了
- システム内更新日: 2021-07-08 06:52:31.748881
- Title: Instant One-Shot Word-Learning for Context-Specific Neural
Sequence-to-Sequence Speech Recognition
- Title(参考訳): 文脈特有なニューラルシーケンス対シーケンス音声認識のためのインスタントワンショット単語学習
- Authors: Christian Huber, Juan Hussain, Sebastian St\"uker, Alexander Waibel
- Abstract要約: 本稿では、単語/フレーズメモリと、このメモリにアクセスして単語やフレーズを正しく認識する機構を備えたエンドツーエンドのASRシステムを提案する。
本稿では,この機構により,これまで認識できなかった単語の85%以上を認識できることを示す。
- 参考スコア(独自算出の注目度): 62.997667081978825
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Neural sequence-to-sequence systems deliver state-of-the-art performance for
automatic speech recognition (ASR). When using appropriate modeling units,
e.g., byte-pair encoded characters, these systems are in principal open
vocabulary systems. In practice, however, they often fail to recognize words
not seen during training, e.g., named entities, numbers or technical terms. To
alleviate this problem we supplement an end-to-end ASR system with a
word/phrase memory and a mechanism to access this memory to recognize the words
and phrases correctly. After the training of the ASR system, and when it has
already been deployed, a relevant word can be added or subtracted instantly
without the need for further training. In this paper we demonstrate that
through this mechanism our system is able to recognize more than 85% of newly
added words that it previously failed to recognize compared to a strong
baseline.
- Abstract(参考訳): ニューラルシーケンスからシーケンスへのシステムは、自動音声認識(asr)のための最先端のパフォーマンスを提供する。
適切なモデリング単位、例えばバイトペアエンコード文字を使用する場合、これらのシステムは主要なオープン語彙システムである。
しかし実際には、訓練中に見られない単語、例えば名前付きエンティティ、番号、技術的用語を認識できないことが多い。
この問題を軽減するために,ワード/フレーズメモリを用いたエンドツーエンドasrシステムと,このメモリにアクセスして単語やフレーズを正しく認識する機構を補足する。
ASRシステムのトレーニングの後、既に配備されている場合、関連する単語を追加または減算することが可能で、さらなるトレーニングは不要である。
本稿では,この機構により,従来は強いベースラインに対して認識できなかった単語の85%以上を,我々のシステムが認識できることを実証する。
関連論文リスト
- Towards Unsupervised Speech Recognition Without Pronunciation Models [57.222729245842054]
ほとんどの言語では、音声認識システムを効果的に訓練するのに十分なペア音声とテキストデータがない。
本稿では、教師なしASRシステムを開発するために、音素レキシコンへの依存を除去することを提案する。
音声合成とテキスト・テキスト・マスクによるトークン埋込から教師なし音声認識が実現可能であることを実験的に実証した。
論文 参考訳(メタデータ) (2024-06-12T16:30:58Z) - Continuously Learning New Words in Automatic Speech Recognition [56.972851337263755]
本稿では,新たな単語認識のための自己教師付き連続学習手法を提案する。
過去の研究から,メモリ拡張型自動音声認識モデルを用いた。
提案手法により,新たな単語の出現頻度が高くなると,新たな単語のパフォーマンスが向上することを示す。
論文 参考訳(メタデータ) (2024-01-09T10:39:17Z) - Improved Contextual Recognition In Automatic Speech Recognition Systems
By Semantic Lattice Rescoring [4.819085609772069]
本稿では,意味的格子処理によるASRシステム内における文脈認識の高度化のための新しい手法を提案する。
提案手法は,隠れマルコフモデルとガウス混合モデル(HMM-GMM)とディープニューラルネットワーク(DNN)モデルを用いて,精度を向上する。
本稿では,実験分析によるLibriSpeechデータセット上でのフレームワークの有効性を示す。
論文 参考訳(メタデータ) (2023-10-14T23:16:05Z) - Short-Term Word-Learning in a Dynamically Changing Environment [63.025297637716534]
本稿では、単語/フレーズメモリと、このメモリにアクセスして単語やフレーズを正しく認識するためのメカニズムを用いて、エンドツーエンドのASRシステムを補完する方法を示す。
誤報がわずかに増加しただけで, 単語の検出速度が大幅に向上した。
論文 参考訳(メタデータ) (2022-03-29T10:05:39Z) - Spell my name: keyword boosted speech recognition [25.931897154065663]
名前や専門用語のような一般的な言葉は、会話を文脈で理解するのに重要である。
本稿では、これらの非一般的なキーワードをよりよく認識できる、単純だが強力なASR復号法を提案する。
本手法は,音響モデル予測に基づくビームサーチにおいて,与えられたキーワードの確率を高める。
本稿では,本手法の有効性を実世界の会話の内部データとLibriSpeeechテストセットで実証する。
論文 参考訳(メタデータ) (2021-10-06T14:16:57Z) - Interpretability Analysis for Named Entity Recognition to Understand
System Predictions and How They Can Improve [49.878051587667244]
名前付きエンティティ認識のためのLSTM-CRFアーキテクチャの性能について検討する。
文脈表現はシステムの性能に寄与するが、ハイパフォーマンスを駆動する主な要因は、名前トークン自体を学習することにある。
我々は、コンテキストのみからエンティティタイプを推測する可能性を評価するために、人間アノテーションを登録し、コンテキストのみのシステムによるエラーの大部分に対してエンティティタイプを推論することはできないが、改善の余地はいくつかある。
論文 参考訳(メタデータ) (2020-04-09T14:37:12Z) - Techniques for Vocabulary Expansion in Hybrid Speech Recognition Systems [54.49880724137688]
語彙外単語(OOV)の問題は、音声認識システムにおいて典型的である。
OOVをカバーするための一般的なアプローチの1つは、単語ではなくサブワード単位を使用することである。
本稿では,グラフ構築法と探索法の両方のレベルで,この解の既存手法について検討する。
論文 参考訳(メタデータ) (2020-03-19T21:24:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。