論文の概要: Techniques for Vocabulary Expansion in Hybrid Speech Recognition Systems
- arxiv url: http://arxiv.org/abs/2003.09024v1
- Date: Thu, 19 Mar 2020 21:24:45 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-22 03:39:41.482570
- Title: Techniques for Vocabulary Expansion in Hybrid Speech Recognition Systems
- Title(参考訳): ハイブリッド音声認識システムにおける語彙拡張手法
- Authors: Nikolay Malkovsky, Vladimir Bataev, Dmitrii Sviridkin, Natalia
Kizhaeva, Aleksandr Laptev, Ildar Valiev, Oleg Petrov
- Abstract要約: 語彙外単語(OOV)の問題は、音声認識システムにおいて典型的である。
OOVをカバーするための一般的なアプローチの1つは、単語ではなくサブワード単位を使用することである。
本稿では,グラフ構築法と探索法の両方のレベルで,この解の既存手法について検討する。
- 参考スコア(独自算出の注目度): 54.49880724137688
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The problem of out of vocabulary words (OOV) is typical for any speech
recognition system, hybrid systems are usually constructed to recognize a fixed
set of words and rarely can include all the words that will be encountered
during exploitation of the system. One of the popular approach to cover OOVs is
to use subword units rather then words. Such system can potentially recognize
any previously unseen word if the word can be constructed from present subword
units, but also non-existing words can be recognized. The other popular
approach is to modify HMM part of the system so that it can be easily and
effectively expanded with custom set of words we want to add to the system. In
this paper we explore different existing methods of this solution on both graph
construction and search method levels. We also present a novel vocabulary
expansion techniques which solve some common internal subroutine problems
regarding recognition graph processing.
- Abstract(参考訳): out of vocabulary words (oov) の問題は音声認識システムでは典型的であり、ハイブリッドシステムは固定された単語集合を認識するように構成されており、システムの利用時に遭遇する全ての単語を含むことは滅多にない。
OOVをカバーする一般的なアプローチの1つは、単語ではなくサブワード単位を使用することである。
このようなシステムは、現在サブワード単位から単語を構築できる場合、これまで見られなかった単語を認識できるが、既存の単語も認識できる。
もうひとつの一般的なアプローチは、システムのHMM部分を変更することで、システムに追加したい独自の単語セットで、簡単かつ効果的に拡張できるようにすることです。
本稿では,グラフ構成と探索法の両方において,この解の既存手法について検討する。
また,認識グラフ処理における内部サブルーチン問題の解法として,新たな語彙拡張手法を提案する。
関連論文リスト
- Short-Term Word-Learning in a Dynamically Changing Environment [63.025297637716534]
本稿では、単語/フレーズメモリと、このメモリにアクセスして単語やフレーズを正しく認識するためのメカニズムを用いて、エンドツーエンドのASRシステムを補完する方法を示す。
誤報がわずかに増加しただけで, 単語の検出速度が大幅に向上した。
論文 参考訳(メタデータ) (2022-03-29T10:05:39Z) - Spell my name: keyword boosted speech recognition [25.931897154065663]
名前や専門用語のような一般的な言葉は、会話を文脈で理解するのに重要である。
本稿では、これらの非一般的なキーワードをよりよく認識できる、単純だが強力なASR復号法を提案する。
本手法は,音響モデル予測に基づくビームサーチにおいて,与えられたキーワードの確率を高める。
本稿では,本手法の有効性を実世界の会話の内部データとLibriSpeeechテストセットで実証する。
論文 参考訳(メタデータ) (2021-10-06T14:16:57Z) - A Comparison of Methods for OOV-word Recognition on a New Public Dataset [0.0]
我々はCommonVoiceデータセットを用いて、語彙外比の高い言語のためのテストセットを作成することを提案する。
次に、ハイブリッドASRシステムのコンテキストにおいて、OOVの認識において、サブワードモデルがどの程度優れているかを評価する。
OOV単語をよりよく認識するために,サブワードベースの言語モデルを修正する新しい手法を提案する。
論文 参考訳(メタデータ) (2021-07-16T19:39:30Z) - LexSubCon: Integrating Knowledge from Lexical Resources into Contextual
Embeddings for Lexical Substitution [76.615287796753]
本稿では,コンテキスト埋め込みモデルに基づくエンドツーエンドの語彙置換フレームワークであるLexSubConを紹介する。
これは文脈情報と構造化語彙資源からの知識を組み合わせることで達成される。
我々の実験によると、LexSubConはLS07とCoInCoベンチマークデータセットで従来の最先端の手法よりも優れていた。
論文 参考訳(メタデータ) (2021-07-11T21:25:56Z) - Instant One-Shot Word-Learning for Context-Specific Neural
Sequence-to-Sequence Speech Recognition [62.997667081978825]
本稿では、単語/フレーズメモリと、このメモリにアクセスして単語やフレーズを正しく認識する機構を備えたエンドツーエンドのASRシステムを提案する。
本稿では,この機構により,これまで認識できなかった単語の85%以上を認識できることを示す。
論文 参考訳(メタデータ) (2021-07-05T21:08:34Z) - Fake it Till You Make it: Self-Supervised Semantic Shifts for
Monolingual Word Embedding Tasks [58.87961226278285]
語彙意味変化をモデル化するための自己教師付きアプローチを提案する。
本手法は,任意のアライメント法を用いて意味変化の検出に利用できることを示す。
3つの異なるデータセットに対する実験結果を用いて,本手法の有用性について述べる。
論文 参考訳(メタデータ) (2021-01-30T18:59:43Z) - Accurate Word Representations with Universal Visual Guidance [55.71425503859685]
本稿では,視覚指導から従来の単語埋め込みを視覚的に強調する視覚的表現法を提案する。
各単語が多様な関連画像に対応するマルチモーダルシードデータセットから,小型の単語画像辞書を構築する。
12の自然言語理解および機械翻訳タスクの実験により,提案手法の有効性と一般化能力がさらに検証された。
論文 参考訳(メタデータ) (2020-12-30T09:11:50Z) - SubICap: Towards Subword-informed Image Captioning [37.42085521950802]
単語をより小さな構成単位「サブワード」に分解し、字幕を単語の代わりにサブワードの列として表現する。
本システムでは,学習語彙サイズをベースラインより約90%小さくすることで,様々な測定値を改善する。
論文 参考訳(メタデータ) (2020-12-24T06:10:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。