論文の概要: Approaches to Improving Recognition of Underrepresented Named Entities
in Hybrid ASR Systems
- arxiv url: http://arxiv.org/abs/2005.08742v1
- Date: Mon, 18 May 2020 14:11:20 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-02 00:15:35.785661
- Title: Approaches to Improving Recognition of Underrepresented Named Entities
in Hybrid ASR Systems
- Title(参考訳): ハイブリッドASRシステムにおける未表現名前付きエンティティの認識改善へのアプローチ
- Authors: Tingzhi Mao, Yerbolat Khassanov, Van Tung Pham, Haihua Xu, Hao Huang,
Eng Siong Chng
- Abstract要約: 我々は、ハイブリッドASRシステムにおいて、未表現な名前付きエンティティ(NE)の認識を改善するための一連の補完的アプローチを提案する。
まず,ハイブリッドASRにおける音声モデルの必要性を低減できるグラデミック・レキシコンについて検討する。
次に、頻度の低い単語を処理するための文字ベースの特徴を持つニューラル言語モデル(LM)の影響について検討する。
- 参考スコア(独自算出の注目度): 24.84273681286825
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we present a series of complementary approaches to improve the
recognition of underrepresented named entities (NE) in hybrid ASR systems
without compromising overall word error rate performance. The underrepresented
words correspond to rare or out-of-vocabulary (OOV) words in the training data,
and thereby can't be modeled reliably. We begin with graphemic lexicon which
allows to drop the necessity of phonetic models in hybrid ASR. We study it
under different settings and demonstrate its effectiveness in dealing with
underrepresented NEs. Next, we study the impact of neural language model (LM)
with letter-based features derived to handle infrequent words. After that, we
attempt to enrich representations of underrepresented NEs in pretrained neural
LM by borrowing the embedding representations of rich-represented words. This
let us gain significant performance improvement on underrepresented NE
recognition. Finally, we boost the likelihood scores of utterances containing
NEs in the word lattices rescored by neural LMs and gain further performance
improvement. The combination of the aforementioned approaches improves NE
recognition by up to 42% relatively.
- Abstract(参考訳): 本稿では,単語誤り率の全体的な性能を損なうことなく,ハイブリッドASRシステムにおける未表現な名前付きエンティティ(NE)の認識を改善するための一連の補完的アプローチを提案する。
過小表現された単語は、訓練データ中の希少語または語彙外語(oov)に対応するため、確実にモデル化できない。
まず,ハイブリッドASRにおける音声モデルの必要性を低減できるグラテミック辞書から始める。
異なる設定で検討し、低表示のnesを扱う際にその効果を実証する。
次に、頻度の低い単語を処理するための文字ベースの特徴を持つニューラル言語モデル(LM)の影響について検討する。
その後,未熟な単語の埋め込み表現を借用して,事前学習したニューラルネットワークlmにおいて,表現不足のnes表現を豊かにしようとする。
これにより、未表現NE認識の性能が大幅に向上する。
最後に,ニューラルLMによる単語格子中のNEを含む発話の確率を向上し,さらなる性能向上を図る。
上記のアプローチを組み合わせることで、NE認識は42%まで向上する。
関連論文リスト
- Improving Neural Biasing for Contextual Speech Recognition by Early Context Injection and Text Perturbation [27.057810339120664]
文脈認識型ASRモデルを改善するための2つの手法を提案する。
LibriSpeechでは, バイアスや浅い融合に比べて, 単語誤り率を60%, 25%削減する。
SPGISpeechと実世界のデータセットConECでは、ベースラインよりも優れた改善が得られます。
論文 参考訳(メタデータ) (2024-07-14T19:32:33Z) - Improved Contextual Recognition In Automatic Speech Recognition Systems
By Semantic Lattice Rescoring [4.819085609772069]
本稿では,意味的格子処理によるASRシステム内における文脈認識の高度化のための新しい手法を提案する。
提案手法は,隠れマルコフモデルとガウス混合モデル(HMM-GMM)とディープニューラルネットワーク(DNN)モデルを用いて,精度を向上する。
本稿では,実験分析によるLibriSpeechデータセット上でのフレームワークの有効性を示す。
論文 参考訳(メタデータ) (2023-10-14T23:16:05Z) - HyPoradise: An Open Baseline for Generative Speech Recognition with
Large Language Models [81.56455625624041]
ASRの誤り訂正に外部の大規模言語モデル(LLM)を利用する最初のオープンソースベンチマークを導入する。
提案したベンチマークには、334,000組以上のN-best仮説を含む新しいデータセットHyPoradise (HP)が含まれている。
合理的なプロンプトと生成能力を持つLLMは、N-bestリストに欠けているトークンを修正できる。
論文 参考訳(メタデータ) (2023-09-27T14:44:10Z) - Emphasizing Unseen Words: New Vocabulary Acquisition for End-to-End
Speech Recognition [21.61242091927018]
トレンディングワードや新しい名前を持つエンティティなど、Of-Vocabulary以外の単語は、現代のASRシステムに問題を引き起こす。
我々は,テキスト音声システムを用いてOOV語を生成することを提案し,損失を再スケールすることで,ニューラルネットワークがOOV語により多くの注意を払うことを奨励する。
論文 参考訳(メタデータ) (2023-02-20T02:21:30Z) - Unsupervised Syntactically Controlled Paraphrase Generation with
Abstract Meaning Representations [59.10748929158525]
抽象表現(AMR)は、教師なし構文制御されたパラフレーズ生成の性能を大幅に向上させることができる。
提案モデルであるAMRPGは,AMRグラフを符号化し,入力文を2つの非絡み合った意味的および構文的埋め込みに解析する。
実験により、AMRPGは既存の教師なしアプローチと比較して、定量的かつ質的に、より正確な構文制御されたパラフレーズを生成することが示された。
論文 参考訳(メタデータ) (2022-11-02T04:58:38Z) - Generative or Contrastive? Phrase Reconstruction for Better Sentence
Representation Learning [86.01683892956144]
句再構成に基づく新たな自己教師型学習目標を提案する。
我々の生成学習は、十分強力な文表現をもたらし、コントラスト学習と同等の文文類似性タスクで性能を達成することができる。
論文 参考訳(メタデータ) (2022-04-20T10:00:46Z) - Short-Term Word-Learning in a Dynamically Changing Environment [63.025297637716534]
本稿では、単語/フレーズメモリと、このメモリにアクセスして単語やフレーズを正しく認識するためのメカニズムを用いて、エンドツーエンドのASRシステムを補完する方法を示す。
誤報がわずかに増加しただけで, 単語の検出速度が大幅に向上した。
論文 参考訳(メタデータ) (2022-03-29T10:05:39Z) - Instant One-Shot Word-Learning for Context-Specific Neural
Sequence-to-Sequence Speech Recognition [62.997667081978825]
本稿では、単語/フレーズメモリと、このメモリにアクセスして単語やフレーズを正しく認識する機構を備えたエンドツーエンドのASRシステムを提案する。
本稿では,この機構により,これまで認識できなかった単語の85%以上を認識できることを示す。
論文 参考訳(メタデータ) (2021-07-05T21:08:34Z) - DNN-Based Semantic Model for Rescoring N-best Speech Recognition List [8.934497552812012]
自動音声認識(ASR)システムの単語誤り率(WER)は、トレーニングと騒音等によるテスト条件とのミスマッチが発生した場合に増加する。
本研究の目的は、歪み音の特徴を補うための長期意味関係をモデル化することで、ASRを改善することである。
論文 参考訳(メタデータ) (2020-11-02T13:50:59Z) - Joint Contextual Modeling for ASR Correction and Language Understanding [60.230013453699975]
言語理解(LU)と協調してASR出力の文脈的言語補正を行うマルチタスクニューラルアプローチを提案する。
そこで本研究では,市販のASRおよびLUシステムの誤差率を,少量のドメイン内データを用いてトレーニングしたジョイントモデルと比較して14%削減できることを示した。
論文 参考訳(メタデータ) (2020-01-28T22:09:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。