論文の概要: Analyzing the Quality and Stability of a Streaming End-to-End On-Device
Speech Recognizer
- arxiv url: http://arxiv.org/abs/2006.01416v2
- Date: Fri, 14 Aug 2020 22:02:24 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-26 00:59:18.897000
- Title: Analyzing the Quality and Stability of a Streaming End-to-End On-Device
Speech Recognizer
- Title(参考訳): オンデバイス音声認識におけるストリーム・ツー・エンドの品質と安定性の解析
- Authors: Yuan Shangguan, Kate Knister, Yanzhang He, Ian McGraw, Francoise
Beaufays
- Abstract要約: デバイス上でのストリーミング・エンド・ツー・エンド(E2E)ASRモデルの品質と安定性を解析する。
本研究では,E2Eモデルの品質を向上するが,モデルの安定性を低下させる複数のモデルトレーニング手法の影響について検討する。
- 参考スコア(独自算出の注目度): 10.377186769309477
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The demand for fast and accurate incremental speech recognition increases as
the applications of automatic speech recognition (ASR) proliferate. Incremental
speech recognizers output chunks of partially recognized words while the user
is still talking. Partial results can be revised before the ASR finalizes its
hypothesis, causing instability issues. We analyze the quality and stability of
on-device streaming end-to-end (E2E) ASR models. We first introduce a novel set
of metrics that quantify the instability at word and segment levels. We study
the impact of several model training techniques that improve E2E model
qualities but degrade model stability. We categorize the causes of instability
and explore various solutions to mitigate them in a streaming E2E ASR system.
Index Terms: ASR, stability, end-to-end, text normalization,on-device, RNN-T
- Abstract(参考訳): 自動音声認識(ASR)の適用が拡大するにつれて,高速かつ正確なインクリメンタル音声認識の需要が高まっている。
増分認識器は、ユーザが話している間に部分的に認識された単語の断片を出力する。
ASRが仮説を確定する前に部分的な結果は修正され、不安定な問題を引き起こす。
デバイス上でのストリーミングエンドツーエンド(E2E)ASRモデルの品質と安定性を解析する。
まず,単語とセグメントレベルでの不安定性を定量化する新しい指標について紹介する。
本研究では,E2Eモデルの品質を向上するが,モデルの安定性を低下させる複数のモデルトレーニング手法の影響について検討する。
我々は不安定の原因を分類し、ストリーミングE2E ASRシステムでそれらを緩和する様々なソリューションを探索する。
インデックス用語:ASR、安定性、エンドツーエンド、テキスト正規化、オンデバイス、RNN-T
関連論文リスト
- Modality Confidence Aware Training for Robust End-to-End Spoken Language
Understanding [18.616202196061966]
近年,音声から意味的パースを生成する言語理解システム(SLU)が注目されている。
このアプローチでは,事前学習された音声認識モデル(ASR)から音声とテキストの表現を利用する単一モデルを用いる。
本稿では,ASR仮説のモーダリティ信頼度に基づいて,音声およびテキスト表現を融合させることにより,ASRエラーに対するロバスト性を高める新しいE2E SLUシステムを提案する。
論文 参考訳(メタデータ) (2023-07-22T17:47:31Z) - Deliberation Model for On-Device Spoken Language Understanding [69.5587671262691]
我々は、エンドツーエンド(E2E)音声言語理解(SLU)に対する新しい議論に基づくアプローチを提案する。
提案手法は,自然言語から合成音声訓練に移行する際の劣化を著しく低減できることを示す。
論文 参考訳(メタデータ) (2022-04-04T23:48:01Z) - ASR-Aware End-to-end Neural Diarization [15.172086811068962]
本稿では、音響入力と自動音声認識(ASR)モデルから得られる特徴の両方を用いて、コンフォーマーに基づくエンドツーエンドニューラルダイアリゼーション(EEND)モデルを提案する。
この機能を組み込むために、ConformerベースのEENDアーキテクチャの3つの変更が提案されている。
Switchboard+SREデータセットの2つの話者による英語会話実験により、単語位置情報を用いたマルチタスク学習がASR特徴を利用する最も効果的な方法であることが示された。
論文 参考訳(メタデータ) (2022-02-02T21:17:14Z) - Dual Causal/Non-Causal Self-Attention for Streaming End-to-End Speech
Recognition [58.69803243323346]
注意に基づくエンドツーエンド自動音声認識(ASR)システムは、最近、多くのタスクに対する最先端の結果を実証している。
しかし、自己注意および注意に基づくエンコーダデコーダモデルの応用は、ASRのストリーミングでは依然として困難である。
二重因果的/非因果的自己注意アーキテクチャを提案するが、これは制限された自己意識とは対照的に、全体的なコンテキストが単一のレイヤのルックアヘッドを超えて成長することを妨げている。
論文 参考訳(メタデータ) (2021-07-02T20:56:13Z) - Advanced Long-context End-to-end Speech Recognition Using
Context-expanded Transformers [56.56220390953412]
コンフォーメータアーキテクチャを導入することで、精度をさらに向上させ、以前の作業を拡張します。
拡張トランスフォーマーは、最先端のエンドツーエンドのASR性能を提供する。
論文 参考訳(メタデータ) (2021-04-19T16:18:00Z) - Dissecting User-Perceived Latency of On-Device E2E Speech Recognition [34.645194215436966]
我々は,トークン放出遅延とエンドポイント動作に影響を与える要因がユーザ知覚遅延(upl)に大きく影響することを示す。
我々は,最近提案されたアライメント正規化を用いて,ASRとエンドポイントを併用する際のレイテンシと単語エラー率の最良のトレードオフを実現する。
論文 参考訳(メタデータ) (2021-04-06T00:55:11Z) - Learning Word-Level Confidence For Subword End-to-End ASR [48.09713798451474]
自動音声認識(ASR)のためのサブワードベースエンドツーエンド(E2E)モデルにおける単語レベルの信頼度推定の問題について検討する。
提案した信頼度モジュールは、デバイス上のE2Eモデルとサーバ上のハイブリッドモデルを組み合わせて、E2Eモデルの稀な単語認識問題に対処するモデル選択アプローチを可能にする。
論文 参考訳(メタデータ) (2021-03-11T15:03:33Z) - Weak-Attention Suppression For Transformer Based Speech Recognition [33.30436927415777]
Weak-Attention Suppression (WAS) を提案する。
We demonstrate that WAS leads to consistent Word Error Rate (WER) improve over strong transformer baselines。
論文 参考訳(メタデータ) (2020-05-18T23:49:40Z) - Characterizing Speech Adversarial Examples Using Self-Attention U-Net
Enhancement [102.48582597586233]
本稿では,U-Net$_At$という,U-Netに基づくアテンションモデルを提案する。
対戦型音声アタックを用いた自動音声認識(ASR)タスクの実験を行った。
論文 参考訳(メタデータ) (2020-03-31T02:16:34Z) - Streaming automatic speech recognition with the transformer model [59.58318952000571]
本稿では,ストリーミングASRのためのトランスフォーマーに基づくエンドツーエンドASRシステムを提案する。
本研究では,エンコーダに時間制限付き自己アテンションを適用し,エンコーダ・デコーダのアテンション機構に注意を喚起する。
提案したストリーミングトランスアーキテクチャは,LibriSpeechの「クリーン」および「他の」テストデータに対して,2.8%と7.2%のWERを実現する。
論文 参考訳(メタデータ) (2020-01-08T18:58:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。