論文の概要: Online Automatic Speech Recognition with Listen, Attend and Spell Model
- arxiv url: http://arxiv.org/abs/2008.05514v2
- Date: Tue, 13 Oct 2020 18:40:28 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-31 05:50:27.904412
- Title: Online Automatic Speech Recognition with Listen, Attend and Spell Model
- Title(参考訳): リスニング・出席・スペルモデルを用いたオンライン自動音声認識
- Authors: Roger Hsiao, Dogan Can, Tim Ng, Ruchir Travadi and Arnab Ghoshal
- Abstract要約: 我々は、LASモデルのオンライン操作を分析し、これらの制限がサイレント領域のハンドリングに起因していることを示す。
そこで我々は,精度と遅延目標を満足しながら,オンラインの完全認識を実現する,新しい,シンプルな手法を提案する。
- 参考スコア(独自算出の注目度): 9.799762097012344
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The Listen, Attend and Spell (LAS) model and other attention-based automatic
speech recognition (ASR) models have known limitations when operated in a fully
online mode. In this paper, we analyze the online operation of LAS models to
demonstrate that these limitations stem from the handling of silence regions
and the reliability of online attention mechanism at the edge of input buffers.
We propose a novel and simple technique that can achieve fully online
recognition while meeting accuracy and latency targets. For the Mandarin
dictation task, our proposed approach can achieve a character error rate in
online operation that is within 4% relative to an offline LAS model. The
proposed online LAS model operates at 12% lower latency relative to a
conventional neural network hidden Markov model hybrid of comparable accuracy.
We have validated the proposed method through a production scale deployment,
which, to the best of our knowledge, is the first such deployment of a fully
online LAS model.
- Abstract(参考訳): Listen, Attend and Spell (LAS)モデルとその他の注意に基づく自動音声認識(ASR)モデルは、完全にオンラインモードで動作する場合に、既知の制限がある。
本稿では、LASモデルのオンライン操作を分析し、これらの制限が入力バッファのエッジにおけるサイレント領域のハンドリングとオンラインアテンション機構の信頼性に起因することを示す。
本稿では,精度とレイテンシの目標を満たしながら,完全オンライン認識を実現する新手法を提案する。
mandarin dictationタスクでは,提案手法はオフラインlasモデルと比較して4%以内のオンライン操作において文字誤り率を達成することができる。
提案するオンラインlasモデルは、従来のニューラルネットワーク隠れマルコフモデルと同等精度のハイブリッドに比べて12%低いレイテンシで動作する。
当社では,本番規模のデプロイメントを通じて提案手法を検証することで,当社の知る限りでは,完全なオンラインlasモデルを初めて導入した方法です。
関連論文リスト
- Quantifying the Role of Textual Predictability in Automatic Speech Recognition [13.306122574236232]
音声認識研究における長年の疑問は、エラーを音響をモデル化するモデルの能力にどのように属性付けるかである。
テキストの相対的予測可能性の関数として誤り率をモデル化する新しい手法を検証する。
本稿では,ASRの診断と改善において,このアプローチがいかに簡単に利用できるかを示す。
論文 参考訳(メタデータ) (2024-07-23T14:47:25Z) - LoRA-Ensemble: Efficient Uncertainty Modelling for Self-attention Networks [52.46420522934253]
本稿では,自己注意ネットワークのためのパラメータ効率の高いディープアンサンブル手法であるLoRA-Ensembleを紹介する。
全メンバー間で重みを共有できる1つの事前学習型自己注意ネットワークを利用することで、注意投影のために、メンバー固有の低ランク行列を訓練する。
提案手法は明示的なアンサンブルよりも優れたキャリブレーションを示し,様々な予測タスクやデータセットに対して類似あるいは良好な精度を実現する。
論文 参考訳(メタデータ) (2024-05-23T11:10:32Z) - MOTO: Offline Pre-training to Online Fine-tuning for Model-based Robot
Learning [52.101643259906915]
本研究では,高次元観測による強化学習におけるオフライン事前学習とオンラインファインチューニングの問題について検討する。
既存のモデルベースオフラインRL法は高次元領域におけるオフラインからオンラインへの微調整には適していない。
本稿では,事前データをモデルベース値拡張とポリシー正則化によって効率的に再利用できるオンラインモデルベース手法を提案する。
論文 参考訳(メタデータ) (2024-01-06T21:04:31Z) - Fast-Slow Test-Time Adaptation for Online Vision-and-Language Navigation [67.18144414660681]
オンラインビジョン・アンド・ランゲージナビゲーション(VLN)のためのFSTTA(Fast-Slow Test-Time Adaptation)アプローチを提案する。
提案手法は,4つのベンチマークにおいて顕著な性能向上を実現する。
論文 参考訳(メタデータ) (2023-11-22T07:47:39Z) - Augmenting conformers with structured state-space sequence models for
online speech recognition [41.444671189679994]
モデルが左の文脈のみにアクセスするオンライン音声認識は、ASRシステムにとって重要かつ困難なユースケースである。
本研究では、構造化状態空間シーケンスモデル(S4)を組み込んだオンラインASRのためのニューラルエンコーダの強化について検討する。
我々はS4モデルの変種を比較するために系統的アブレーション研究を行い、それらを畳み込みと組み合わせた2つの新しいアプローチを提案する。
我々の最良のモデルは、LibrispeechによるテストセットでWERの4.01%/8.53%を達成する。
論文 参考訳(メタデータ) (2023-09-15T17:14:17Z) - Exploring Effective Distillation of Self-Supervised Speech Models for
Automatic Speech Recognition [5.802425107635222]
SSLモデルの小型化は、実用価値の重要な研究方向となっている。
自動音声認識(ASR)のための HuBERT-based SSL モデルの有効蒸留について検討する。
特に低資源シナリオにおいて, 蒸留性能を高めるために, HuBERT の差別的損失を導入した。
論文 参考訳(メタデータ) (2022-10-27T17:21:14Z) - Online model error correction with neural networks in the incremental
4D-Var framework [0.0]
我々は,オンラインモデル誤り訂正のためのニューラルネットワークのトレーニングに使用できる,新しい弱制約4D-Varの定式化を開発した。
本手法はECMWFオブジェクト指向予測システムに実装されている。
その結果,オンライン学習が有効であることが確認され,オフライン学習よりも精度の高いモデル誤差補正が得られた。
論文 参考訳(メタデータ) (2022-10-25T07:45:33Z) - A Conformer Based Acoustic Model for Robust Automatic Speech Recognition [63.242128956046024]
提案手法は,二方向長短期記憶(BLSTM)モデルと発話ワイドドロップアウトと反復話者適応を用いて,最先端の音声認識システムを構築した。
コンフォーマーエンコーダは、音響モデリングに畳み込み強化されたアテンションメカニズムを使用する。
提案システムはCHiME-4コーパスの単調なASRタスクに基づいて評価される。
論文 参考訳(メタデータ) (2022-03-01T20:17:31Z) - Momentum Pseudo-Labeling for Semi-Supervised Speech Recognition [55.362258027878966]
本稿では,半教師付き音声認識のための簡易かつ効果的な手法として,モーメント擬似ラベル(MPL)を提案する。
MPLは、平均的な教師メソッドにインスパイアされて、相互に相互作用し、学習するオンラインとオフラインの2つのモデルで構成されている。
実験の結果,MPLはベースモデルよりも効果的に改善され,様々な半教師付きシナリオに拡張可能であることが示された。
論文 参考訳(メタデータ) (2021-06-16T16:24:55Z) - Joint Contextual Modeling for ASR Correction and Language Understanding [60.230013453699975]
言語理解(LU)と協調してASR出力の文脈的言語補正を行うマルチタスクニューラルアプローチを提案する。
そこで本研究では,市販のASRおよびLUシステムの誤差率を,少量のドメイン内データを用いてトレーニングしたジョイントモデルと比較して14%削減できることを示した。
論文 参考訳(メタデータ) (2020-01-28T22:09:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。