論文の概要: Reducing Streaming ASR Model Delay with Self Alignment
- arxiv url: http://arxiv.org/abs/2105.05005v1
- Date: Thu, 6 May 2021 18:00:11 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-13 12:38:23.376827
- Title: Reducing Streaming ASR Model Delay with Self Alignment
- Title(参考訳): 自己アライメントによるストリーミングASRモデル遅延の低減
- Authors: Jaeyoung Kim, Han Lu, Anshuman Tripathi, Qian Zhang and Hasim Sak
- Abstract要約: 制約付きアライメントは、外部の低遅延音響モデルを用いて予測された単語境界をペナライズする、よく知られたアプローチである。
FastEmitは、参照アライメントなしでブランク上の語彙トークンを奨励するシーケンスレベルの遅延正規化スキームです。
本稿では,自己アライメントという,新たな遅延制約手法を提案する。
- 参考スコア(独自算出の注目度): 20.61461084287351
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Reducing prediction delay for streaming end-to-end ASR models with minimal
performance regression is a challenging problem. Constrained alignment is a
well-known existing approach that penalizes predicted word boundaries using
external low-latency acoustic models. On the contrary, recently proposed
FastEmit is a sequence-level delay regularization scheme encouraging vocabulary
tokens over blanks without any reference alignments. Although all these schemes
are successful in reducing delay, ASR word error rate (WER) often severely
degrades after applying these delay constraining schemes. In this paper, we
propose a novel delay constraining method, named self alignment. Self alignment
does not require external alignment models. Instead, it utilizes Viterbi
forced-alignments from the trained model to find the lower latency alignment
direction. From LibriSpeech evaluation, self alignment outperformed existing
schemes: 25% and 56% less delay compared to FastEmit and constrained alignment
at the similar word error rate. For Voice Search evaluation,12% and 25% delay
reductions were achieved compared to FastEmit and constrained alignment with
more than 2% WER improvements.
- Abstract(参考訳): パフォーマンスレグレッションを最小限に抑えたストリーミングエンドツーエンドのASRモデルの予測遅延を低減することは難しい問題である。
制約付きアライメントは、外部低遅延音響モデルを用いて予測された単語境界をペナライズする、よく知られたアプローチである。
それとは対照的に、最近提案されたFastEmitは、参照アライメントのないブランク上の語彙トークンを奨励するシーケンスレベルの遅延正規化スキームである。
これらすべてのスキームは遅延低減に成功しているが、これらの遅延制約スキームを適用した後、ASRワードエラーレート(WER)は著しく低下することが多い。
本稿では,自己アライメント(自己アライメント)という新しい遅延制約手法を提案する。
自己アライメントは外部アライメントモデルを必要としない。
代わりに、トレーニングされたモデルからviterbi強制調整を使用して、低いレイテンシアライメント方向を見つける。
librispeechの評価から、自己アライメントは、同様の単語誤り率でファシミットや制約付きアライメントよりも25%と56%低い既存のスキームよりも優れていた。
音声検索の評価では,ファシミットと制約付きアライメントと比較して12%,25%の遅延低減が達成され,2%以上の改善が得られた。
関連論文リスト
- Evaluation of real-time transcriptions using end-to-end ASR models [41.94295877935867]
リアルタイムのシナリオでは、音声は事前に記録されておらず、入力された音声は、ASRシステムによって処理されるように断片化されなければならない。
本稿では、3つの音声分割アルゴリズムを異なるASRモデルで評価し、転写品質とエンドツーエンド遅延の両方に与える影響を判定する。
論文 参考訳(メタデータ) (2024-09-09T14:41:57Z) - Stochastic Approximation with Delayed Updates: Finite-Time Rates under Markovian Sampling [73.5602474095954]
マルコフサンプリングの遅延更新による近似スキームの非漸近的性能について検討した。
我々の理論的な発見は、幅広いアルゴリズムの遅延の有限時間効果に光を当てた。
論文 参考訳(メタデータ) (2024-02-19T03:08:02Z) - Semi-Autoregressive Streaming ASR With Label Context [70.76222767090638]
本稿では,先行ブロックで出力されたラベルを付加コンテキストとして組み込んだストリーミング「半自己回帰型」ASRモデルを提案する。
実験の結果,既存のストリーミングNARモデルではTedlium2が19%,Librispeech-100が16%/8%,Switchboard(SWB)/Callhome(CH)テストセットが19%/8%であった。
論文 参考訳(メタデータ) (2023-09-19T20:55:58Z) - Minimum Latency Training of Sequence Transducers for Streaming
End-to-End Speech Recognition [38.28868751443619]
本稿では,シーケンストランスデューサモデルの遅延を明示的にモデル化し,遅延を低減するための新しいトレーニング手法を提案する。
実験結果から,提案した最小レイテンシトレーニングにより,WER劣化率0.7%において,因果コンバータ-Tのレイテンシを220msから27msに短縮できることがわかった。
論文 参考訳(メタデータ) (2022-11-04T09:19:59Z) - Delay-penalized transducer for low-latency streaming ASR [26.39851372961386]
本稿では,外部アライメントを伴わないストリーミングモデルにおいて,シンボル遅延と精度のトレードオフをバランスさせるため,トランスデューサモデルにおいてシンボル遅延をペナルタイズする簡単な方法を提案する。
提案手法は以前公表したFastEmitと同じような遅延精度のトレードオフを実現するが, 正当性が高いため, 平均的なシンボル遅延をペナルティ化するのに等価であると考えられる。
論文 参考訳(メタデータ) (2022-10-31T07:03:50Z) - Streaming End-to-End ASR based on Blockwise Non-Autoregressive Models [57.20432226304683]
非自己回帰(NAR)モデリングは、音声処理においてますます注目を集めている。
エンドツーエンドのNAR音声認識システムを提案する。
提案手法は低レイテンシ条件下でのオンラインASR認識を改善する。
論文 参考訳(メタデータ) (2021-07-20T11:42:26Z) - FastCorrect: Fast Error Correction with Edit Alignment for Automatic
Speech Recognition [90.34177266618143]
編集アライメントに基づく新しいNAR誤り訂正モデルであるFastCorrectを提案する。
fastcorrectは推論を6-9倍高速化し、自己回帰補正モデルと比較して精度を8-14%向上させる。
ニューラルマシン翻訳で採用されている一般的なNARモデルの精度を、大きなマージンで上回っています。
論文 参考訳(メタデータ) (2021-05-09T05:35:36Z) - FastEmit: Low-latency Streaming ASR with Sequence-level Emission
Regularization [78.46088089185156]
ストリーム自動音声認識(ASR)は、仮説化された単語を可能な限り迅速かつ正確に出力することを目的としている。
既存のアプローチでは、シーケンストランスデューサモデルにおいて、トーケン単位またはフレーム単位の確率予測を演算することで、発光遅延をペナルティ化する。
本稿では,訓練用トランスデューサモデルにおいて,シーケンス毎の確率に遅延正規化を直接適用する,FastEmitというシーケンスレベルのエミッション正規化手法を提案する。
論文 参考訳(メタデータ) (2020-10-21T17:05:01Z) - Adaptive Braking for Mitigating Gradient Delay [0.8602553195689513]
適応ブレーキ(Adaptive Braking)は、運動量に基づく勾配の修正であり、勾配遅延の影響を緩和する。
本研究では,SGD 上の AB を運動量で適用することにより,CIFAR-10 と ImageNet-1k 上の ResNet を最終テスト精度で最小限の遅延でトレーニングできることを示す。
論文 参考訳(メタデータ) (2020-07-02T21:26:27Z) - Listen Attentively, and Spell Once: Whole Sentence Generation via a
Non-Autoregressive Architecture for Low-Latency Speech Recognition [66.47000813920619]
我々はLASOと呼ばれる非自己回帰型エンドツーエンド音声認識システムを提案する。
非自己回帰性のため、LASOは他のトークンに依存することなくシーケンス内のテキストトークンを予測する。
我々は,中国における公開データセットAISHELL-1の実験を行った。
論文 参考訳(メタデータ) (2020-05-11T04:45:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。