論文の概要: Minimum Latency Training of Sequence Transducers for Streaming
End-to-End Speech Recognition
- arxiv url: http://arxiv.org/abs/2211.02333v1
- Date: Fri, 4 Nov 2022 09:19:59 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-07 17:10:47.371479
- Title: Minimum Latency Training of Sequence Transducers for Streaming
End-to-End Speech Recognition
- Title(参考訳): エンドツーエンド音声認識のためのシーケンストランスデューサの最小レイテンシトレーニング
- Authors: Yusuke Shinohara and Shinji Watanabe
- Abstract要約: 本稿では,シーケンストランスデューサモデルの遅延を明示的にモデル化し,遅延を低減するための新しいトレーニング手法を提案する。
実験結果から,提案した最小レイテンシトレーニングにより,WER劣化率0.7%において,因果コンバータ-Tのレイテンシを220msから27msに短縮できることがわかった。
- 参考スコア(独自算出の注目度): 38.28868751443619
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Sequence transducers, such as the RNN-T and the Conformer-T, are one of the
most promising models of end-to-end speech recognition, especially in streaming
scenarios where both latency and accuracy are important. Although various
methods, such as alignment-restricted training and FastEmit, have been studied
to reduce the latency, latency reduction is often accompanied with a
significant degradation in accuracy. We argue that this suboptimal performance
might be caused because none of the prior methods explicitly model and reduce
the latency. In this paper, we propose a new training method to explicitly
model and reduce the latency of sequence transducer models. First, we define
the expected latency at each diagonal line on the lattice, and show that its
gradient can be computed efficiently within the forward-backward algorithm.
Then we augment the transducer loss with this expected latency, so that an
optimal trade-off between latency and accuracy is achieved. Experimental
results on the WSJ dataset show that the proposed minimum latency training
reduces the latency of causal Conformer-T from 220 ms to 27 ms within a WER
degradation of 0.7%, and outperforms conventional alignment-restricted training
(110 ms) and FastEmit (67 ms) methods.
- Abstract(参考訳): RNN-TやConformer-Tのようなシーケンストランスデューサは、特にレイテンシと精度の両方が重要であるストリーミングシナリオにおいて、エンドツーエンド音声認識の最も有望なモデルの一つである。
アライメント制限トレーニングやFastEmitといった様々な手法がレイテンシ低減のために研究されているが、レイテンシ低減は精度の大幅な低下を伴うことが多い。
従来のどの手法も明示的にモデル化せず、遅延を低減できないため、この亜最適性能が引き起こされる可能性がある。
本稿では,シーケンストランスデューサモデルの遅延を明示的にモデル化し,低減するための新しいトレーニング手法を提案する。
まず、格子上の各対角線における予測レイテンシを定義し、その勾配をフォワードバックワードアルゴリズムで効率的に計算できることを示す。
そして、この予測レイテンシでトランスデューサ損失を増大させ、レイテンシと精度の最適なトレードオフを実現する。
WSJデータセットの実験結果から,提案した最小遅延トレーニングにより,WER劣化率0.7%の220msから27msに短縮し,従来のアライメント制限トレーニング(110ms)とFastEmit(67ms)の手法より優れていた。
関連論文リスト
- OFDM-Standard Compatible SC-NOFS Waveforms for Low-Latency and Jitter-Tolerance Industrial IoT Communications [53.398544571833135]
この研究は、スペクトル的に効率的な不規則なSinc (irSinc) 整形法を提案し、1924年に従来のSincを再考した。
irSincは、誤差性能を犠牲にすることなくスペクトル効率が向上した信号を生成する。
我々の信号は、5G標準信号構成により、同じスペクトル帯域内で高速なデータ伝送を実現する。
論文 参考訳(メタデータ) (2024-06-07T09:20:30Z) - CQIL: Inference Latency Optimization with Concurrent Computation of Quasi-Independent Layers [21.91815582658188]
大規模言語モデルは、ほぼすべての自然言語処理タスクで前例のないパフォーマンスを実現している。
圧倒的な複雑さは、ユーザエクスペリエンスに悪影響を及ぼす高い推論遅延を引き起こします。
推定遅延を著しく低減するために並列に計算できる準独立層を同定することを提案する。
論文 参考訳(メタデータ) (2024-04-10T03:30:01Z) - Towards More Accurate Diffusion Model Acceleration with A Timestep
Aligner [84.97253871387028]
数千のデノナイジングステップを用いて画像を生成するために定式化された拡散モデルは通常、遅い推論速度に悩まされる。
最小限のコストで特定の区間に対するより正確な積分方向を見つけるのに役立つ時間ステップ整合器を提案する。
実験により,我々のプラグイン設計を効率的に訓練し,様々な最先端加速度法の推論性能を向上できることが示された。
論文 参考訳(メタデータ) (2023-10-14T02:19:07Z) - TrimTail: Low-Latency Streaming ASR with Simple but Effective
Spectrogram-Level Length Penalty [14.71509986713044]
本稿では,ストリーミングASRモデルのレイテンシを改善するために,TrimTailを提案する。
Aishell-1とLibrispeechで100$sim$200msの遅延低減を実現した。
論文 参考訳(メタデータ) (2022-11-01T15:12:34Z) - Delay-penalized transducer for low-latency streaming ASR [26.39851372961386]
本稿では,外部アライメントを伴わないストリーミングモデルにおいて,シンボル遅延と精度のトレードオフをバランスさせるため,トランスデューサモデルにおいてシンボル遅延をペナルタイズする簡単な方法を提案する。
提案手法は以前公表したFastEmitと同じような遅延精度のトレードオフを実現するが, 正当性が高いため, 平均的なシンボル遅延をペナルティ化するのに等価であると考えられる。
論文 参考訳(メタデータ) (2022-10-31T07:03:50Z) - FastEmit: Low-latency Streaming ASR with Sequence-level Emission
Regularization [78.46088089185156]
ストリーム自動音声認識(ASR)は、仮説化された単語を可能な限り迅速かつ正確に出力することを目的としている。
既存のアプローチでは、シーケンストランスデューサモデルにおいて、トーケン単位またはフレーム単位の確率予測を演算することで、発光遅延をペナルティ化する。
本稿では,訓練用トランスデューサモデルにおいて,シーケンス毎の確率に遅延正規化を直接適用する,FastEmitというシーケンスレベルのエミッション正規化手法を提案する。
論文 参考訳(メタデータ) (2020-10-21T17:05:01Z) - Predicting Training Time Without Training [120.92623395389255]
我々は、事前訓練された深層ネットワークが損失関数の所定の値に収束する必要がある最適化ステップの数を予測する問題に取り組む。
我々は、微調整中の深部ネットワークのトレーニングダイナミクスが線形化モデルによってよく近似されているという事実を活用する。
トレーニングをする必要なく、特定の損失にモデルを微調整するのに要する時間を予測できます。
論文 参考訳(メタデータ) (2020-08-28T04:29:54Z) - Extrapolation for Large-batch Training in Deep Learning [72.61259487233214]
我々は、バリエーションのホストが、我々が提案する統一されたフレームワークでカバー可能であることを示す。
本稿では,この手法の収束性を証明し,ResNet,LSTM,Transformer上での経験的性能を厳格に評価する。
論文 参考訳(メタデータ) (2020-06-10T08:22:41Z) - Minimum Latency Training Strategies for Streaming Sequence-to-Sequence
ASR [44.229256049718316]
線形時間復号複雑性を伴うオンライン音声認識を実現するために,ストリームアテンションに基づくシーケンス・ツー・シーケンス(S2S)モデルが提案されている。
これらのモデルでは、一方向エンコーダには将来的な情報がないため、実際の音響境界よりもトークンを生成する決定が遅れる。
本稿では,ハイブリッドモデルから抽出した外部ハードアライメントを活用することで,トレーニング中のいくつかの戦略を提案する。
Cortana音声検索タスクの実験により,提案手法は遅延を著しく低減し,デコーダ側の特定の場合の認識精度も向上することを示した。
論文 参考訳(メタデータ) (2020-04-10T12:24:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。