論文の概要: Delay-penalized transducer for low-latency streaming ASR
- arxiv url: http://arxiv.org/abs/2211.00490v1
- Date: Mon, 31 Oct 2022 07:03:50 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-02 13:35:25.388983
- Title: Delay-penalized transducer for low-latency streaming ASR
- Title(参考訳): 低遅延ストリーミングasr用遅延ペナルティ化トランスデューサ
- Authors: Wei Kang, Zengwei Yao, Fangjun Kuang, Liyong Guo, Xiaoyu Yang, Long
lin, Piotr \.Zelasko, Daniel Povey
- Abstract要約: 本稿では,外部アライメントを伴わないストリーミングモデルにおいて,シンボル遅延と精度のトレードオフをバランスさせるため,トランスデューサモデルにおいてシンボル遅延をペナルタイズする簡単な方法を提案する。
提案手法は以前公表したFastEmitと同じような遅延精度のトレードオフを実現するが, 正当性が高いため, 平均的なシンボル遅延をペナルティ化するのに等価であると考えられる。
- 参考スコア(独自算出の注目度): 26.39851372961386
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In streaming automatic speech recognition (ASR), it is desirable to reduce
latency as much as possible while having minimum impact on recognition
accuracy. Although a few existing methods are able to achieve this goal, they
are difficult to implement due to their dependency on external alignments. In
this paper, we propose a simple way to penalize symbol delay in transducer
model, so that we can balance the trade-off between symbol delay and accuracy
for streaming models without external alignments. Specifically, our method adds
a small constant times (T/2 - t), where T is the number of frames and t is the
current frame, to all the non-blank log-probabilities (after normalization)
that are fed into the two dimensional transducer recursion. For both streaming
Conformer models and unidirectional long short-term memory (LSTM) models,
experimental results show that it can significantly reduce the symbol delay
with an acceptable performance degradation. Our method achieves similar
delay-accuracy trade-off to the previously published FastEmit, but we believe
our method is preferable because it has a better justification: it is
equivalent to penalizing the average symbol delay. Our work is open-sourced and
publicly available (https://github.com/k2-fsa/k2).
- Abstract(参考訳): ストリーミング自動音声認識(ASR)では,音声認識精度に最小限の影響を与えながら,レイテンシを極力低減することが望ましい。
既存のメソッドはこの目標を達成することができるが、外部アライメントに依存しているため実装は困難である。
本稿では,外部アライメントを伴わないストリーミングモデルにおいて,シンボル遅延と精度のトレードオフをバランスさせるため,トランスデューサモデルにおいてシンボル遅延をペナルタイズする簡単な方法を提案する。
具体的には、Tはフレームの数であり、tは現在のフレームであり、2次元トランスデューサ再帰に入力されるすべての非ブランク対数確率(正規化後)に、小さな定数時間(T/2 - t)を加える。
ストリーミングコンフォーマーモデルと一方向長短期メモリ(LSTM)モデルの両方に対して、実験結果から、許容性能劣化によるシンボル遅延を大幅に低減できることが示された。
提案手法は以前公表したFastEmitと同じような遅延精度のトレードオフを実現するが, 正当性が高いため, 平均的なシンボル遅延をペナルティ化するのと同等である。
私たちの仕事はオープンソースで公開されている(https://github.com/k2-fsa/k2)。
関連論文リスト
- Towards More Accurate Diffusion Model Acceleration with A Timestep
Aligner [84.97253871387028]
数千のデノナイジングステップを用いて画像を生成するために定式化された拡散モデルは通常、遅い推論速度に悩まされる。
最小限のコストで特定の区間に対するより正確な積分方向を見つけるのに役立つ時間ステップ整合器を提案する。
実験により,我々のプラグイン設計を効率的に訓練し,様々な最先端加速度法の推論性能を向上できることが示された。
論文 参考訳(メタデータ) (2023-10-14T02:19:07Z) - Semi-Autoregressive Streaming ASR With Label Context [70.76222767090638]
本稿では,先行ブロックで出力されたラベルを付加コンテキストとして組み込んだストリーミング「半自己回帰型」ASRモデルを提案する。
実験の結果,既存のストリーミングNARモデルではTedlium2が19%,Librispeech-100が16%/8%,Switchboard(SWB)/Callhome(CH)テストセットが19%/8%であった。
論文 参考訳(メタデータ) (2023-09-19T20:55:58Z) - Practical Conformer: Optimizing size, speed and flops of Conformer for
on-Device and cloud ASR [67.63332492134332]
我々は、デバイス上の制約を満たすのに十分小さく、TPUを高速に推論できる最適化されたコンバータを設計する。
提案するエンコーダは、デバイス上では強力なスタンドアロンエンコーダとして、また高性能なASRパイプラインの第1部として利用することができる。
論文 参考訳(メタデータ) (2023-03-31T23:30:48Z) - Minimum Latency Training of Sequence Transducers for Streaming
End-to-End Speech Recognition [38.28868751443619]
本稿では,シーケンストランスデューサモデルの遅延を明示的にモデル化し,遅延を低減するための新しいトレーニング手法を提案する。
実験結果から,提案した最小レイテンシトレーニングにより,WER劣化率0.7%において,因果コンバータ-Tのレイテンシを220msから27msに短縮できることがわかった。
論文 参考訳(メタデータ) (2022-11-04T09:19:59Z) - Streaming End-to-End ASR based on Blockwise Non-Autoregressive Models [57.20432226304683]
非自己回帰(NAR)モデリングは、音声処理においてますます注目を集めている。
エンドツーエンドのNAR音声認識システムを提案する。
提案手法は低レイテンシ条件下でのオンラインASR認識を改善する。
論文 参考訳(メタデータ) (2021-07-20T11:42:26Z) - Reducing Streaming ASR Model Delay with Self Alignment [20.61461084287351]
制約付きアライメントは、外部の低遅延音響モデルを用いて予測された単語境界をペナライズする、よく知られたアプローチである。
FastEmitは、参照アライメントなしでブランク上の語彙トークンを奨励するシーケンスレベルの遅延正規化スキームです。
本稿では,自己アライメントという,新たな遅延制約手法を提案する。
論文 参考訳(メタデータ) (2021-05-06T18:00:11Z) - Unified Streaming and Non-streaming Two-pass End-to-end Model for Speech
Recognition [19.971343876930767]
ストリーミングと非ストリーミングエンドツーエンド(E2E)音声認識を1つのモデルで統一する,新たな2パス方式を提案する。
本モデルでは,エンコーダのコンフォメータ層を改良したハイブリッドCTC/アテンションアーキテクチャを採用している。
オープンな170時間AISHELL-1データセットの実験により、提案手法はストリーミングモデルと非ストリーミングモデルを簡便かつ効率的に統一できることを示した。
論文 参考訳(メタデータ) (2020-12-10T06:54:54Z) - FastEmit: Low-latency Streaming ASR with Sequence-level Emission
Regularization [78.46088089185156]
ストリーム自動音声認識(ASR)は、仮説化された単語を可能な限り迅速かつ正確に出力することを目的としている。
既存のアプローチでは、シーケンストランスデューサモデルにおいて、トーケン単位またはフレーム単位の確率予測を演算することで、発光遅延をペナルティ化する。
本稿では,訓練用トランスデューサモデルにおいて,シーケンス毎の確率に遅延正規化を直接適用する,FastEmitというシーケンスレベルのエミッション正規化手法を提案する。
論文 参考訳(メタデータ) (2020-10-21T17:05:01Z) - Boosting Continuous Sign Language Recognition via Cross Modality
Augmentation [135.30357113518127]
連続手話認識は不整合のビデオテキストペアを扱う。
クロスモーダル拡張を用いた新しいアーキテクチャを提案する。
提案するフレームワークは、既存のCTCベースの連続SLRアーキテクチャに容易に拡張できる。
論文 参考訳(メタデータ) (2020-10-11T15:07:50Z) - Minimum Latency Training Strategies for Streaming Sequence-to-Sequence
ASR [44.229256049718316]
線形時間復号複雑性を伴うオンライン音声認識を実現するために,ストリームアテンションに基づくシーケンス・ツー・シーケンス(S2S)モデルが提案されている。
これらのモデルでは、一方向エンコーダには将来的な情報がないため、実際の音響境界よりもトークンを生成する決定が遅れる。
本稿では,ハイブリッドモデルから抽出した外部ハードアライメントを活用することで,トレーニング中のいくつかの戦略を提案する。
Cortana音声検索タスクの実験により,提案手法は遅延を著しく低減し,デコーダ側の特定の場合の認識精度も向上することを示した。
論文 参考訳(メタデータ) (2020-04-10T12:24:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。