論文の概要: Semi-Autoregressive Streaming ASR With Label Context
- arxiv url: http://arxiv.org/abs/2309.10926v2
- Date: Tue, 20 Feb 2024 13:06:16 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-21 20:50:48.113380
- Title: Semi-Autoregressive Streaming ASR With Label Context
- Title(参考訳): ラベルコンテキストを用いたセミリグレッシブストリーミングasr
- Authors: Siddhant Arora, George Saon, Shinji Watanabe, Brian Kingsbury
- Abstract要約: 本稿では,先行ブロックで出力されたラベルを付加コンテキストとして組み込んだストリーミング「半自己回帰型」ASRモデルを提案する。
実験の結果,既存のストリーミングNARモデルではTedlium2が19%,Librispeech-100が16%/8%,Switchboard(SWB)/Callhome(CH)テストセットが19%/8%であった。
- 参考スコア(独自算出の注目度): 70.76222767090638
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Non-autoregressive (NAR) modeling has gained significant interest in speech
processing since these models achieve dramatically lower inference time than
autoregressive (AR) models while also achieving good transcription accuracy.
Since NAR automatic speech recognition (ASR) models must wait for the
completion of the entire utterance before processing, some works explore
streaming NAR models based on blockwise attention for low-latency applications.
However, streaming NAR models significantly lag in accuracy compared to
streaming AR and non-streaming NAR models. To address this, we propose a
streaming "semi-autoregressive" ASR model that incorporates the labels emitted
in previous blocks as additional context using a Language Model (LM)
subnetwork. We also introduce a novel greedy decoding algorithm that addresses
insertion and deletion errors near block boundaries while not significantly
increasing the inference time. Experiments show that our method outperforms the
existing streaming NAR model by 19% relative on Tedlium2, 16%/8% on
Librispeech-100 clean/other test sets, and 19%/8% on the
Switchboard(SWB)/Callhome(CH) test sets. It also reduced the accuracy gap with
streaming AR and non-streaming NAR models while achieving 2.5x lower latency.
We also demonstrate that our approach can effectively utilize external text
data to pre-train the LM subnetwork to further improve streaming ASR accuracy.
- Abstract(参考訳): 非自己回帰(NAR)モデリングは、これらのモデルが自己回帰(AR)モデルよりも劇的に低い推論時間を達成すると同時に、良好な転写精度を達成するため、音声処理において大きな関心を集めている。
NAR自動音声認識(ASR)モデルは処理前に全発話が完了するのを待たなければならないため、低遅延アプリケーションに対するブロックワイズに基づくNARモデルのストリーミングを検討する研究もある。
しかし、ストリーミングのNARモデルは、ストリーミングのARや非ストリーミングのNARモデルと比較して、精度が大幅に低下した。
そこで本稿では,従来のブロックで出力されたラベルをLanguage Model (LM) サブネットワークを用いて追加コンテキストとして組み込んだストリーミング自動回帰型ASRモデルを提案する。
また,ブロック境界付近の挿入と削除の誤りに対処し,推論時間を大幅に増加させない新しいグリーディ復号アルゴリズムを導入する。
実験の結果,既存のストリーミングNARモデルではTedlium2が19%,Librispeech-100が16%/8%,Switchboard(SWB)/Callhome(CH)テストセットが19%/8%であった。
さらに、ストリーミングarと非ストリーミングnarモデルとの精度ギャップを低減し、レイテンシを2.5倍に削減した。
また,本手法では,外部テキストデータを用いてlmサブネットワークの事前学習を行い,asrのストリーミング精度をさらに向上できることを実証する。
関連論文リスト
- Non-Autoregressive Machine Translation: It's Not as Fast as it Seems [84.47091735503979]
NARモデルに関する文献にみられる評価手法の欠陥を指摘する。
我々はNARモデルと他の広く使われている効率向上手法を比較した。
我々は,今後の作業において,より現実的で広範なNARモデルの評価を求める。
論文 参考訳(メタデータ) (2022-05-04T09:30:17Z) - A Comparative Study on Non-Autoregressive Modelings for Speech-to-Text
Generation [59.64193903397301]
非自己回帰モデル (NAR) はシーケンス内の複数の出力を同時に生成し、自動回帰ベースラインと比較して精度低下のコストで推論速度を著しく低減する。
エンドツーエンド自動音声認識(ASR)のための様々なNARモデリング手法の比較研究を行う。
各種課題の成果は, 精度・速度トレードオフや長文発話に対する頑健性など, NAR ASR の理解を深める上で興味深い結果をもたらす。
論文 参考訳(メタデータ) (2021-10-11T13:05:06Z) - Streaming End-to-End ASR based on Blockwise Non-Autoregressive Models [57.20432226304683]
非自己回帰(NAR)モデリングは、音声処理においてますます注目を集めている。
エンドツーエンドのNAR音声認識システムを提案する。
提案手法は低レイテンシ条件下でのオンラインASR認識を改善する。
論文 参考訳(メタデータ) (2021-07-20T11:42:26Z) - WNARS: WFST based Non-autoregressive Streaming End-to-End Speech
Recognition [59.975078145303605]
本稿では,ハイブリッドCTC-attention AEDモデルと重み付き有限状態トランスデューサを用いた新しいフレームワークWNARSを提案する。
AISHELL-1タスクでは、640msの遅延で5.22%の文字エラー率を達成し、オンラインASRの最先端のパフォーマンスである私たちの知識を最大限に活用します。
論文 参考訳(メタデータ) (2021-04-08T07:56:03Z) - TSNAT: Two-Step Non-Autoregressvie Transformer Models for Speech
Recognition [69.68154370877615]
非自己回帰(NAR)モデルは、出力トークン間の時間的依存関係を排除し、少なくとも1ステップで出力トークン全体を予測することができる。
この2つの問題に対処するため,TSNATと呼ばれる新しいモデルを提案する。
以上の結果から,TSNATはARモデルと競合する性能を示し,複雑なNARモデルよりも優れていた。
論文 参考訳(メタデータ) (2021-04-04T02:34:55Z) - Improving Streaming Automatic Speech Recognition With Non-Streaming
Model Distillation On Unsupervised Data [44.48235209327319]
ストリーミングのエンドツーエンド自動音声認識モデルは、スマートスピーカーやデバイス上のアプリケーションで広く利用されている。
教師として非ストリーミング型ASRモデルを活用することによって,新しい効果的な学習手法を提案する。
ストリーミングモデルのトレーニングを、最大300万時間のYouTubeオーディオに拡大しています。
論文 参考訳(メタデータ) (2020-10-22T22:41:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。