論文の概要: U2++: Unified Two-pass Bidirectional End-to-end Model for Speech
Recognition
- arxiv url: http://arxiv.org/abs/2106.05642v1
- Date: Thu, 10 Jun 2021 10:25:15 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-12 14:42:13.382570
- Title: U2++: Unified Two-pass Bidirectional End-to-end Model for Speech
Recognition
- Title(参考訳): U2++: 音声認識のための双方向双方向統合モデル
- Authors: Di Wu, Binbin Zhang, Chao Yang, Zhendong Peng, Wenjing Xia, Xiaoyu
Chen, Xin Lei
- Abstract要約: U2++は、精度をさらに向上するU2の強化バージョンである。
U2++の中核となる考え方は、トレーニング時に同時にラベリングシーケンスの前方情報と後方情報を使用することである。
また、U2++モデルをより正確かつ堅牢にするために、SpecSubと呼ばれる新しいデータ拡張手法を提案しました。
- 参考スコア(独自算出の注目度): 12.862083774165333
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: The unified streaming and non-streaming two-pass (U2) end-to-end model for
speech recognition has shown great performance in terms of streaming
capability, accuracy, real-time factor (RTF), and latency. In this paper, we
present U2++, an enhanced version of U2 to further improve the accuracy. The
core idea of U2++ is to use the forward and the backward information of the
labeling sequences at the same time at training to learn richer information,
and combine the forward and backward prediction at decoding to give more
accurate recognition results. We also proposed a new data augmentation method
called SpecSub to help the U2++ model to be more accurate and robust. Our
experiments show that, compared with U2, U2++ shows faster convergence at
training, better robustness to the decoding method, as well as consistent 5\% -
8\% word error rate reduction gain over U2. On the experiment of AISHELL-1, we
achieve a 4.63\% character error rate (CER) with a non-streaming setup and
5.05\% with a streaming setup with 320ms latency by U2++. To the best of our
knowledge, 5.05\% is the best-published streaming result on the AISHELL-1 test
set.
- Abstract(参考訳): 音声認識のための統合ストリーミングと非ストリーミング2パスモデル(U2)は、ストリーミング能力、精度、リアルタイム係数(RTF)、レイテンシにおいて優れたパフォーマンスを示している。
本稿では,U2の精度向上のための拡張版であるU2++を提案する。
U2++の中核となる考え方は、トレーニング時にラベル配列の前方および後方情報を同時に使用し、よりリッチな情報を学び、復号時の前方と後方の予測を組み合わせてより正確な認識結果を与えることである。
また、u2++モデルをより正確かつ堅牢にするためのspecsubと呼ばれる新しいデータ拡張手法も提案しました。
実験の結果,U2++はU2に比べて学習時の収束速度が向上し,復号法に対する堅牢性が向上し,単語誤り率の減少率が5\%であることがわかった。
AISHELL-1の実験では、非ストリーミングセットアップで4.63\%の文字エラー率(CER)、U2++で320msのレイテンシを持つストリーミングセットアップで5.05\%を達成する。
我々の知る限りでは、5.05\%はAISHELL-1テストセットで最も多く発行されたストリーミング結果である。
関連論文リスト
- Self-Distilled Masked Auto-Encoders are Efficient Video Anomaly
Detectors [117.61449210940955]
ビデオフレームレベルで適用された軽量マスク付きオートエンコーダ(AE)に基づく効率的な異常事象検出モデルを提案する。
動き勾配に基づく重みトークンへのアプローチを導入し、静的背景シーンから前景オブジェクトへ焦点を移す。
トレーニングビデオの強化のために合成異常事象を生成し,マスク付きAEモデルを用いてオリジナルのフレームを共同で再構築する。
論文 参考訳(メタデータ) (2023-06-21T06:18:05Z) - Two Stage Contextual Word Filtering for Context bias in Unified
Streaming and Non-streaming Transducer [17.835882045443896]
E2E ASRシステムでは、トレーニングデータに頻繁に現れるエンティティなどの単語を認識することは困難である。
本稿では,ストリーミングとストリーミングを併用したE2Eモデルに対して,高品質なコンテキストリストを得るための効率的な手法を提案する。
論文 参考訳(メタデータ) (2023-01-17T07:29:26Z) - UnitY: Two-pass Direct Speech-to-speech Translation with Discrete Units [64.61596752343837]
本稿では,まずテキスト表現を生成し,離散音響単位を予測する2パス直接S2STアーキテクチャであるUnitYを提案する。
第1パスデコーダのサブワード予測によりモデル性能を向上させる。
提案手法は,第2パスのスペクトルを予測しても性能が向上することを示す。
論文 参考訳(メタデータ) (2022-12-15T18:58:28Z) - Joint Audio/Text Training for Transformer Rescorer of Streaming Speech
Recognition [13.542483062256109]
トランスフォーマー・リスコラーのための共同音声/テキスト学習法を提案する。
トレーニング手法は標準のTransformer Rescorerと比較して単語誤り率(WER)を大幅に向上させることができる。
論文 参考訳(メタデータ) (2022-10-31T22:38:28Z) - On Comparison of Encoders for Attention based End to End Speech
Recognition in Standalone and Rescoring Mode [1.7704011486040847]
非ストリーミングモデルは、オーディオコンテキスト全体を見ると、より良いパフォーマンスを提供する。
我々はTransformerモデルが最低レイテンシ要件で許容できるWERを提供することを示す。
We highlight the importance of CNN front-end with Transformer architecture to achieve comparable word error rate (WER)。
論文 参考訳(メタデータ) (2022-06-26T09:12:27Z) - E2S2: Encoding-Enhanced Sequence-to-Sequence Pretraining for Language
Understanding and Generation [95.49128988683191]
シークエンス・ツー・シークエンス(seq2seq)学習は、大規模事前学習言語モデルにおいて一般的な方法である。
本稿では,エンコーディング強化のseq2seq事前学習戦略,すなわちE2S2を提案する。
E2S2は、より効率的な自己教師付き情報をエンコーダに統合することで、Seq2seqモデルを改善する。
論文 参考訳(メタデータ) (2022-05-30T08:25:36Z) - WNARS: WFST based Non-autoregressive Streaming End-to-End Speech
Recognition [59.975078145303605]
本稿では,ハイブリッドCTC-attention AEDモデルと重み付き有限状態トランスデューサを用いた新しいフレームワークWNARSを提案する。
AISHELL-1タスクでは、640msの遅延で5.22%の文字エラー率を達成し、オンラインASRの最先端のパフォーマンスである私たちの知識を最大限に活用します。
論文 参考訳(メタデータ) (2021-04-08T07:56:03Z) - Unified Streaming and Non-streaming Two-pass End-to-end Model for Speech
Recognition [19.971343876930767]
ストリーミングと非ストリーミングエンドツーエンド(E2E)音声認識を1つのモデルで統一する,新たな2パス方式を提案する。
本モデルでは,エンコーダのコンフォメータ層を改良したハイブリッドCTC/アテンションアーキテクチャを採用している。
オープンな170時間AISHELL-1データセットの実験により、提案手法はストリーミングモデルと非ストリーミングモデルを簡便かつ効率的に統一できることを示した。
論文 参考訳(メタデータ) (2020-12-10T06:54:54Z) - Cascaded encoders for unifying streaming and non-streaming ASR [68.62941009369125]
この研究は、両方のモードで同時に動作可能な単一のE2E ASRモデルを構築するためのカスケードエンコーダを提示する。
シングルデコーダは、ストリーミングの出力または非ストリーミングエンコーダを使用してデコーダを学習する。
その結果,このモデルはストリーミングモードで動作する場合,スタンドアロンのストリーミングモデルと同様のワードエラー率(WER)を実現し,非ストリーミングモードで動作する場合,10%~27%の相対的改善が得られた。
論文 参考訳(メタデータ) (2020-10-27T20:59:50Z) - Transformer Transducer: One Model Unifying Streaming and Non-streaming
Speech Recognition [16.082949461807335]
本稿では,Transformer-Transducerモデルアーキテクチャと,ストリーミングおよび非ストリーミング音声認識モデルを1つのモデルに統合するためのトレーニング手法を提案する。
私たちは、このモデルを低レイテンシと高レイテンシモードで、上位層を並列に実行するYモデルアーキテクチャで実行できることを示します。
これにより、レイテンシが制限されたストリーミング音声認識結果と、精度を大幅に向上した遅延音声認識結果が得られる。
論文 参考訳(メタデータ) (2020-10-07T05:58:28Z) - Training Binary Neural Networks with Real-to-Binary Convolutions [52.91164959767517]
完全精度のネットワークのうち、数パーセント以内にバイナリネットワークをトレーニングする方法を示します。
我々は、最先端の精度をすでに達成している強力なベースラインを構築する方法を示す。
すべての改善をまとめると、提案したモデルは、ImageNet上で5%以上のトップ1精度で、現在の最先端の技術を上回ります。
論文 参考訳(メタデータ) (2020-03-25T17:54:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。