論文の概要: Transformer Based Deliberation for Two-Pass Speech Recognition
- arxiv url: http://arxiv.org/abs/2101.11577v1
- Date: Wed, 27 Jan 2021 18:05:22 GMT
- ステータス: 処理完了
- システム内更新日: 2021-02-01 19:39:20.275457
- Title: Transformer Based Deliberation for Two-Pass Speech Recognition
- Title(参考訳): トランスベース2パス音声認識のための検討
- Authors: Ke Hu, Ruoming Pang, Tara N. Sainath, Trevor Strohman
- Abstract要約: 音声認識システムは、単語を素早く生成し、正確な結果を生成する必要がある。
2つのパスモデルは、単語を素早く出力する1次パスデコーダと、よりコンテキストを必要とするがより正確である2次パスデコーダを使用することで、これらの要求に優れる。
以前は、議論ネットワークが効果的な第2パスモデルになり得ることが証明されていた。
- 参考スコア(独自算出の注目度): 46.86118010771703
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Interactive speech recognition systems must generate words quickly while also
producing accurate results. Two-pass models excel at these requirements by
employing a first-pass decoder that quickly emits words, and a second-pass
decoder that requires more context but is more accurate. Previous work has
established that a deliberation network can be an effective second-pass model.
The model attends to two kinds of inputs at once: encoded audio frames and the
hypothesis text from the first-pass model. In this work, we explore using
transformer layers instead of long-short term memory (LSTM) layers for
deliberation rescoring. In transformer layers, we generalize the
"encoder-decoder" attention to attend to both encoded audio and first-pass text
hypotheses. The output context vectors are then combined by a merger layer.
Compared to LSTM-based deliberation, our best transformer deliberation achieves
7% relative word error rate improvements along with a 38% reduction in
computation. We also compare against non-deliberation transformer rescoring,
and find a 9% relative improvement.
- Abstract(参考訳): 対話型音声認識システムでは、単語を素早く生成し、正確な結果を生成する必要がある。
2つのパスモデルは、単語を素早く出力する1次パスデコーダと、よりコンテキストを必要とするがより正確である2次パスデコーダを使用することで、これらの要求に優れる。
前回の研究では、審議ネットワークが効果的な第2パスモデルになり得ると定めている。
モデルは、符号化オーディオフレームと、ファーストパスモデルからの仮説テキストの2種類の入力を一度に処理する。
本研究では,long-short term memory (lstm) 層の代わりにtransformer layerを用いた検討を行う。
トランス層では、「エンコーダ・デコーダ」の注意を一般化し、符号化音声とファーストパステキストの仮説の両方に参画する。
そして、出力コンテキストベクトルを合併層で結合する。
lstmに基づく検討と比較して,提案手法は7%の単語誤り率向上と38%の計算量削減を実現している。
また, 非熟成変圧器のリコーリングと比較し, 9%の相対的改善率を示した。
関連論文リスト
- UnitY: Two-pass Direct Speech-to-speech Translation with Discrete Units [64.61596752343837]
本稿では,まずテキスト表現を生成し,離散音響単位を予測する2パス直接S2STアーキテクチャであるUnitYを提案する。
第1パスデコーダのサブワード予測によりモデル性能を向上させる。
提案手法は,第2パスのスペクトルを予測しても性能が向上することを示す。
論文 参考訳(メタデータ) (2022-12-15T18:58:28Z) - Joint Audio/Text Training for Transformer Rescorer of Streaming Speech
Recognition [13.542483062256109]
トランスフォーマー・リスコラーのための共同音声/テキスト学習法を提案する。
トレーニング手法は標準のTransformer Rescorerと比較して単語誤り率(WER)を大幅に向上させることができる。
論文 参考訳(メタデータ) (2022-10-31T22:38:28Z) - Pre-Training Transformer Decoder for End-to-End ASR Model with Unpaired
Speech Data [145.95460945321253]
本稿では,音響単位,すなわち擬似符号を用いたエンコーダ・デコーダネットワークのための2つの事前学習タスクを提案する。
提案したSpeech2Cは,デコーダを事前学習することなく,単語誤り率(WER)を19.2%削減できる。
論文 参考訳(メタデータ) (2022-03-31T15:33:56Z) - Trans-Encoder: Unsupervised sentence-pair modelling through self- and
mutual-distillations [22.40667024030858]
バイエンコーダは固定次元の文表現を生成し、計算効率が良い。
クロスエンコーダは、アテンションヘッドを利用して、より優れたパフォーマンスのために文間相互作用を利用することができる。
Trans-Encoderは、2つの学習パラダイムを反復的なジョイントフレームワークに統合し、拡張されたバイ・エンコーダとクロス・エンコーダを同時に学習する。
論文 参考訳(メタデータ) (2021-09-27T14:06:47Z) - Low-Latency Sequence-to-Sequence Speech Recognition and Translation by
Partial Hypothesis Selection [15.525314212209562]
チャンクベースインクリメンタル推論のための3つの遅延低減手法を提案する。
提案手法は低遅延音声翻訳にも適用可能であることを示す。
論文 参考訳(メタデータ) (2020-05-22T13:42:54Z) - On Sparsifying Encoder Outputs in Sequence-to-Sequence Models [90.58793284654692]
我々はTransformerをテストベッドとして、エンコーダとデコーダの間にあるゲートの層を導入します。
ゲートは、パリシティ誘導L0ペナルティの期待値を用いて正規化される。
このスペーサー化が2つの機械翻訳と2つの要約タスクに与える影響について検討する。
論文 参考訳(メタデータ) (2020-04-24T16:57:52Z) - Deliberation Model Based Two-Pass End-to-End Speech Recognition [52.45841282906516]
非ストリーミングのリステン・アテン・アンド・スペル(LAS)モデルを用いて、ストリーム仮説を再スコアする2パスモデルが提案されている。
このモデルは、第一パスのテキスト仮説のみを使用する神経矯正モデルのクラスとは対照的に、音響学で仮説を再評価する。
双方向エンコーダを用いて、ファーストパス仮説からコンテキスト情報を抽出する。
論文 参考訳(メタデータ) (2020-03-17T22:01:12Z) - Transformer Transducer: A Streamable Speech Recognition Model with
Transformer Encoders and RNN-T Loss [14.755108017449295]
本稿では,ストリーム音声認識システムで使用可能なTransformerエンコーダを用いたエンドツーエンド音声認識モデルを提案する。
自己アテンションに基づくトランスフォーマー計算ブロックは、オーディオシーケンスとラベルシーケンスの両方を独立に符号化するために使用される。
We present results on the LibriSpeech dataset shows that limiting the left context for self-attention makes decodinglytractable for streaming。
論文 参考訳(メタデータ) (2020-02-07T00:04:04Z) - Streaming automatic speech recognition with the transformer model [59.58318952000571]
本稿では,ストリーミングASRのためのトランスフォーマーに基づくエンドツーエンドASRシステムを提案する。
本研究では,エンコーダに時間制限付き自己アテンションを適用し,エンコーダ・デコーダのアテンション機構に注意を喚起する。
提案したストリーミングトランスアーキテクチャは,LibriSpeechの「クリーン」および「他の」テストデータに対して,2.8%と7.2%のWERを実現する。
論文 参考訳(メタデータ) (2020-01-08T18:58:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。