論文の概要: Sequence-to-Sequence Learning via Attention Transfer for Incremental
Speech Recognition
- arxiv url: http://arxiv.org/abs/2011.02127v1
- Date: Wed, 4 Nov 2020 05:06:01 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-29 22:49:39.385093
- Title: Sequence-to-Sequence Learning via Attention Transfer for Incremental
Speech Recognition
- Title(参考訳): インクリメンタル音声認識のための注意伝達による逐次学習
- Authors: Sashi Novitasari, Andros Tjandra, Sakriani Sakti, Satoshi Nakamura
- Abstract要約: ISR タスクにアテンションベース ASR の本来のアーキテクチャを用いることができるかを検討する。
我々は、より薄いモデルや浅いモデルを使う代わりに、教師モデルのオリジナルのアーキテクチャを短いシーケンスで保持する代替の学生ネットワークを設計する。
実験の結果,認識プロセスの開始時刻を約1.7秒で遅延させることで,終了まで待たなければならないものと同等の性能が得られることがわかった。
- 参考スコア(独自算出の注目度): 25.93405777713522
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Attention-based sequence-to-sequence automatic speech recognition (ASR)
requires a significant delay to recognize long utterances because the output is
generated after receiving entire input sequences. Although several studies
recently proposed sequence mechanisms for incremental speech recognition (ISR),
using different frameworks and learning algorithms is more complicated than the
standard ASR model. One main reason is because the model needs to decide the
incremental steps and learn the transcription that aligns with the current
short speech segment. In this work, we investigate whether it is possible to
employ the original architecture of attention-based ASR for ISR tasks by
treating a full-utterance ASR as the teacher model and the ISR as the student
model. We design an alternative student network that, instead of using a
thinner or a shallower model, keeps the original architecture of the teacher
model but with shorter sequences (few encoder and decoder states). Using
attention transfer, the student network learns to mimic the same alignment
between the current input short speech segments and the transcription. Our
experiments show that by delaying the starting time of recognition process with
about 1.7 sec, we can achieve comparable performance to one that needs to wait
until the end.
- Abstract(参考訳): ASR(Attention-based sequence-to-Sequence Automatic Speech Recognition)は、入力シーケンス全体の受信後に出力が生成されるため、長い発話を認識するのにかなりの遅延を必要とする。
近年、いくつかの研究でインクリメンタル音声認識(ISR)のシーケンス機構が提案されているが、フレームワークや学習アルゴリズムは標準のASRモデルよりも複雑である。
主な理由は、モデルがインクリメンタルなステップを決定し、現在の短い音声セグメントに合わせた書き起こしを学ぶ必要があるためである。
本研究では,教師モデルとして全発話asr,学生モデルとしてisrを扱い,isrタスクに注意に基づくasrの本来のアーキテクチャを活用できるかどうかを検討する。
我々は、より薄いモデルや浅いモデルを使う代わりに、教師モデルのオリジナルのアーキテクチャを短いシーケンス(エンコーダとデコーダの状態)で保持する代替の学生ネットワークを設計する。
学生ネットワークは、注意伝達を用いて、現在の入力された短い音声セグメントと書き起こしの一致を模倣することを学ぶ。
実験の結果,認識プロセスの開始時刻を約1.7秒で遅延させることで,終了まで待たなければならないものと同等の性能が得られることがわかった。
関連論文リスト
- Streaming Speech-to-Confusion Network Speech Recognition [19.720334657478475]
本稿では、待ち時間を維持しながら混乱ネットワークを出力する新しいストリーミングASRアーキテクチャを提案する。
モデルのうち1-bestの結果は、同等のRNN-Tシステムと同等であることを示す。
また、遠距離音声アシスタントタスクにおいて、我々のモデルは強力なRNN-Tベースラインよりも優れていることを示す。
論文 参考訳(メタデータ) (2023-06-02T20:28:14Z) - Extended Graph Temporal Classification for Multi-Speaker End-to-End ASR [77.82653227783447]
ニューラルネットワークによるラベル遷移とラベル遷移の両方をモデル化するための GTC の拡張を提案する。
例として,多話者音声認識タスクに拡張GTC(GTC-e)を用いる。
論文 参考訳(メタデータ) (2022-03-01T05:02:02Z) - SRU++: Pioneering Fast Recurrence with Attention for Speech Recognition [49.42625022146008]
複数のASRベンチマークでコンフォーマーと比較することにより,SRU++をASRタスクに適用する利点を示す。
具体的には,SRU++ が長文音声入力において Conformer を追い越すことができる。
論文 参考訳(メタデータ) (2021-10-11T19:23:50Z) - Streaming End-to-End ASR based on Blockwise Non-Autoregressive Models [57.20432226304683]
非自己回帰(NAR)モデリングは、音声処理においてますます注目を集めている。
エンドツーエンドのNAR音声認識システムを提案する。
提案手法は低レイテンシ条件下でのオンラインASR認識を改善する。
論文 参考訳(メタデータ) (2021-07-20T11:42:26Z) - Dual Causal/Non-Causal Self-Attention for Streaming End-to-End Speech
Recognition [58.69803243323346]
注意に基づくエンドツーエンド自動音声認識(ASR)システムは、最近、多くのタスクに対する最先端の結果を実証している。
しかし、自己注意および注意に基づくエンコーダデコーダモデルの応用は、ASRのストリーミングでは依然として困難である。
二重因果的/非因果的自己注意アーキテクチャを提案するが、これは制限された自己意識とは対照的に、全体的なコンテキストが単一のレイヤのルックアヘッドを超えて成長することを妨げている。
論文 参考訳(メタデータ) (2021-07-02T20:56:13Z) - Advanced Long-context End-to-end Speech Recognition Using
Context-expanded Transformers [56.56220390953412]
コンフォーメータアーキテクチャを導入することで、精度をさらに向上させ、以前の作業を拡張します。
拡張トランスフォーマーは、最先端のエンドツーエンドのASR性能を提供する。
論文 参考訳(メタデータ) (2021-04-19T16:18:00Z) - Streaming automatic speech recognition with the transformer model [59.58318952000571]
本稿では,ストリーミングASRのためのトランスフォーマーに基づくエンドツーエンドASRシステムを提案する。
本研究では,エンコーダに時間制限付き自己アテンションを適用し,エンコーダ・デコーダのアテンション機構に注意を喚起する。
提案したストリーミングトランスアーキテクチャは,LibriSpeechの「クリーン」および「他の」テストデータに対して,2.8%と7.2%のWERを実現する。
論文 参考訳(メタデータ) (2020-01-08T18:58:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。