論文の概要: Chunked Attention-based Encoder-Decoder Model for Streaming Speech
Recognition
- arxiv url: http://arxiv.org/abs/2309.08436v1
- Date: Fri, 15 Sep 2023 14:36:24 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-18 14:23:50.900793
- Title: Chunked Attention-based Encoder-Decoder Model for Streaming Speech
Recognition
- Title(参考訳): ストリーミング音声認識のためのチャンク型注意型エンコーダ・デコーダモデル
- Authors: Mohammad Zeineldeen and Albert Zeyer and Ralf Schl\"uter and Hermann
Ney
- Abstract要約: 本稿では,デコーダ,あるいはデコーダとデコーダのいずれにおいても,チャンクと呼ばれる既定の固定サイズのウィンドウで動作する,ストリーム可能な注目型エンコーダ・デコーダモデルについて検討する。
特別なエンディング・オブ・チャンクのシンボルは、あるチャンクから次のチャンクへと進化し、従来のエンディング・オブ・シーケンスのシンボルを効果的に置き換える。
提案モデルでは,非可読な変種と比較して競争性能を保ち,長文音声に非常によく対応していることがわかった。
- 参考スコア(独自算出の注目度): 42.04873382667665
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We study a streamable attention-based encoder-decoder model in which either
the decoder, or both the encoder and decoder, operate on pre-defined,
fixed-size windows called chunks. A special end-of-chunk (EOC) symbol advances
from one chunk to the next chunk, effectively replacing the conventional
end-of-sequence symbol. This modification, while minor, situates our model as
equivalent to a transducer model that operates on chunks instead of frames,
where EOC corresponds to the blank symbol. We further explore the remaining
differences between a standard transducer and our model. Additionally, we
examine relevant aspects such as long-form speech generalization, beam size,
and length normalization. Through experiments on Librispeech and TED-LIUM-v2,
and by concatenating consecutive sequences for long-form trials, we find that
our streamable model maintains competitive performance compared to the
non-streamable variant and generalizes very well to long-form speech.
- Abstract(参考訳): エンコーダとデコーダの両方がチャンクと呼ばれる予め定義された固定サイズのウィンドウで動作するストリーム可能な注意型エンコーダ/デコーダモデルについて検討する。
特別なEnd-of-chunk(EOC)シンボルは、あるチャンクから次のチャンクへと進化し、従来のEnd-of-sequenceシンボルを効果的に置き換える。
この修正は、小さながら、EOCが空白記号に対応するフレームの代わりにチャンクで動作するトランスデューサモデルと同等のものとして、我々のモデルを定めている。
さらに,標準トランスデューサとモデルとの相違点についても検討する。
さらに,長文音声の一般化,ビームサイズ,長さ正規化などの関連する側面についても検討する。
Librispeech と TED-Lium-v2 の実験、および長大な試行のために連続的なシーケンスを連結することにより、ストリーム可能なモデルは、非ストリーム可能な変種と比較して競争性能を維持し、長大な音声に対して非常によく一般化する。
関連論文リスト
- Stateful Conformer with Cache-based Inference for Streaming Automatic Speech Recognition [20.052245837954175]
本稿では,FastConformerアーキテクチャに基づく,効率的かつ正確な音声認識モデルを提案する。
我々は,非自己回帰エンコーダが推論中に自己回帰的に動作できるようにするために,アクティベーションキャッシング機構を導入する。
CTCとRNNTデコーダを共用した共有エンコーダを用いたハイブリッドCTC/RNNTアーキテクチャにより、精度の向上と計算の保存が可能となる。
論文 参考訳(メタデータ) (2023-12-27T21:04:26Z) - DEED: Dynamic Early Exit on Decoder for Accelerating Encoder-Decoder
Transformer Models [22.276574156358084]
我々は,各デコーダ層が妥当な予測を生成できるように,深層監視で訓練されたマルチエキシット・エンコーダ・デコーダ・トランスフォーマモデルを構築した。
提案手法は,ベースラインに比べて精度が向上し,全体の推論遅延を30%から60%削減できることを示す。
論文 参考訳(メタデータ) (2023-11-15T01:01:02Z) - Decoder-Only or Encoder-Decoder? Interpreting Language Model as a
Regularized Encoder-Decoder [75.03283861464365]
seq2seqタスクは、与えられた入力ソースシーケンスに基づいてターゲットシーケンスを生成することを目的としている。
伝統的に、seq2seqタスクのほとんどはエンコーダによって解決され、ソースシーケンスとデコーダをエンコードしてターゲットテキストを生成する。
最近、デコーダのみの言語モデルをseq2seqタスクに直接適用する、多くの新しいアプローチが出現しました。
論文 参考訳(メタデータ) (2023-04-08T15:44:29Z) - Closing the gap: Exact maximum likelihood training of generative
autoencoders using invertible layers [7.76925617801895]
VAE方式のオートエンコーダは非可逆層を用いて構築可能であることを示す。
これは、エンコーダ、デコーダ、および以前のアーキテクチャの選択において完全な自由を残しながら達成される。
この手法は,ログライクリフ,サンプル品質,デノーミング性能の観点から,アーキテクチャ的に等価なVAEよりも著しく高い性能を示す。
論文 参考訳(メタデータ) (2022-05-19T13:16:09Z) - Rethinking Semantic Segmentation from a Sequence-to-Sequence Perspective
with Transformers [149.78470371525754]
セマンティックセグメンテーションをシーケンスからシーケンスへの予測タスクとして扱う。
具体的には、イメージをパッチのシーケンスとしてエンコードするために純粋なトランスをデプロイします。
トランスのすべての層でモデル化されたグローバルコンテキストにより、このエンコーダは、SETR(SEgmentation TRansformer)と呼ばれる強力なセグメンテーションモデルを提供するための単純なデコーダと組み合わせることができる。
SETRはADE20K(50.28% mIoU)、Pascal Context(55.83% mIoU)、およびCityscapesの競争力のある結果に関する最新技術を達成している。
論文 参考訳(メタデータ) (2020-12-31T18:55:57Z) - Cascaded encoders for unifying streaming and non-streaming ASR [68.62941009369125]
この研究は、両方のモードで同時に動作可能な単一のE2E ASRモデルを構築するためのカスケードエンコーダを提示する。
シングルデコーダは、ストリーミングの出力または非ストリーミングエンコーダを使用してデコーダを学習する。
その結果,このモデルはストリーミングモードで動作する場合,スタンドアロンのストリーミングモデルと同様のワードエラー率(WER)を実現し,非ストリーミングモードで動作する場合,10%~27%の相対的改善が得られた。
論文 参考訳(メタデータ) (2020-10-27T20:59:50Z) - Multi-speaker Emotion Conversion via Latent Variable Regularization and
a Chained Encoder-Decoder-Predictor Network [18.275646344620387]
本稿では,連鎖型エンコーダ・デコーダ・予測ニューラルネットワークアーキテクチャに基づく音声の感情変換手法を提案する。
提案手法は,感情変換の正しさと合成音声の質の両方において,既存の最先端手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2020-07-25T13:59:22Z) - On Sparsifying Encoder Outputs in Sequence-to-Sequence Models [90.58793284654692]
我々はTransformerをテストベッドとして、エンコーダとデコーダの間にあるゲートの層を導入します。
ゲートは、パリシティ誘導L0ペナルティの期待値を用いて正規化される。
このスペーサー化が2つの機械翻訳と2つの要約タスクに与える影響について検討する。
論文 参考訳(メタデータ) (2020-04-24T16:57:52Z) - Transformer Transducer: A Streamable Speech Recognition Model with
Transformer Encoders and RNN-T Loss [14.755108017449295]
本稿では,ストリーム音声認識システムで使用可能なTransformerエンコーダを用いたエンドツーエンド音声認識モデルを提案する。
自己アテンションに基づくトランスフォーマー計算ブロックは、オーディオシーケンスとラベルシーケンスの両方を独立に符号化するために使用される。
We present results on the LibriSpeech dataset shows that limiting the left context for self-attention makes decodinglytractable for streaming。
論文 参考訳(メタデータ) (2020-02-07T00:04:04Z) - Streaming automatic speech recognition with the transformer model [59.58318952000571]
本稿では,ストリーミングASRのためのトランスフォーマーに基づくエンドツーエンドASRシステムを提案する。
本研究では,エンコーダに時間制限付き自己アテンションを適用し,エンコーダ・デコーダのアテンション機構に注意を喚起する。
提案したストリーミングトランスアーキテクチャは,LibriSpeechの「クリーン」および「他の」テストデータに対して,2.8%と7.2%のWERを実現する。
論文 参考訳(メタデータ) (2020-01-08T18:58:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。