論文の概要: Simplified Self-Attention for Transformer-based End-to-End Speech
Recognition
- arxiv url: http://arxiv.org/abs/2005.10463v2
- Date: Tue, 17 Nov 2020 09:58:44 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-30 23:57:59.534861
- Title: Simplified Self-Attention for Transformer-based End-to-End Speech
Recognition
- Title(参考訳): 変圧器を用いたエンドツーエンド音声認識のための簡易自己認識
- Authors: Haoneng Luo, Shiliang Zhang, Ming Lei, Lei Xie
- Abstract要約: 本稿では,プロジェクション層の代わりにFSMNメモリブロックを用いてクエリとキーベクトルを生成する,簡易な自己アテンション層(SSAN)を提案する。
我々は,公的なAISHELL-1,1000時間内,20,000時間大規模マンダリンタスクにおけるSSANベースおよび従来のSANベースのトランスフォーマーの評価を行った。
- 参考スコア(独自算出の注目度): 56.818507476125895
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Transformer models have been introduced into end-to-end speech recognition
with state-of-the-art performance on various tasks owing to their superiority
in modeling long-term dependencies. However, such improvements are usually
obtained through the use of very large neural networks. Transformer models
mainly include two submodules - position-wise feedforward layers and
self-attention (SAN) layers. In this paper, to reduce the model complexity
while maintaining good performance, we propose a simplified self-attention
(SSAN) layer which employs FSMN memory block instead of projection layers to
form query and key vectors for transformer-based end-to-end speech recognition.
We evaluate the SSAN-based and the conventional SAN-based transformers on the
public AISHELL-1, internal 1000-hour and 20,000-hour large-scale Mandarin
tasks. Results show that our proposed SSAN-based transformer model can achieve
over 20% relative reduction in model parameters and 6.7% relative CER reduction
on the AISHELL-1 task. With impressively 20% parameter reduction, our model
shows no loss of recognition performance on the 20,000-hour large-scale task.
- Abstract(参考訳): トランスフォーマーモデルは、長期依存のモデリングにおける優位性から、様々なタスクにおける最先端の性能を持つエンドツーエンド音声認識に導入された。
しかし、このような改善は通常、非常に大きなニューラルネットワークを使うことで得られる。
トランスフォーマーモデルは、主に2つのサブモジュール - 位置対応フィードフォワード層と自己注意層 (SAN) を含む。
本稿では,予測層の代わりにFSMNメモリブロックを用いて,トランスフォーマーに基づくエンドツーエンド音声認識のためのクエリとキーベクトルを生成する,簡易な自己注意層(SSAN)を提案する。
我々は,公用AISHELL-1,内部1000時間,大規模マンダリンタスクのSSANベースおよび従来のSANベースのトランスフォーマーの評価を行った。
その結果,提案手法はモデルパラメータを20%以上削減し,AISHELL-1タスクのCERを6.7%削減できることがわかった。
約20%のパラメータ削減により,2万時間の大規模タスクにおいて認識性能の損失はみられなかった。
関連論文リスト
- Convexity-based Pruning of Speech Representation Models [1.3873323883842132]
最近の研究によると、NLPのトランスモデルには大きな冗長性があることが示されている。
本稿では,音声モデルにおけるレイヤプルーニングについて検討する。
計算の労力が大幅に削減され、性能が損なわれず、場合によっては改善されることもない。
論文 参考訳(メタデータ) (2024-08-16T09:04:54Z) - Repeat After Me: Transformers are Better than State Space Models at Copying [53.47717661441142]
一般化された状態空間モデルは、推論時間効率の観点からは有望であるが、入力コンテキストからのコピーを必要とするタスクのトランスフォーマーモデルと比較して限定的であることを示す。
論文 参考訳(メタデータ) (2024-02-01T21:44:11Z) - Application of Knowledge Distillation to Multi-task Speech
Representation Learning [2.0908300719428228]
音声表現学習モデルは多数のパラメータを使用し、最小のバージョンは95万のパラメータを持つ。
本稿では,知識蒸留の音声表現学習モデルへの適用と微調整について検討する。
その結果,0.1%の精度と0.9%の誤り率低下に悩まされる一方,モデルサイズが75%近く減少することがわかった。
論文 参考訳(メタデータ) (2022-10-29T14:22:43Z) - Megapixel Image Generation with Step-Unrolled Denoising Autoencoders [5.145313322824774]
本稿では,サンプルの解像度を高くする手法と,トレーニングとサンプリングの計算要求を低減させる手法の組み合わせを提案する。
例えば、ベクトル量子化GAN(VQ-GAN)、高レベルの損失 - しかし知覚的に重要 - 圧縮 - が可能なベクトル量子化(VQ)モデル、時間ガラストランスフォーマー、高スケールの自己アテンションモデル、非自己回帰(NAR)テキスト生成モデルであるステップ制御型デノイングオートエンコーダ(SUNDAE)などがある。
提案するフレームワークは,高解像度(1024×1024$)までスケールし,(高速で)トレーニングを行う。
論文 参考訳(メタデータ) (2022-06-24T15:47:42Z) - LightHuBERT: Lightweight and Configurable Speech Representation Learning
with Once-for-All Hidden-Unit BERT [69.77358429702873]
本稿では,一度限りのTransformer圧縮フレームワークであるLightHuBERTを提案する。
自動音声認識(ASR)とSUPERBベンチマークの実験は、提案されたLightHuBERTが109ドル以上のアーキテクチャを実現することを示している。
LightHuBERTは、ほとんどのタスクにおいて、29%のパラメータを削減して、教師モデルに匹敵するパフォーマンスを達成する。
論文 参考訳(メタデータ) (2022-03-29T14:20:55Z) - MoEfication: Conditional Computation of Transformer Models for Efficient
Inference [66.56994436947441]
トランスフォーマーベースの事前学習言語モデルは、パラメータ容量が大きいため、ほとんどのNLPタスクにおいて優れた性能を実現することができるが、計算コストも大きい。
スパースアクティベーション現象に基づく条件計算により,大規模モデル推論を高速化する。
そこで本研究では,モデルサイズが等しいMoE(Mix-of-experts)バージョン,すなわちMoEficationに変換することを提案する。
論文 参考訳(メタデータ) (2021-10-05T02:14:38Z) - Transformer-based ASR Incorporating Time-reduction Layer and Fine-tuning
with Self-Knowledge Distillation [11.52842516726486]
本稿では,トランスエンコーダ層に時間削減層を組み込んだTransformer-based ASRモデルを提案する。
また、自己知識蒸留(S-KD)を用いた事前学習型ASRモデルの微調整手法を導入し、ASRモデルの性能をさらに向上させる。
言語モデル(LM)融合により、トランスフォーマーベースのASRモデルのための最新の単語誤り率(WER)結果を達成します。
論文 参考訳(メタデータ) (2021-03-17T21:02:36Z) - Accelerating Natural Language Understanding in Task-Oriented Dialog [6.757982879080109]
構造化プルーニングにより圧縮された単純な畳み込みモデルは,ATIS や Snips のBERT にほぼ匹敵する結果となり,100K 以下のパラメータが得られた。
また、CPU上でのアクセラレーション実験を行い、マルチタスクモデルでDistilBERTの約63倍の速度でインテントやスロットを予測する。
論文 参考訳(メタデータ) (2020-06-05T21:36:33Z) - Conformer: Convolution-augmented Transformer for Speech Recognition [60.119604551507805]
最近、トランスフォーマーと畳み込みニューラルネットワーク(CNN)に基づくモデルが、自動音声認識(ASR)の有望な結果を示している。
音声認識のための畳み込み拡張変換器,Conformerを提案する。
広く使われているLibriSpeechベンチマークでは、言語モデルを用いずにWERが2.1%/4.3%、テスト/テストの外部言語モデルで1.9%/3.9%を達成した。
論文 参考訳(メタデータ) (2020-05-16T20:56:25Z) - End-to-End Multi-speaker Speech Recognition with Transformer [88.22355110349933]
音声認識モデルにおけるRNNベースのエンコーダデコーダをトランスフォーマーアーキテクチャに置き換える。
また、計算量を削減するために、シーケンス全体ではなくセグメントに制限されるセルフアテンションコンポーネントを変更します。
論文 参考訳(メタデータ) (2020-02-10T16:29:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。