論文の概要: Transformer-based ASR Incorporating Time-reduction Layer and Fine-tuning
with Self-Knowledge Distillation
- arxiv url: http://arxiv.org/abs/2103.09903v1
- Date: Wed, 17 Mar 2021 21:02:36 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-19 14:11:54.321975
- Title: Transformer-based ASR Incorporating Time-reduction Layer and Fine-tuning
with Self-Knowledge Distillation
- Title(参考訳): 自己知識蒸留によるタイムリダクション層と微調整を組み込んだトランス型asr
- Authors: Md Akmal Haidar, Chao Xing, Mehdi Rezagholizadeh
- Abstract要約: 本稿では,トランスエンコーダ層に時間削減層を組み込んだTransformer-based ASRモデルを提案する。
また、自己知識蒸留(S-KD)を用いた事前学習型ASRモデルの微調整手法を導入し、ASRモデルの性能をさらに向上させる。
言語モデル(LM)融合により、トランスフォーマーベースのASRモデルのための最新の単語誤り率(WER)結果を達成します。
- 参考スコア(独自算出の注目度): 11.52842516726486
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: End-to-end automatic speech recognition (ASR), unlike conventional ASR, does
not have modules to learn the semantic representation from speech encoder.
Moreover, the higher frame-rate of speech representation prevents the model to
learn the semantic representation properly. Therefore, the models that are
constructed by the lower frame-rate of speech encoder lead to better
performance. For Transformer-based ASR, the lower frame-rate is not only
important for learning better semantic representation but also for reducing the
computational complexity due to the self-attention mechanism which has O(n^2)
order of complexity in both training and inference. In this paper, we propose a
Transformer-based ASR model with the time reduction layer, in which we
incorporate time reduction layer inside transformer encoder layers in addition
to traditional sub-sampling methods to input features that further reduce the
frame-rate. This can help in reducing the computational cost of the
self-attention process for training and inference with performance improvement.
Moreover, we introduce a fine-tuning approach for pre-trained ASR models using
self-knowledge distillation (S-KD) which further improves the performance of
our ASR model. Experiments on LibriSpeech datasets show that our proposed
methods outperform all other Transformer-based ASR systems. Furthermore, with
language model (LM) fusion, we achieve new state-of-the-art word error rate
(WER) results for Transformer-based ASR models with just 30 million parameters
trained without any external data.
- Abstract(参考訳): 従来のASRとは異なり、エンドツーエンドの自動音声認識(ASR)では、音声エンコーダから意味表現を学ぶためのモジュールが存在しない。
さらに、高いフレームレートの音声表現は、モデルが意味表現を適切に学習することを妨げる。
したがって、音声エンコーダの低フレームレートで構築したモデルの方が性能が向上する。
Transformer ベースの ASR では、フレームレートが低いことは意味表現の学習だけでなく、学習と推論の両方において O(n^2) の複雑度を持つ自己認識機構による計算複雑性の低減にも重要である。
本稿では,従来のサブサンプリング法に加えて,トランスエンコーダ層内に時間削減層を組み込んだ時間低減層を持つトランスベースasrモデルを提案する。
これは、パフォーマンス改善を伴うトレーニングと推論のための自己注意プロセスの計算コストを削減するのに役立つ。
さらに、自己知識蒸留(S-KD)を用いた事前学習型ASRモデルの微調整手法を導入し、ASRモデルの性能をさらに向上させる。
LibriSpeechデータセットの実験により,提案手法が他のトランスフォーマーベースのASRシステムより優れていることが示された。
さらに,言語モデル(LM)の融合により,外部データなしで学習したパラメータがわずか3000万であるTransformerベースのASRモデルに対して,最先端の単語誤り率(WER)の新たな結果が得られる。
関連論文リスト
- Are Transformers in Pre-trained LM A Good ASR Encoder? An Empirical Study [52.91899050612153]
自動音声認識(ASR)のためのエンコーダとして再利用された事前訓練言語モデル(PLM)内のトランスフォーマー
本研究は,事前学習したLMのトランスフォーマーを組み込んだASRタスクにおいて,文字誤り率 (CER) とワード誤り率 (WER) の顕著な改善が認められた。
このことは、事前訓練されたトランスフォーマーに埋め込まれたセマンティックな技術を活用して、ASRシステムの能力を向上させる可能性を浮き彫りにしている。
論文 参考訳(メタデータ) (2024-09-26T11:31:18Z) - A Lexical-aware Non-autoregressive Transformer-based ASR Model [9.500518278458905]
本稿では,音響エンコーダ,音声テキスト共有エンコーダ,音声テキスト共有デコーダで構成される,語彙対応非自己回帰トランスフォーマベース(LA-NAT)ASRフレームワークを提案する。
LA-NATは,語彙情報をASRモデルに認識させることを目的としており,学習した言語知識を活用することにより,より良い結果が得られることが期待されている。
論文 参考訳(メタデータ) (2023-05-18T09:50:47Z) - Streaming Multi-Talker ASR with Token-Level Serialized Output Training [53.11450530896623]
t-SOTはマルチトーカー自動音声認識のための新しいフレームワークである。
t-SOTモデルには、推論コストの低減とよりシンプルなモデルアーキテクチャの利点がある。
重複しない音声の場合、t-SOTモデルは精度と計算コストの両面において単一ストーカーのASRモデルと同等である。
論文 参考訳(メタデータ) (2022-02-02T01:27:21Z) - Attention-based Multi-hypothesis Fusion for Speech Summarization [83.04957603852571]
音声認識(ASR)とテキスト要約(TS)を組み合わせることで、音声要約を実現することができる
ASR誤差はカスケード法における出力要約の品質に直接影響する。
本稿では、ASRの誤りに対して頑健なカスケード音声要約モデルを提案し、ASRが生成した複数の仮説を利用して、ASRの誤りが要約に与える影響を緩和する。
論文 参考訳(メタデータ) (2021-11-16T03:00:29Z) - Cross-Modal Transformer-Based Neural Correction Models for Automatic
Speech Recognition [31.2558640840697]
自動音声認識システムの出力を改良するクロスモーダルトランスフォーマーに基づくニューラル補正モデルを提案する。
日本語のASR課題に対する実験により,提案したモデルが従来のニューラル補正モデルよりも優れたASR性能を達成できることが実証された。
論文 参考訳(メタデータ) (2021-07-04T07:58:31Z) - N-Best ASR Transformer: Enhancing SLU Performance using Multiple ASR
Hypotheses [0.0]
Spoken Language Understanding (SLU)は、音声をダイアログやスロットのような意味構造に解析する。
提案手法は,低データ体制下での先行技術よりも著しく優れていることを示す。
論文 参考訳(メタデータ) (2021-06-11T17:29:00Z) - Advanced Long-context End-to-end Speech Recognition Using
Context-expanded Transformers [56.56220390953412]
コンフォーメータアーキテクチャを導入することで、精度をさらに向上させ、以前の作業を拡張します。
拡張トランスフォーマーは、最先端のエンドツーエンドのASR性能を提供する。
論文 参考訳(メタデータ) (2021-04-19T16:18:00Z) - Non-autoregressive Transformer-based End-to-end ASR using BERT [13.07939371864781]
本稿では、BERTに基づく変換器に基づくエンドツーエンド自動音声認識(ASR)モデルを提案する。
AISHELL-1データセットで実施された一連の実験は、競争力または優れた結果を示している。
論文 参考訳(メタデータ) (2021-04-10T16:22:17Z) - Conv-Transformer Transducer: Low Latency, Low Frame Rate, Streamable
End-to-End Speech Recognition [8.046120977786702]
Transformerは自動音声認識(ASR)における最先端のエンドツーエンドモデルと競合する性能を達成した
エンコーダ-デコーダアーキテクチャを備えたオリジナルのTransformerは、オフラインのASRにのみ適合する。
Conv-Transformer Transducerという名前のこのアーキテクチャは、外部言語モデルなしでLibriSpeechデータセット(3.6% WER on test-clean)の競合性能を実現する。
論文 参考訳(メタデータ) (2020-08-13T08:20:02Z) - Pretraining Techniques for Sequence-to-Sequence Voice Conversion [57.65753150356411]
シークエンス・トゥ・シークエンス(seq2seq)音声変換(VC)モデルは、韻律を変換する能力によって魅力的である。
我々は,大規模コーパスが容易に利用できる他の音声処理タスク(通常,テキスト音声(TTS)と自動音声認識(ASR))から知識を伝達することを提案する。
このような事前訓練されたASRまたはTSモデルパラメータを持つVCモデルは、高忠実で高知能な変換可能な音声に対して効果的な隠れ表現を生成することができると論じる。
論文 参考訳(メタデータ) (2020-08-07T11:02:07Z) - Streaming automatic speech recognition with the transformer model [59.58318952000571]
本稿では,ストリーミングASRのためのトランスフォーマーに基づくエンドツーエンドASRシステムを提案する。
本研究では,エンコーダに時間制限付き自己アテンションを適用し,エンコーダ・デコーダのアテンション機構に注意を喚起する。
提案したストリーミングトランスアーキテクチャは,LibriSpeechの「クリーン」および「他の」テストデータに対して,2.8%と7.2%のWERを実現する。
論文 参考訳(メタデータ) (2020-01-08T18:58:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。