論文の概要: A Lexical-aware Non-autoregressive Transformer-based ASR Model
- arxiv url: http://arxiv.org/abs/2305.10839v1
- Date: Thu, 18 May 2023 09:50:47 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-19 15:53:25.361040
- Title: A Lexical-aware Non-autoregressive Transformer-based ASR Model
- Title(参考訳): 語彙認識型非自己回帰変圧器に基づくasrモデル
- Authors: Chong-En Lin, Kuan-Yu Chen
- Abstract要約: 本稿では,音響エンコーダ,音声テキスト共有エンコーダ,音声テキスト共有デコーダで構成される,語彙対応非自己回帰トランスフォーマベース(LA-NAT)ASRフレームワークを提案する。
LA-NATは,語彙情報をASRモデルに認識させることを目的としており,学習した言語知識を活用することにより,より良い結果が得られることが期待されている。
- 参考スコア(独自算出の注目度): 9.500518278458905
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Non-autoregressive automatic speech recognition (ASR) has become a mainstream
of ASR modeling because of its fast decoding speed and satisfactory result. To
further boost the performance, relaxing the conditional independence assumption
and cascading large-scaled pre-trained models are two active research
directions. In addition to these strategies, we propose a lexical-aware
non-autoregressive Transformer-based (LA-NAT) ASR framework, which consists of
an acoustic encoder, a speech-text shared encoder, and a speech-text shared
decoder. The acoustic encoder is used to process the input speech features as
usual, and the speech-text shared encoder and decoder are designed to train
speech and text data simultaneously. By doing so, LA-NAT aims to make the ASR
model aware of lexical information, so the resulting model is expected to
achieve better results by leveraging the learned linguistic knowledge. A series
of experiments are conducted on the AISHELL-1, CSJ, and TEDLIUM 2 datasets.
According to the experiments, the proposed LA-NAT can provide superior results
than other recently proposed non-autoregressive ASR models. In addition, LA-NAT
is a relatively compact model than most non-autoregressive ASR models, and it
is about 58 times faster than the classic autoregressive model.
- Abstract(参考訳): 非自己回帰型自動音声認識(asr)はその高速な復号化速度と良好な結果のため、asrモデリングの主流となっている。
さらに性能を高めるため、条件付き独立仮定を緩和し、大規模事前訓練モデルのカスケードは2つの研究方向である。
これらの戦略に加えて,音響エンコーダ,音声テキスト共有エンコーダ,音声テキスト共有デコーダからなる,語彙認識型非自己回帰トランスフォーマベース(la-nat)asrフレームワークを提案する。
入力音声の特徴を通常通り処理するために音響エンコーダを使用し、音声テキスト共有エンコーダとデコーダは、音声とテキストデータを同時に訓練するように設計されている。
LA-NATは、語彙情報をASRモデルに認識させることを目的としており、学習した言語知識を活用することにより、より良い結果が得られることが期待されている。
AISHELL-1、CSJ、TEDLium 2のデータセットで一連の実験が行われた。
実験によると、提案したLA-NATは、最近提案された非自己回帰型ASRモデルよりも優れた結果が得られる。
加えて、LA-NATは非自己回帰型ASRモデルよりも比較的コンパクトなモデルであり、従来の自己回帰型モデルより約58倍高速である。
関連論文リスト
- CTC-Assisted LLM-Based Contextual ASR [40.6542391788212]
効率的なフィルタリングアルゴリズムを用いたCTC支援LLM型コンテキストASRモデルを提案する。
我々のモデルは、稀に長い尾の単語を認識することを目的とした、Librispeechテストクリーンおよびテストサブセットにおいて1.27%/3.67%のWER/B-WERと2.72%/8.02%のWERを達成している。
論文 参考訳(メタデータ) (2024-11-10T11:47:50Z) - Cross-Speaker Encoding Network for Multi-Talker Speech Recognition [74.97576062152709]
Cross-MixSpeaker
ネットワークは、話者間の表現を集約することでSIMOモデルの制限に対処する。
ネットワークはSOTと統合され、SIMOとSISOの両方の利点を利用する。
論文 参考訳(メタデータ) (2024-01-08T16:37:45Z) - Leveraging Pretrained ASR Encoders for Effective and Efficient
End-to-End Speech Intent Classification and Slot Filling [13.515248068374625]
本稿では,音声認識(ASR)で事前訓練されたエンコーダを用いて,エンド・ツー・エンド(E2E)コンバータ・トランスフォーマーモデルの初期化を提案する。
SLURPデータセットでは,90.14%の意図精度,82.27%のSLURP-F1が得られた。
論文 参考訳(メタデータ) (2023-07-13T20:50:19Z) - Joint Encoder-Decoder Self-Supervised Pre-training for ASR [0.0]
自己教師型学習は、様々な音声関連下流タスクで大きな成功を収めている。
本稿では,自己教師型学習におけるデコーダのパワーを活用した新しいパラダイムを提案する。
論文 参考訳(メタデータ) (2022-06-09T12:45:29Z) - Pre-Training Transformer Decoder for End-to-End ASR Model with Unpaired
Speech Data [145.95460945321253]
本稿では,音響単位,すなわち擬似符号を用いたエンコーダ・デコーダネットワークのための2つの事前学習タスクを提案する。
提案したSpeech2Cは,デコーダを事前学習することなく,単語誤り率(WER)を19.2%削減できる。
論文 参考訳(メタデータ) (2022-03-31T15:33:56Z) - Streaming Multi-Talker ASR with Token-Level Serialized Output Training [53.11450530896623]
t-SOTはマルチトーカー自動音声認識のための新しいフレームワークである。
t-SOTモデルには、推論コストの低減とよりシンプルなモデルアーキテクチャの利点がある。
重複しない音声の場合、t-SOTモデルは精度と計算コストの両面において単一ストーカーのASRモデルと同等である。
論文 参考訳(メタデータ) (2022-02-02T01:27:21Z) - Non-autoregressive End-to-end Speech Translation with Parallel
Autoregressive Rescoring [83.32560748324667]
本稿では,非自己回帰モデルに基づく効率的なエンドツーエンド音声翻訳(E2E-ST)フレームワークについて述べる。
我々は,共有エンコーダ上にNARデコーダと補助的な浅層ARデコーダを備えた,Orthrosと呼ばれる統一NAR E2E-STフレームワークを提案する。
論文 参考訳(メタデータ) (2021-09-09T16:50:16Z) - Transformer-based ASR Incorporating Time-reduction Layer and Fine-tuning
with Self-Knowledge Distillation [11.52842516726486]
本稿では,トランスエンコーダ層に時間削減層を組み込んだTransformer-based ASRモデルを提案する。
また、自己知識蒸留(S-KD)を用いた事前学習型ASRモデルの微調整手法を導入し、ASRモデルの性能をさらに向上させる。
言語モデル(LM)融合により、トランスフォーマーベースのASRモデルのための最新の単語誤り率(WER)結果を達成します。
論文 参考訳(メタデータ) (2021-03-17T21:02:36Z) - Efficiently Fusing Pretrained Acoustic and Linguistic Encoders for
Low-resource Speech Recognition [9.732767611907068]
本研究では,前訓練音響エンコーダ(wav2vec2.0)と前訓練言語エンコーダ(bert)をエンドツーエンドasrモデルに融合する。
本モデルは他のエンドツーエンドモデルに比べてcallhomeコーパスの認識性能が(15時間)向上する。
論文 参考訳(メタデータ) (2021-01-17T16:12:44Z) - Deliberation Model Based Two-Pass End-to-End Speech Recognition [52.45841282906516]
非ストリーミングのリステン・アテン・アンド・スペル(LAS)モデルを用いて、ストリーム仮説を再スコアする2パスモデルが提案されている。
このモデルは、第一パスのテキスト仮説のみを使用する神経矯正モデルのクラスとは対照的に、音響学で仮説を再評価する。
双方向エンコーダを用いて、ファーストパス仮説からコンテキスト情報を抽出する。
論文 参考訳(メタデータ) (2020-03-17T22:01:12Z) - Streaming automatic speech recognition with the transformer model [59.58318952000571]
本稿では,ストリーミングASRのためのトランスフォーマーに基づくエンドツーエンドASRシステムを提案する。
本研究では,エンコーダに時間制限付き自己アテンションを適用し,エンコーダ・デコーダのアテンション機構に注意を喚起する。
提案したストリーミングトランスアーキテクチャは,LibriSpeechの「クリーン」および「他の」テストデータに対して,2.8%と7.2%のWERを実現する。
論文 参考訳(メタデータ) (2020-01-08T18:58:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。