論文の概要: Improving Hybrid CTC/Attention End-to-end Speech Recognition with
Pretrained Acoustic and Language Model
- arxiv url: http://arxiv.org/abs/2112.07254v1
- Date: Tue, 14 Dec 2021 09:38:31 GMT
- ステータス: 処理完了
- システム内更新日: 2021-12-15 16:58:34.164872
- Title: Improving Hybrid CTC/Attention End-to-end Speech Recognition with
Pretrained Acoustic and Language Model
- Title(参考訳): 事前学習音響・言語モデルによるハイブリッドCTC/Attention End-to-end音声認識の改良
- Authors: Keqi Deng, Songjun Cao, Yike Zhang, Long Ma
- Abstract要約: 本稿では,ハイブリッドCTC/アテンションE2Eモデルに基づく事前学習型トランスフォーマー(Preformer)S2S ASRアーキテクチャを提案する。
我々の知る限り、これはS2S ASRシステムで事前訓練されたAMとLMの両方を利用する最初の作業である。
- 参考スコア(独自算出の注目度): 4.490054848527943
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recently, self-supervised pretraining has achieved impressive results in
end-to-end (E2E) automatic speech recognition (ASR). However, the dominant
sequence-to-sequence (S2S) E2E model is still hard to fully utilize the
self-supervised pre-training methods because its decoder is conditioned on
acoustic representation thus cannot be pretrained separately. In this paper, we
propose a pretrained Transformer (Preformer) S2S ASR architecture based on
hybrid CTC/attention E2E models to fully utilize the pretrained acoustic models
(AMs) and language models (LMs). In our framework, the encoder is initialized
with a pretrained AM (wav2vec2.0). The Preformer leverages CTC as an auxiliary
task during training and inference. Furthermore, we design a one-cross decoder
(OCD), which relaxes the dependence on acoustic representations so that it can
be initialized with pretrained LM (DistilGPT2). Experiments are conducted on
the AISHELL-1 corpus and achieve a $4.6\%$ character error rate (CER) on the
test set. Compared with our vanilla hybrid CTC/attention Transformer baseline,
our proposed CTC/attention-based Preformer yields $27\%$ relative CER
reduction. To the best of our knowledge, this is the first work to utilize both
pretrained AM and LM in a S2S ASR system.
- Abstract(参考訳): 近年,自己教師付き事前学習は,エンドツーエンド(E2E)自動音声認識(ASR)において顕著な成果を上げている。
しかし、s2s e2eモデルでは、デコーダが音響表現に基づいているため、個別に事前学習することはできないため、自己教師付き事前学習手法を十分に活用することは困難である。
本稿では,ctc/attention e2eハイブリッドモデルに基づくプリトレーニングトランス (preformer) s2s asrアーキテクチャを提案し,プリトレーニング音響モデル (ams) と言語モデル (lms) を十分に活用する。
我々のフレームワークでは、エンコーダは事前訓練されたAM(wav2vec2.0)で初期化されます。
Preformerは、トレーニングと推論においてCTCを補助タスクとして活用する。
さらに,事前学習したLM(DistilGPT2)で初期化できるように,音響表現への依存を緩和するワンクロスデコーダ(OCD)を設計する。
AISHELL-1コーパスでの実験が行われ、テストセットで4.6\%の文字誤り率(CER)を達成する。
我々のバニラハイブリッドCTC/attention Transformerベースラインと比較して,提案したCTC/attention-based Preformerは相対的なCER削減率27\%である。
我々の知る限り、これはS2S ASRシステムで事前訓練されたAMとLMの両方を利用する最初の作業である。
関連論文リスト
- Transfer Learning from Pre-trained Language Models Improves End-to-End
Speech Summarization [48.35495352015281]
エンドツーエンド音声要約(E2E SSum)は、入力音声を直接1つのモデルで読みやすい短文に要約する。
E2E SSumモデルでは, 音声対の収集コストが高いため, 訓練データ不足に悩まされ, 不自然な文を出力する傾向にある。
本稿では,E2E SSumデコーダに事前学習言語モデル(LM)をトランスファーラーニングにより組み込むことを初めて提案する。
論文 参考訳(メタデータ) (2023-06-07T08:23:58Z) - Pre-training for Speech Translation: CTC Meets Optimal Transport [29.807861658249923]
本研究では,コネクショニスト時間分類(CTC)の損失が設計によるモダリティギャップを減少させることを示す。
本稿では,CTCと最適輸送を組み合わせた新しい事前学習手法を提案する。
本手法では,2つのエンコーダ,1つは音響入力用,もう1つはテキスト入力用で構成され,ワッサーシュタイン空間において互いに近接した表現を生成する。
論文 参考訳(メタデータ) (2023-01-27T14:03:09Z) - Audio-Visual Efficient Conformer for Robust Speech Recognition [91.3755431537592]
本稿では,近年提案されている高能率コンバータ接続性時間分類アーキテクチャの雑音を,音声と視覚の両方を処理して改善することを提案する。
実験の結果,音声と視覚のモダリティを用いることで,環境騒音の存在下での音声の認識が向上し,トレーニングが大幅に加速し,WERが4倍のトレーニングステップで低下することが確認された。
論文 参考訳(メタデータ) (2023-01-04T05:36:56Z) - BEATs: Audio Pre-Training with Acoustic Tokenizers [77.8510930885778]
自己教師付き学習(SSL)は、ここ数年、言語、ビジョン、スピーチ、オーディオドメインで目撃されてきた。
本稿では、音声変換器から双方向表現を学習するための反復型オーディオ事前学習フレームワークBEATを提案する。
最初のイテレーションでは、ランダムプロジェクションを音響トークンとして使用し、マスクとラベル予測の方法でオーディオSSLモデルをトレーニングする。
そこで,本研究では,事前学習あるいは微調整した音声SSLモデルから意味知識を抽出することにより,次のイテレーションのための音響トークン化装置を訓練する。
論文 参考訳(メタデータ) (2022-12-18T10:41:55Z) - The THUEE System Description for the IARPA OpenASR21 Challenge [12.458730613670316]
本稿では,IARPAオープン音声認識チャレンジ(OpenASR21)におけるTHUEEチームの音声認識システムについて述べる。
制約条件と制約条件の双方で優れた結果が得られた。
エンコーダ/デコーダに基づくCTC/Attention ASRアーキテクチャにwav2vec2.0事前学習モデルを適用する際には,特徴抽出器が重要な役割を果たすことがわかった。
論文 参考訳(メタデータ) (2022-06-29T14:03:05Z) - Supervision-Guided Codebooks for Masked Prediction in Speech
Pre-training [102.14558233502514]
自己教師型学習(SSL)における事前学習のマズード予測は,音声認識における顕著な進歩をみせている。
本稿では,自動音声認識(ASR)の性能向上のための2つの教師付きコードブック生成手法を提案する。
論文 参考訳(メタデータ) (2022-06-21T06:08:30Z) - Efficiently Fusing Pretrained Acoustic and Linguistic Encoders for
Low-resource Speech Recognition [9.732767611907068]
本研究では,前訓練音響エンコーダ(wav2vec2.0)と前訓練言語エンコーダ(bert)をエンドツーエンドasrモデルに融合する。
本モデルは他のエンドツーエンドモデルに比べてcallhomeコーパスの認識性能が(15時間)向上する。
論文 参考訳(メタデータ) (2021-01-17T16:12:44Z) - Semi-Supervised Spoken Language Understanding via Self-Supervised Speech
and Language Model Pretraining [64.35907499990455]
そこで本稿では,音声から意味論を直接学習するフレームワークを提案する。
我々のフレームワークは、事前訓練されたエンドツーエンド(E2E)ASRとBERTのような自己教師型言語モデルに基づいて構築されている。
並行して,SLUモデルを評価するための重要な基準として,環境騒音汚染度とE2Eセマンティクス評価の2つがあげられる。
論文 参考訳(メタデータ) (2020-10-26T18:21:27Z) - Deliberation Model Based Two-Pass End-to-End Speech Recognition [52.45841282906516]
非ストリーミングのリステン・アテン・アンド・スペル(LAS)モデルを用いて、ストリーム仮説を再スコアする2パスモデルが提案されている。
このモデルは、第一パスのテキスト仮説のみを使用する神経矯正モデルのクラスとは対照的に、音響学で仮説を再評価する。
双方向エンコーダを用いて、ファーストパス仮説からコンテキスト情報を抽出する。
論文 参考訳(メタデータ) (2020-03-17T22:01:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。