論文の概要: Pre-Training Transformer Decoder for End-to-End ASR Model with Unpaired
Speech Data
- arxiv url: http://arxiv.org/abs/2203.17113v1
- Date: Thu, 31 Mar 2022 15:33:56 GMT
- ステータス: 処理完了
- システム内更新日: 2022-04-01 16:49:00.348889
- Title: Pre-Training Transformer Decoder for End-to-End ASR Model with Unpaired
Speech Data
- Title(参考訳): 不一致音声データを用いた終端ASRモデルの事前学習変換器デコーダ
- Authors: Junyi Ao, Ziqiang Zhang, Long Zhou, Shujie Liu, Haizhou Li, Tom Ko,
Lirong Dai, Jinyu Li, Yao Qian, Furu Wei
- Abstract要約: 本稿では,音響単位,すなわち擬似符号を用いたエンコーダ・デコーダネットワークのための2つの事前学習タスクを提案する。
提案したSpeech2Cは,デコーダを事前学習することなく,単語誤り率(WER)を19.2%削減できる。
- 参考スコア(独自算出の注目度): 145.95460945321253
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper studies a novel pre-training technique with unpaired speech data,
Speech2C, for encoder-decoder based automatic speech recognition (ASR). Within
a multi-task learning framework, we introduce two pre-training tasks for the
encoder-decoder network using acoustic units, i.e., pseudo codes, derived from
an offline clustering model. One is to predict the pseudo codes via masked
language modeling in encoder output, like HuBERT model, while the other lets
the decoder learn to reconstruct pseudo codes autoregressively instead of
generating textual scripts. In this way, the decoder learns to reconstruct
original speech information with codes before learning to generate correct
text. Comprehensive experiments on the LibriSpeech corpus show that the
proposed Speech2C can relatively reduce the word error rate (WER) by 19.2% over
the method without decoder pre-training, and also outperforms significantly the
state-of-the-art wav2vec 2.0 and HuBERT on fine-tuning subsets of 10h and 100h.
- Abstract(参考訳): 本稿では,エンコーダデコーダに基づく自動音声認識(asr)のための非ペア音声データである speech2c を用いた新しい事前学習手法について検討する。
マルチタスク学習フレームワーク内では,オフラインクラスタリングモデルから派生した擬似符号を用いたエンコーダ・デコーダネットワークのための2つの事前学習タスクを導入する。
ひとつは、HuBERTモデルのようなエンコーダ出力におけるマスク付き言語モデリングによる擬似コードを予測し、もうひとつは、テキストスクリプトを生成する代わりに、デコーダが擬似コードを自動回帰的に再構築することを学ぶことである。
このようにして、デコーダは、学習する前にコードで元の音声情報を再構成し、正しいテキストを生成する。
LibriSpeechコーパスの総合的な実験によると、提案したSpeech2Cはデコーダの事前訓練なしに単語誤り率(WER)を19.2%削減でき、また10hと100hの微調整部分集合上で最先端のwav2vec 2.0とHuBERTを著しく上回っている。
関連論文リスト
- DASpeech: Directed Acyclic Transformer for Fast and High-quality
Speech-to-Speech Translation [36.126810842258706]
直接音声音声変換(S2ST)は、1つのモデルを用いて、ある言語から別の言語に音声を翻訳する。
言語的および音響的多様性が存在するため、ターゲット音声は複雑な多モーダル分布に従う。
高速かつ高品質なS2STを実現する非自己回帰直接S2STモデルであるDASpeechを提案する。
論文 参考訳(メタデータ) (2023-10-11T11:39:36Z) - RepCodec: A Speech Representation Codec for Speech Tokenization [21.60885344868044]
RepCodecは意味的音声トークン化のための新しい表現である。
RepCodecは、音声認識と生成の両方において広く使われているk-meansクラスタリング手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2023-08-31T23:26:10Z) - UnitY: Two-pass Direct Speech-to-speech Translation with Discrete Units [64.61596752343837]
本稿では,まずテキスト表現を生成し,離散音響単位を予測する2パス直接S2STアーキテクチャであるUnitYを提案する。
第1パスデコーダのサブワード予測によりモデル性能を向上させる。
提案手法は,第2パスのスペクトルを予測しても性能が向上することを示す。
論文 参考訳(メタデータ) (2022-12-15T18:58:28Z) - Linguistic-Enhanced Transformer with CTC Embedding for Speech
Recognition [29.1423215212174]
関節CTC-Attention モデルの最近の動向は自動音声認識(ASR)において顕著に改善されている
本稿では,訓練中にデコーダに改良されたCTC情報を導入する言語拡張トランスフォーマを提案する。
AISHELL-1音声コーパスの実験では、文字誤り率(CER)は7%まで相対的に減少している。
論文 参考訳(メタデータ) (2022-10-25T08:12:59Z) - SpeechUT: Bridging Speech and Text with Hidden-Unit for Encoder-Decoder
Based Speech-Text Pre-training [106.34112664893622]
本稿では,音声エンコーダとテキストデコーダの表現を共有単位エンコーダに接続する,統一モーダル音声単位テキスト事前学習モデルであるSpeechUTを提案する。
提案するSpeechUTは,自動音声認識(ASR)と音声翻訳(ST)タスクに基づいて微調整および評価を行う。
論文 参考訳(メタデータ) (2022-10-07T17:57:45Z) - Diffsound: Discrete Diffusion Model for Text-to-sound Generation [78.4128796899781]
本稿では,テキストエンコーダ,ベクトル量子化変分自動符号化(VQ-VAE),デコーダ,ボコーダからなる新しいテキスト音声生成フレームワークを提案する。
フレームワークは、まず、デコーダを使用して、テキストエンコーダから抽出したテキスト特徴をVQ-VAEの助けを借りてメルスペクトルに転送し、次いで、ボコーダを使用して生成されたメルスペクトルを波形に変換する。
論文 参考訳(メタデータ) (2022-07-20T15:41:47Z) - Wav2Seq: Pre-training Speech-to-Text Encoder-Decoder Models Using Pseudo
Languages [58.43299730989809]
本稿では,音声データに対するエンコーダ・デコーダモデルの両部分を事前学習するための,最初の自己教師型アプローチであるWav2Seqを紹介する。
我々は、コンパクトな離散表現として擬似言語を誘導し、自己教師付き擬似音声認識タスクを定式化する。
このプロセスは独自のものであり、低コストの第2段階のトレーニングとして適用することができる。
論文 参考訳(メタデータ) (2022-05-02T17:59:02Z) - Self-supervised Learning with Random-projection Quantizer for Speech
Recognition [51.24368930992091]
音声認識のためのシンプルで効果的な自己教師型学習手法を提案する。
このアプローチは、離散ラベルの形で、マスキングされた音声信号を予測するモデルを学ぶ。
非ストリーミングモデルを用いた自己教師付き学習を用いて、従来の作業と同じような単語エラー率を達成する。
論文 参考訳(メタデータ) (2022-02-03T21:29:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。