論文の概要: Joint Encoder-Decoder Self-Supervised Pre-training for ASR
- arxiv url: http://arxiv.org/abs/2206.04465v1
- Date: Thu, 9 Jun 2022 12:45:29 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-10 14:06:24.814172
- Title: Joint Encoder-Decoder Self-Supervised Pre-training for ASR
- Title(参考訳): ASRのためのジョイントエンコーダ-デコーダ自己監督事前学習
- Authors: Arunkumar A and Umesh S
- Abstract要約: 自己教師型学習は、様々な音声関連下流タスクで大きな成功を収めている。
本稿では,自己教師型学習におけるデコーダのパワーを活用した新しいパラダイムを提案する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Self-supervised learning (SSL) has shown tremendous success in various
speech-related downstream tasks, including Automatic Speech Recognition (ASR).
The output embeddings of the SSL model are treated as powerful short-time
representations of the speech signal. However, in the ASR task, the main
objective is to get the correct sequence of acoustic units, characters, or
byte-pair encodings (BPEs). Usually, encoder-decoder architecture works
exceptionally well for a sequence-to-sequence task like ASR. Therefore, in this
paper, we propose a new paradigm that exploits the power of a decoder during
self-supervised learning. We use Hidden Unit BERT (HuBERT) SSL framework to
compute the conventional masked prediction loss for the encoder. In addition,
we have introduced a decoder in the SSL framework and proposed a target
preparation strategy for the decoder. Finally, we use a multitask SSL setup
wherein we jointly optimize both the encoder and decoder losses. We hypothesize
that the presence of a decoder in the SSL model helps it learn an acoustic
unit-based language model, which might improve the performance of an ASR
downstream task. We compare our proposed SSL model with HuBERT and show up to
25% relative improvement in performance on ASR by finetuning on various
LibriSpeech subsets.
- Abstract(参考訳): 自己教師付き学習(SSL)は、自動音声認識(ASR)など、様々な音声関連下流タスクで大きな成功を収めている。
SSLモデルの出力埋め込みは、音声信号の強力な短時間表現として扱われる。
しかし、ASRタスクでは、音響ユニット、文字、バイトペアエンコーディング(BPE)の正しいシーケンスを取得することが主な目的である。
通常、エンコーダ-デコーダアーキテクチャはasrのようなシーケンス-シーケンスタスクで非常にうまく機能する。
そこで本稿では,自己教師型学習におけるデコーダのパワーを活用した新しいパラダイムを提案する。
我々はHuBERT(HuBERT)SSLフレームワークを用いて、エンコーダの従来のマスク付き予測損失を計算する。
さらに、SSLフレームワークにデコーダを導入し、デコーダのターゲット準備戦略を提案した。
最後に、エンコーダとデコーダの両方の損失を共同で最適化するマルチタスクSSLセットアップを使用する。
SSLモデルにおけるデコーダの存在は、ASRダウンストリームタスクの性能を向上させる音響単位ベース言語モデルを学ぶのに役立つと仮定する。
提案するSSLモデルとHuBERTを比較し,様々なLibriSpeechサブセットを微調整することにより,ASRの性能が25%向上したことを示す。
関連論文リスト
- Large Language Models Are Strong Audio-Visual Speech Recognition Learners [53.142635674428874]
マルチモーダル・大規模言語モデル(MLLM)は,近年,多モーダル理解能力の強化により,研究の焦点となっている。
本稿では,Llama-AVSRを提案する。
我々は,最大公的なAVSRベンチマークであるLSS3に対する提案手法の評価を行い,WERが0.81%,0.77%であるASRとAVSRのタスクに対して,新しい最先端の結果を得た。
論文 参考訳(メタデータ) (2024-09-18T21:17:27Z) - Codec-ASR: Training Performant Automatic Speech Recognition Systems with Discrete Speech Representations [16.577870835480585]
本稿では、離散符号を用いたASRシステム構築に関する総合的な分析を行う。
本稿では,量子化スキームや時間領域,スペクトル特徴符号化などの異なる手法について検討する。
同様のビットレートでEncodecを上回るパイプラインを導入する。
論文 参考訳(メタデータ) (2024-07-03T20:51:41Z) - Decoder-only Architecture for Streaming End-to-end Speech Recognition [45.161909551392085]
ブロックワイド自動音声認識(ASR)におけるデコーダのみのアーキテクチャを提案する。
提案手法では,ブロックワイズ音声サブネットワークを用いて,CTC出力とコンテキスト埋め込みを用いて音声特徴を圧縮し,デコーダのプロンプトとして順次提供する。
提案するデコーダのみのストリーミングASRは,ベースラインモデルの2倍の速度で,LibriSpeechテストの他セットの単語誤り率を8%削減する。
論文 参考訳(メタデータ) (2024-06-23T13:50:08Z) - Fill in the Gap! Combining Self-supervised Representation Learning with Neural Audio Synthesis for Speech Inpainting [14.402357651227003]
本稿では,音声信号の欠落部分を周囲の文脈から再構成する音声認識用SSLモデルについて検討する。
その目的のために、SSLエンコーダ、すなわち HuBERT とニューラルヴォコーダ、すなわち HiFiGAN を組み合わせてデコーダの役割を演じる。
論文 参考訳(メタデータ) (2024-05-30T14:41:39Z) - UniEnc-CASSNAT: An Encoder-only Non-autoregressive ASR for Speech SSL
Models [23.383924361298874]
CTCとCASS-NATの利点を組み合わせた新しいエンコーダベースのNASRUniEnc-CASSNATを提案する。
提案したUniEnc-CASSNATは、最先端のNASR結果を実現し、エンコーダのみでCASS-NATに匹敵する。
論文 参考訳(メタデータ) (2024-02-14T02:11:04Z) - Cross-Speaker Encoding Network for Multi-Talker Speech Recognition [74.97576062152709]
Cross-MixSpeaker
ネットワークは、話者間の表現を集約することでSIMOモデルの制限に対処する。
ネットワークはSOTと統合され、SIMOとSISOの両方の利点を利用する。
論文 参考訳(メタデータ) (2024-01-08T16:37:45Z) - SALTTS: Leveraging Self-Supervised Speech Representations for improved
Text-to-Speech Synthesis [0.3007949058551534]
我々は、合成音声の品質を高めるために、様々な自己監督学習(SSL)モデルからの表現を活用している。
特に、SSL表現の再構築を目的として、FastSpeech2エンコーダの長制御出力を一連のエンコーダ層に渡す。
SSL特徴量からの音声特性の豊かさは出力音声品質を反映し,提案手法の客観的および主観的評価はベースラインであるFastSpeech2より優れている。
論文 参考訳(メタデータ) (2023-08-02T08:59:52Z) - SLICER: Learning universal audio representations using low-resource
self-supervised pre-training [53.06337011259031]
ラベルなし音声データに事前学習エンコーダを組み込むための自己指導型学習手法を提案する。
我々の主な目的は、多種多様な音声および非音声タスクにまたがる一般化が可能な音声表現を学習することである。
論文 参考訳(メタデータ) (2022-11-02T23:45:33Z) - Pre-Training Transformer Decoder for End-to-End ASR Model with Unpaired
Speech Data [145.95460945321253]
本稿では,音響単位,すなわち擬似符号を用いたエンコーダ・デコーダネットワークのための2つの事前学習タスクを提案する。
提案したSpeech2Cは,デコーダを事前学習することなく,単語誤り率(WER)を19.2%削減できる。
論文 参考訳(メタデータ) (2022-03-31T15:33:56Z) - Multi-Modal Zero-Shot Sign Language Recognition [51.07720650677784]
マルチモーダルなゼロショット手話認識モデルを提案する。
C3DモデルとともにTransformerベースのモデルを使用して手の検出と深い特徴抽出を行う。
意味空間は、視覚的特徴をクラスラベルの言語的な埋め込みにマッピングするために使用される。
論文 参考訳(メタデータ) (2021-09-02T09:10:39Z) - Streaming automatic speech recognition with the transformer model [59.58318952000571]
本稿では,ストリーミングASRのためのトランスフォーマーに基づくエンドツーエンドASRシステムを提案する。
本研究では,エンコーダに時間制限付き自己アテンションを適用し,エンコーダ・デコーダのアテンション機構に注意を喚起する。
提案したストリーミングトランスアーキテクチャは,LibriSpeechの「クリーン」および「他の」テストデータに対して,2.8%と7.2%のWERを実現する。
論文 参考訳(メタデータ) (2020-01-08T18:58:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。