論文の概要: Joint Encoder-Decoder Self-Supervised Pre-training for ASR
- arxiv url: http://arxiv.org/abs/2206.04465v1
- Date: Thu, 9 Jun 2022 12:45:29 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-10 14:06:24.814172
- Title: Joint Encoder-Decoder Self-Supervised Pre-training for ASR
- Title(参考訳): ASRのためのジョイントエンコーダ-デコーダ自己監督事前学習
- Authors: Arunkumar A and Umesh S
- Abstract要約: 自己教師型学習は、様々な音声関連下流タスクで大きな成功を収めている。
本稿では,自己教師型学習におけるデコーダのパワーを活用した新しいパラダイムを提案する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Self-supervised learning (SSL) has shown tremendous success in various
speech-related downstream tasks, including Automatic Speech Recognition (ASR).
The output embeddings of the SSL model are treated as powerful short-time
representations of the speech signal. However, in the ASR task, the main
objective is to get the correct sequence of acoustic units, characters, or
byte-pair encodings (BPEs). Usually, encoder-decoder architecture works
exceptionally well for a sequence-to-sequence task like ASR. Therefore, in this
paper, we propose a new paradigm that exploits the power of a decoder during
self-supervised learning. We use Hidden Unit BERT (HuBERT) SSL framework to
compute the conventional masked prediction loss for the encoder. In addition,
we have introduced a decoder in the SSL framework and proposed a target
preparation strategy for the decoder. Finally, we use a multitask SSL setup
wherein we jointly optimize both the encoder and decoder losses. We hypothesize
that the presence of a decoder in the SSL model helps it learn an acoustic
unit-based language model, which might improve the performance of an ASR
downstream task. We compare our proposed SSL model with HuBERT and show up to
25% relative improvement in performance on ASR by finetuning on various
LibriSpeech subsets.
- Abstract(参考訳): 自己教師付き学習(SSL)は、自動音声認識(ASR)など、様々な音声関連下流タスクで大きな成功を収めている。
SSLモデルの出力埋め込みは、音声信号の強力な短時間表現として扱われる。
しかし、ASRタスクでは、音響ユニット、文字、バイトペアエンコーディング(BPE)の正しいシーケンスを取得することが主な目的である。
通常、エンコーダ-デコーダアーキテクチャはasrのようなシーケンス-シーケンスタスクで非常にうまく機能する。
そこで本稿では,自己教師型学習におけるデコーダのパワーを活用した新しいパラダイムを提案する。
我々はHuBERT(HuBERT)SSLフレームワークを用いて、エンコーダの従来のマスク付き予測損失を計算する。
さらに、SSLフレームワークにデコーダを導入し、デコーダのターゲット準備戦略を提案した。
最後に、エンコーダとデコーダの両方の損失を共同で最適化するマルチタスクSSLセットアップを使用する。
SSLモデルにおけるデコーダの存在は、ASRダウンストリームタスクの性能を向上させる音響単位ベース言語モデルを学ぶのに役立つと仮定する。
提案するSSLモデルとHuBERTを比較し,様々なLibriSpeechサブセットを微調整することにより,ASRの性能が25%向上したことを示す。
関連論文リスト
- UniEnc-CASSNAT: An Encoder-only Non-autoregressive ASR for Speech SSL
Models [23.383924361298874]
CTCとCASS-NATの利点を組み合わせた新しいエンコーダベースのNASRUniEnc-CASSNATを提案する。
提案したUniEnc-CASSNATは、最先端のNASR結果を実現し、エンコーダのみでCASS-NATに匹敵する。
論文 参考訳(メタデータ) (2024-02-14T02:11:04Z) - Using Large Language Model for End-to-End Chinese ASR and NER [14.176601983200527]
本稿では,クロスアテンションによる音声特徴を組み込んだエンコーダ・デコーダアーキテクチャを提案する。
本稿では,中国語の自動音声認識(ASR)と名前認識(NER)の2つの手法を比較した。
実験の結果,エンコーダ-デコーダアーキテクチャは短いコンテキストでデコーダのみのアーキテクチャよりも優れていることがわかった。
論文 参考訳(メタデータ) (2024-01-21T03:15:05Z) - Cross-Speaker Encoding Network for Multi-Talker Speech Recognition [78.73547416883987]
クロスミクススピーカを提案する。
話者間の表現を集約することでSIMOモデルの限界に対処するネットワーク。
CSE-SOT モデルは,単語誤り率 (WER) をSOT モデルと比較して10%削減し,ハイオーバーラップ音声では16%削減する。
論文 参考訳(メタデータ) (2024-01-08T16:37:45Z) - Harnessing the Zero-Shot Power of Instruction-Tuned Large Language Model
in End-to-End Speech Recognition [26.043533280932603]
命令調整型大言語モデル(LLM)とエンドツーエンド自動音声認識(ASR)の新たな統合を提案する。
本研究では,LLMのゼロショット機能を用いて,ASRの性能向上に寄与する言語情報を抽出する。
論文 参考訳(メタデータ) (2023-09-19T11:10:50Z) - SALTTS: Leveraging Self-Supervised Speech Representations for improved
Text-to-Speech Synthesis [0.3007949058551534]
我々は、合成音声の品質を高めるために、様々な自己監督学習(SSL)モデルからの表現を活用している。
特に、SSL表現の再構築を目的として、FastSpeech2エンコーダの長制御出力を一連のエンコーダ層に渡す。
SSL特徴量からの音声特性の豊かさは出力音声品質を反映し,提案手法の客観的および主観的評価はベースラインであるFastSpeech2より優れている。
論文 参考訳(メタデータ) (2023-08-02T08:59:52Z) - Self-Supervised Learning for Speech Enhancement through Synthesis [5.924928860260821]
そこで本研究では,ボコーダが雑音表現を受け入れ,クリーンな音声を直接合成する方法を学習する,デノナイズドボコーダ(DeVo)アプローチを提案する。
10msのレイテンシとパフォーマンスの低下を最小限に抑えながら,ストリーミングオーディオ上で動作可能な因果バージョンを実証した。
論文 参考訳(メタデータ) (2022-11-04T16:06:56Z) - SLICER: Learning universal audio representations using low-resource
self-supervised pre-training [53.06337011259031]
ラベルなし音声データに事前学習エンコーダを組み込むための自己指導型学習手法を提案する。
我々の主な目的は、多種多様な音声および非音声タスクにまたがる一般化が可能な音声表現を学習することである。
論文 参考訳(メタデータ) (2022-11-02T23:45:33Z) - Pre-Training Transformer Decoder for End-to-End ASR Model with Unpaired
Speech Data [145.95460945321253]
本稿では,音響単位,すなわち擬似符号を用いたエンコーダ・デコーダネットワークのための2つの事前学習タスクを提案する。
提案したSpeech2Cは,デコーダを事前学習することなく,単語誤り率(WER)を19.2%削減できる。
論文 参考訳(メタデータ) (2022-03-31T15:33:56Z) - Multi-Modal Zero-Shot Sign Language Recognition [51.07720650677784]
マルチモーダルなゼロショット手話認識モデルを提案する。
C3DモデルとともにTransformerベースのモデルを使用して手の検出と深い特徴抽出を行う。
意味空間は、視覚的特徴をクラスラベルの言語的な埋め込みにマッピングするために使用される。
論文 参考訳(メタデータ) (2021-09-02T09:10:39Z) - Less is More: Pre-training a Strong Siamese Encoder Using a Weak Decoder [75.84152924972462]
多くの実世界のアプリケーションはSiameseネットワークを使用して、テキストシーケンスを大規模に効率的にマッチングします。
本稿では,シームズアーキテクチャにおけるシーケンスマッチング専用の言語モデルを事前学習する。
論文 参考訳(メタデータ) (2021-02-18T08:08:17Z) - Streaming automatic speech recognition with the transformer model [59.58318952000571]
本稿では,ストリーミングASRのためのトランスフォーマーに基づくエンドツーエンドASRシステムを提案する。
本研究では,エンコーダに時間制限付き自己アテンションを適用し,エンコーダ・デコーダのアテンション機構に注意を喚起する。
提案したストリーミングトランスアーキテクチャは,LibriSpeechの「クリーン」および「他の」テストデータに対して,2.8%と7.2%のWERを実現する。
論文 参考訳(メタデータ) (2020-01-08T18:58:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。