論文の概要: UniEnc-CASSNAT: An Encoder-only Non-autoregressive ASR for Speech SSL
Models
- arxiv url: http://arxiv.org/abs/2402.08898v1
- Date: Wed, 14 Feb 2024 02:11:04 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-15 17:09:05.008645
- Title: UniEnc-CASSNAT: An Encoder-only Non-autoregressive ASR for Speech SSL
Models
- Title(参考訳): UniEnc-CASSNAT:音声SSLモデルのためのエンコーダのみの非自己回帰型ASR
- Authors: Ruchao Fan, Natarajan Balaji Shanka, and Abeer Alwan
- Abstract要約: CTCとCASS-NATの利点を組み合わせた新しいエンコーダベースのNASRUniEnc-CASSNATを提案する。
提案したUniEnc-CASSNATは、最先端のNASR結果を実現し、エンコーダのみでCASS-NATに匹敵する。
- 参考スコア(独自算出の注目度): 23.383924361298874
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Non-autoregressive automatic speech recognition (NASR) models have gained
attention due to their parallelism and fast inference. The encoder-based NASR,
e.g. connectionist temporal classification (CTC), can be initialized from the
speech foundation models (SFM) but does not account for any dependencies among
intermediate tokens. The encoder-decoder-based NASR, like CTC alignment-based
single-step non-autoregressive transformer (CASS-NAT), can mitigate the
dependency problem but is not able to efficiently integrate SFM. Inspired by
the success of recent work of speech-text joint pre-training with a shared
transformer encoder, we propose a new encoder-based NASR, UniEnc-CASSNAT, to
combine the advantages of CTC and CASS-NAT. UniEnc-CASSNAT consists of only an
encoder as the major module, which can be the SFM. The encoder plays the role
of both the CASS-NAT encoder and decoder by two forward passes. The first pass
of the encoder accepts the speech signal as input, while the concatenation of
the speech signal and the token-level acoustic embedding is used as the input
for the second pass. Examined on the Librispeech 100h, MyST, and Aishell1
datasets, the proposed UniEnc-CASSNAT achieves state-of-the-art NASR results
and is better or comparable to CASS-NAT with only an encoder and hence, fewer
model parameters. Our codes are publicly available.
- Abstract(参考訳): 非自己回帰自動音声認識(NASR)モデルは並列性と高速推論により注目されている。
エンコーダベースのNASR(例えばコネクショニスト時間分類(CTC))は、音声基礎モデル(SFM)から初期化することができるが、中間トークン間の依存関係は考慮していない。
ctcアライメントベースの単段非自己回帰トランス(cass-nat)のようなエンコーダデコーダベースのnasrは依存問題を緩和するが、sfmを効率的に統合できない。
CTCとCASS-NATの利点を組み合わせるために,共有トランスフォーマーエンコーダを用いた音声-テキスト共同学習の成功に触発され,新しいエンコーダベースのNASRであるUniEnc-CASSNATを提案する。
UniEnc-CASSNATは主要なモジュールとしてエンコーダのみで構成される。
エンコーダはCASS-NATエンコーダとデコーダの両方の役割を2つの前方パスで果たす。
エンコーダの第1パスは音声信号を入力として受け入れ、音声信号とトークンレベルの音響埋め込みとの結合を第2パスの入力として使用する。
Librispeech 100h、MyST、およびAishell1データセットで比較すると、提案されたUniEnc-CASSNATは最先端のNASR結果を実現し、エンコーダだけでCASS-NATに匹敵する、あるいは同等のモデルパラメータが少ない。
私たちのコードは公開されています。
関連論文リスト
- Using Large Language Model for End-to-End Chinese ASR and NER [35.876792804001646]
本稿では,クロスアテンションによる音声特徴を組み込んだエンコーダ・デコーダアーキテクチャを提案する。
本稿では,中国語の自動音声認識(ASR)と名前認識(NER)の2つの手法を比較した。
実験の結果,エンコーダ-デコーダアーキテクチャは短いコンテキストでデコーダのみのアーキテクチャよりも優れていることがわかった。
論文 参考訳(メタデータ) (2024-01-21T03:15:05Z) - Cross-Speaker Encoding Network for Multi-Talker Speech Recognition [74.97576062152709]
Cross-MixSpeaker
ネットワークは、話者間の表現を集約することでSIMOモデルの制限に対処する。
ネットワークはSOTと統合され、SIMOとSISOの両方の利点を利用する。
論文 参考訳(メタデータ) (2024-01-08T16:37:45Z) - A Lexical-aware Non-autoregressive Transformer-based ASR Model [9.500518278458905]
本稿では,音響エンコーダ,音声テキスト共有エンコーダ,音声テキスト共有デコーダで構成される,語彙対応非自己回帰トランスフォーマベース(LA-NAT)ASRフレームワークを提案する。
LA-NATは,語彙情報をASRモデルに認識させることを目的としており,学習した言語知識を活用することにより,より良い結果が得られることが期待されている。
論文 参考訳(メタデータ) (2023-05-18T09:50:47Z) - Joint Encoder-Decoder Self-Supervised Pre-training for ASR [0.0]
自己教師型学習は、様々な音声関連下流タスクで大きな成功を収めている。
本稿では,自己教師型学習におけるデコーダのパワーを活用した新しいパラダイムを提案する。
論文 参考訳(メタデータ) (2022-06-09T12:45:29Z) - Pre-Training Transformer Decoder for End-to-End ASR Model with Unpaired
Speech Data [145.95460945321253]
本稿では,音響単位,すなわち擬似符号を用いたエンコーダ・デコーダネットワークのための2つの事前学習タスクを提案する。
提案したSpeech2Cは,デコーダを事前学習することなく,単語誤り率(WER)を19.2%削減できる。
論文 参考訳(メタデータ) (2022-03-31T15:33:56Z) - Fast-MD: Fast Multi-Decoder End-to-End Speech Translation with
Non-Autoregressive Hidden Intermediates [59.678108707409606]
我々は、接続性時間分類(CTC)出力に基づいて非自己回帰デコードによりHIを生成する高速MDモデルであるFast-MDを提案し、続いてASRデコーダを提案する。
高速MDは、GPUとCPUの「単純なMDモデル」よりも2倍、4倍高速なデコード速度を実現した。
論文 参考訳(メタデータ) (2021-09-27T05:21:30Z) - Dual-Encoder Architecture with Encoder Selection for Joint Close-Talk
and Far-Talk Speech Recognition [6.618254914001219]
本稿では、近接語(CT)と遠方語(FT)の連成モデリングのための二重エンコーダASRアーキテクチャを提案する。
提案したデュアルエンコーダアーキテクチャは、CTとFTの両方の入力を使用する場合、最大9%の相対的なWER削減が得られる。
論文 参考訳(メタデータ) (2021-09-17T19:52:47Z) - Non-autoregressive End-to-end Speech Translation with Parallel
Autoregressive Rescoring [83.32560748324667]
本稿では,非自己回帰モデルに基づく効率的なエンドツーエンド音声翻訳(E2E-ST)フレームワークについて述べる。
我々は,共有エンコーダ上にNARデコーダと補助的な浅層ARデコーダを備えた,Orthrosと呼ばれる統一NAR E2E-STフレームワークを提案する。
論文 参考訳(メタデータ) (2021-09-09T16:50:16Z) - Stacked Acoustic-and-Textual Encoding: Integrating the Pre-trained
Models into Speech Translation Encoders [30.160261563657947]
エンドツーエンドの音声翻訳では、事前トレーニングが有望です。
Stackedを提案します。
音声翻訳のための音響・テキスト(SATE)法
エンコーダはアコースティックシーケンスを通常どおりに処理することから始まり、その後はアコースティックシーケンスのように振る舞う。
MTエンコーダは入力シーケンスのグローバル表現である。
論文 参考訳(メタデータ) (2021-05-12T16:09:53Z) - Bi-Decoder Augmented Network for Neural Machine Translation [108.3931242633331]
本稿では,ニューラルマシン翻訳タスクのためのBi-Decoder Augmented Network (BiDAN)を提案する。
各デコーダは入力されたテキストの表現を対応する言語に変換するため、2つの目的語と共同でトレーニングすることで、共有エンコーダは言語に依存しない意味空間を生成することができる。
論文 参考訳(メタデータ) (2020-01-14T02:05:14Z) - Streaming automatic speech recognition with the transformer model [59.58318952000571]
本稿では,ストリーミングASRのためのトランスフォーマーに基づくエンドツーエンドASRシステムを提案する。
本研究では,エンコーダに時間制限付き自己アテンションを適用し,エンコーダ・デコーダのアテンション機構に注意を喚起する。
提案したストリーミングトランスアーキテクチャは,LibriSpeechの「クリーン」および「他の」テストデータに対して,2.8%と7.2%のWERを実現する。
論文 参考訳(メタデータ) (2020-01-08T18:58:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。