論文の概要: Multi-pass Training and Cross-information Fusion for Low-resource
End-to-end Accented Speech Recognition
- arxiv url: http://arxiv.org/abs/2306.11309v1
- Date: Tue, 20 Jun 2023 06:08:09 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-21 15:32:33.330541
- Title: Multi-pass Training and Cross-information Fusion for Low-resource
End-to-end Accented Speech Recognition
- Title(参考訳): 低リソースエンドツーエンドアクセント音声認識のためのマルチパス訓練とクロス情報融合
- Authors: Xuefei Wang, Yanhua Long, Yijie Li, Haoran Wei
- Abstract要約: 低リソースアクセント型音声認識は、現在のASR技術で直面する重要な課題の1つである。
本研究では,非アクセントと限定的なアクセント付きトレーニングデータから得られた音響情報を活用するために,Aformerと呼ばれるコンフォーマーベースのアーキテクチャを提案する。
- 参考スコア(独自算出の注目度): 12.323309756880581
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Low-resource accented speech recognition is one of the important challenges
faced by current ASR technology in practical applications. In this study, we
propose a Conformer-based architecture, called Aformer, to leverage both the
acoustic information from large non-accented and limited accented training
data. Specifically, a general encoder and an accent encoder are designed in the
Aformer to extract complementary acoustic information. Moreover, we propose to
train the Aformer in a multi-pass manner, and investigate three
cross-information fusion methods to effectively combine the information from
both general and accent encoders. All experiments are conducted on both the
accented English and Mandarin ASR tasks. Results show that our proposed methods
outperform the strong Conformer baseline by relative 10.2% to 24.5%
word/character error rate reduction on six in-domain and out-of-domain accented
test sets.
- Abstract(参考訳): 低リソースアクセント音声認識は、現在のasr技術が実際の応用で直面する重要な課題の1つである。
本研究では,大規模な非アクセントと限定的なアクセント学習データから得られた音響情報を両立させるコンフォーマーアーキテクチャAformerを提案する。
具体的には、一般的なエンコーダとアクセントエンコーダをAformerで設計し、補音情報を抽出する。
さらに,マルチパス方式でAformerを訓練し,汎用エンコーダとアクセントエンコーダの両方からの情報を効果的に組み合わせる3つの情報融合手法について検討する。
全ての実験はアクセント付き英語とマンダリンASRのタスクで行われている。
その結果,提案手法は,6つのドメイン内および非ドメインアクセント付きテストセットに対して,単語/文字誤り率の相対10.2%から24.5%で強いコンバータベースラインを上回った。
関連論文リスト
- Improving Self-supervised Pre-training using Accent-Specific Codebooks [48.409296549372414]
自己教師型学習のためのアクセント認識適応技術
Mozilla Common Voiceデータセットでは、提案手法は他のアクセント適応手法よりも優れています。
論文 参考訳(メタデータ) (2024-07-04T08:33:52Z) - Qifusion-Net: Layer-adapted Stream/Non-stream Model for End-to-End Multi-Accent Speech Recognition [1.0690007351232649]
本稿では,ターゲットアクセントに関する事前知識を必要としないQifusion-Netと呼ばれる層適応核融合モデルを提案する。
実験の結果,提案手法は,複数のアクセントテストデータセットに対して,22.1$%と17.2$%の文字誤り率(CER)を相対的に低減し,ベースラインを上回った。
論文 参考訳(メタデータ) (2024-07-03T11:35:52Z) - MLCA-AVSR: Multi-Layer Cross Attention Fusion based Audio-Visual Speech Recognition [62.89464258519723]
異なるレベルのオーディオ/視覚エンコーダに融合することで、各モードの表現を促進する多層クロスアテンション融合に基づくAVSR手法を提案する。
提案手法は第1位システムを超え,新たなSOTA cpCERの29.13%をこのデータセット上に構築する。
論文 参考訳(メタデータ) (2024-01-07T08:59:32Z) - Personalizing Keyword Spotting with Speaker Information [11.4457776449367]
キーワードスポッティングシステムは、様々なアクセントと年齢グループを持つ多様な人口に一般化するのに苦労することが多い。
特徴量線形変調(FiLM)を用いたキーワードスポッティングに話者情報を統合する新しい手法を提案する。
提案手法では,パラメータ数が1%増加し,レイテンシと計算コストが最小限に抑えられた。
論文 参考訳(メタデータ) (2023-11-06T12:16:06Z) - Accented Speech Recognition With Accent-specific Codebooks [53.288874858671576]
音声アクセントは最先端の自動音声認識(ASR)システムに重大な課題をもたらす。
あまり表現されないアクセントによる性能低下は、ASRの包括的採用に対する深刻な抑止力である。
トレーニング可能なコードブックを用いたクロスアテンションを用いた,エンドツーエンドのASRシステムに対するアクセント適応手法を提案する。
論文 参考訳(メタデータ) (2023-10-24T16:10:58Z) - Learning Speech Representation From Contrastive Token-Acoustic
Pretraining [57.08426714676043]
本研究では、2つのエンコーダを用いて音素と音声を複数モーダル空間に導入するCTAP(Contrastive Token-Acoustic Pretraining)を提案する。
提案したCTAPモデルは、210k音声と音素ペアで訓練され、最小教師付きTS、VC、ASRを実現する。
論文 参考訳(メタデータ) (2023-09-01T12:35:43Z) - Improving Audio-Visual Speech Recognition by Lip-Subword Correlation
Based Visual Pre-training and Cross-Modal Fusion Encoder [58.523884148942166]
本稿では,事前学習および微調整訓練の枠組みの下で,音声視覚音声認識(AVSR)を改善するための2つの新しい手法を提案する。
まず, マンダリンにおける口唇形状と音節レベルサブワード単位の相関について検討し, 口唇形状から良好なフレームレベル音節境界を確立する。
次に,音声誘導型クロスモーダルフュージョンエンコーダ(CMFE)ニューラルネットワークを提案する。
論文 参考訳(メタデータ) (2023-08-14T08:19:24Z) - Wav-BERT: Cooperative Acoustic and Linguistic Representation Learning
for Low-Resource Speech Recognition [159.9312272042253]
Wav-BERTは、協調的な音響および言語表現学習法である。
我々は、事前訓練された音響モデル(wav2vec 2.0)と言語モデル(BERT)をエンドツーエンドのトレーニング可能なフレームワークに統合する。
論文 参考訳(メタデータ) (2021-09-19T16:39:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。