論文の概要: PM-MMUT: Boosted Phone-mask Data Augmentation using Multi-modeing Unit
Training for Robust Uyghur E2E Speech Recognition
- arxiv url: http://arxiv.org/abs/2112.06721v1
- Date: Mon, 13 Dec 2021 15:04:33 GMT
- ステータス: 処理完了
- システム内更新日: 2021-12-14 18:18:26.832694
- Title: PM-MMUT: Boosted Phone-mask Data Augmentation using Multi-modeing Unit
Training for Robust Uyghur E2E Speech Recognition
- Title(参考訳): pm-mmut:ロバストなuyghur e2e音声認識のためのマルチモードユニットトレーニングを用いた電話マスクデータ拡張
- Authors: Guodong Ma, Pengfei Hu, Nurmemet Yolwas, Shen Huang, Hao Huang
- Abstract要約: 子音と母音の短縮は、ウイグル語自動音声認識の性能低下を引き起こす可能性がある。
PMT LibriPM-MMUTとMulti-modeling Unit Training (MMUT)アーキテクチャの融合を提案し,PMTの性能向上を図る。
Uyghur ASRの実験結果から,提案手法は純粋なPMTよりも優れた性能を示した。
- 参考スコア(独自算出の注目度): 5.412341237841356
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Consonant and vowel reduction are often encountered in Uyghur speech, which
might cause performance degradation in Uyghur automatic speech recognition
(ASR). Our recently proposed learning strategy based on masking, Phone Masking
Training (PMT), alleviates the impact of such phenomenon in Uyghur ASR.
Although PMT achieves remarkably improvements, there still exists room for
further gains due to the granularity mismatch between masking unit of PMT
(phoneme) and modeling unit (word-piece). To boost the performance of PMT, we
propose multi-modeling unit training (MMUT) architecture fusion with PMT
(PM-MMUT). The idea of MMUT framework is to split the Encoder into two parts
including acoustic feature sequences to phoneme-level representation
(AF-to-PLR) and phoneme-level representation to word-piece-level representation
(PLR-to-WPLR). It allows AF-to-PLR to be optimized by an intermediate
phoneme-based CTC loss to learn the rich phoneme-level context information
brought by PMT. Experi-mental results on Uyghur ASR show that the proposed
approaches improve significantly, outperforming the pure PMT (reduction WER
from 24.0 to 23.7 on Read-Test and from 38.4 to 36.8 on Oral-Test
respectively). We also conduct experiments on the 960-hour Librispeech
benchmark using ESPnet1, which achieves about 10% relative WER reduction on all
the test sets without LM fusion comparing with the latest official ESPnet1
pre-trained model.
- Abstract(参考訳): ウイグル語では子音と母音の減少がしばしば見られ、ウイグル語自動音声認識(ASR)の性能低下を引き起こす可能性がある。
最近提案するマスキングに基づく学習戦略であるpmt(phone masking training)は,uyghur asrにおけるこのような現象の影響を緩和する。
PMTは著しく改善されているが、PMTのマスキングユニット(音素)とモデリングユニット(ワードピース)の粒度ミスマッチのため、さらなる向上の余地は残っている。
PMTの性能を高めるために,PM-MMUT(Multi-modeling Unit Training)アーキテクチャとPM-MMUT(PM-MMUT)の融合を提案する。
MMUTフレームワークの考え方は、エンコーダを音素レベル表現(AF-to-PLR)と音素レベル表現(PLR-to-WPLR)の2つの部分に分けられる。
これにより、AF-to-PLRは中間音素ベースのCTC損失によって最適化され、PMTがもたらすリッチな音素レベルの文脈情報を学ぶことができる。
uyghur asrによる実験の結果,提案手法は,pmtを上回って有意に改善した(読み出し試験では24.0から23.7,口頭試験では38.4から36.8)。
ESPnet1 を用いた 960 時間 Librispeech ベンチマークの実験も行っており,LM 融合を伴わない全てのテストセットに対して,最新の ESPnet1 事前訓練モデルと比較して約10%の WER 削減を実現している。
関連論文リスト
- TIGER: Time-frequency Interleaved Gain Extraction and Reconstruction for Efficient Speech Separation [19.126525226518975]
パラメータと計算コストを大幅に削減した音声分離モデルを提案する。
TIGERは事前の知識を活用して周波数帯域を分割し、周波数情報を圧縮する。
我々は、TIGERが、最先端(SOTA)モデルTF-GridNetを上回る性能を達成することを示す。
論文 参考訳(メタデータ) (2024-10-02T12:21:06Z) - SelfSeg: A Self-supervised Sub-word Segmentation Method for Neural
Machine Translation [51.881877192924414]
サブワードセグメンテーションはニューラルマシン翻訳(NMT)に不可欠な前処理ステップである
本稿では,自己教師型ニューラルネットワークサブワードセグメンテーション手法であるSelfSegを紹介する。
SelfSegはトレーニング/デコードがはるかに高速で、並列コーパスの代わりに単言語辞書のみを必要とする。
論文 参考訳(メタデータ) (2023-07-31T04:38:47Z) - JEIT: Joint End-to-End Model and Internal Language Model Training for
Speech Recognition [63.38229762589485]
ILMに大規模未使用テキストを注入する統合エンドツーエンド(E2E)モデルと内部言語モデル(ILM)トレーニング手法を提案する。
JEIT/CJJTは100Bの未ペアの文で、未ペアのテキストなしで訓練されたモデルに対して、レアワードの認識精度を最大16.4%向上させる。
論文 参考訳(メタデータ) (2023-02-16T21:07:38Z) - Audio-Visual Efficient Conformer for Robust Speech Recognition [91.3755431537592]
本稿では,近年提案されている高能率コンバータ接続性時間分類アーキテクチャの雑音を,音声と視覚の両方を処理して改善することを提案する。
実験の結果,音声と視覚のモダリティを用いることで,環境騒音の存在下での音声の認識が向上し,トレーニングが大幅に加速し,WERが4倍のトレーニングステップで低下することが確認された。
論文 参考訳(メタデータ) (2023-01-04T05:36:56Z) - Unified End-to-End Speech Recognition and Endpointing for Fast and
Efficient Speech Systems [17.160006765475988]
本稿では,単一エンドツーエンド (E2E) モデルを用いて, ASR と EP タスクを協調訓練する手法を提案する。
我々は、EPにオーディオフレームを直接消費するか、ASRモデルから低レベルの潜在表現を消費するよう訓練する「スウィッチ」接続を導入する。
これにより、推論中にフレームフィルタリングを低コストで行うことができる単一のE2Eモデルが得られる。
論文 参考訳(メタデータ) (2022-11-01T23:43:15Z) - Improving Noise Robustness of Contrastive Speech Representation Learning
with Speech Reconstruction [109.44933866397123]
実環境における音声認識システムの実現には,雑音の堅牢性が不可欠である。
雑音認識のための自己教師型フレームワークにより学習したノイズロスト表現を用いる。
ラベル付きデータのわずか16%で報告された最高の教師付きアプローチに匹敵するパフォーマンスを実現した。
論文 参考訳(メタデータ) (2021-10-28T20:39:02Z) - PARP: Prune, Adjust and Re-Prune for Self-Supervised Speech Recognition [78.67749936030219]
Prune-Adjust-Re-Prune (PARP) は、より優れたASR性能を実現するための細工品を発見する。
低リソースの英語および多言語ASRの実験では、事前訓練された音声SSLにスパースワークが存在する。
論文 参考訳(メタデータ) (2021-06-10T17:32:25Z) - Large-Scale Pre-Training of End-to-End Multi-Talker ASR for Meeting
Transcription with Single Distant Microphone [43.77139614544301]
単一の遠距離マイクロホン(SDM)で重なり合った音声を含む会議の翻訳は、自動音声認識(ASR)の最も困難な問題の1つです。
本稿では,SOT(シリアライズ・アウトプット・トレーニング)ベースのマルチストーカーASRを事前に訓練する2段階のアプローチを広く検討する。
AMI-SDMトレーニングデータの70時間の微調整により,SOT ASRモデルはAMI-SDM評価セットに対して21.2%の単語誤り率(WER)を達成する。
論文 参考訳(メタデータ) (2021-03-31T02:43:32Z) - Gated Recurrent Fusion with Joint Training Framework for Robust
End-to-End Speech Recognition [64.9317368575585]
本稿では,ロバスト・エンド・ツー・エンドASRのためのジョイント・トレーニング・フレームワークを用いたゲート・リカレント・フュージョン(GRF)法を提案する。
GRFアルゴリズムはノイズと拡張された特徴を動的に組み合わせるために使用される。
提案手法は従来の関節強化・変圧器法に比べて10.04%の相対的文字誤り率(CER)低減を実現する。
論文 参考訳(メタデータ) (2020-11-09T08:52:05Z) - Multimodal Semi-supervised Learning Framework for Punctuation Prediction
in Conversational Speech [17.602098162338137]
句読点予測のためのマルチモーダル半教師付き学習手法について検討する。
我々は大量の音声およびテキストデータから表現を学習する。
1時間分の音声とテキストデータをトレーニングすると、ベースラインモデルよりも9-18%の絶対的な改善が得られた。
論文 参考訳(メタデータ) (2020-08-03T08:13:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。