論文の概要: BART based semantic correction for Mandarin automatic speech recognition
system
- arxiv url: http://arxiv.org/abs/2104.05507v1
- Date: Fri, 26 Mar 2021 06:41:16 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-06 19:02:18.432960
- Title: BART based semantic correction for Mandarin automatic speech recognition
system
- Title(参考訳): マンダリン自動音声認識システムにおけるBARTに基づく意味補正
- Authors: Yun Zhao, Xuerui Yang, Jinchao Wang, Yongyu Gao, Chao Yan, Yuanfu Zhou
- Abstract要約: 本稿では,事前学習したBARTを用いたトランスフォーマーに基づく意味補正手法を提案する。
10000時間のマンダリン音声データセットの実験では、文字誤り率(CER)が21.7%に効果的に減少できることが示されている。
- 参考スコア(独自算出の注目度): 4.468983421867722
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Although automatic speech recognition (ASR) systems achieved significantly
improvements in recent years, spoken language recognition error occurs which
can be easily spotted by human beings. Various language modeling techniques
have been developed on post recognition tasks like semantic correction. In this
paper, we propose a Transformer based semantic correction method with
pretrained BART initialization, Experiments on 10000 hours Mandarin speech
dataset show that character error rate (CER) can be effectively reduced by
21.7% relatively compared to our baseline ASR system. Expert evaluation
demonstrates that actual improvement of our model surpasses what CER indicates.
- Abstract(参考訳): 近年,音声認識システム(ASR)は大幅に改善されているが,音声認識の誤りは人によって容易に発見できる。
セマンティクス補正のようなポスト認識タスクでは、様々な言語モデリング技術が開発されている。
本稿では,事前訓練したBART初期化を用いたトランスフォーマーに基づく意味補正手法を提案し,マンダリン音声データセット10000時間実験の結果,文字誤り率(CER)をベースラインASRシステムと比較して21.7%削減できることを示した。
エキスパート評価は、cerが示すよりも実際のモデルの改善が優れていることを示している。
関連論文リスト
- Improving Multilingual ASR in the Wild Using Simple N-best Re-ranking [68.77659513993507]
我々は,多言語ASRの精度を向上させるため,単純かつ効果的なN-best再分類手法を提案する。
その結果, 音声認識の精度は8.7%, 6.1%, 単語誤り率は3.3%, 単語誤り率は2.0%であった。
論文 参考訳(メタデータ) (2024-09-27T03:31:32Z) - Speaker Tagging Correction With Non-Autoregressive Language Models [0.0]
非自己回帰言語モデルに基づく話者タグ付け補正システムを提案する。
提案手法は, 単語ダイアリゼーション誤り率 (WDER) を2つのデータセットで減少させる。
論文 参考訳(メタデータ) (2024-08-30T11:02:17Z) - Towards Unsupervised Speech Recognition Without Pronunciation Models [57.222729245842054]
ほとんどの言語では、音声認識システムを効果的に訓練するのに十分なペア音声とテキストデータがない。
本稿では、教師なしASRシステムを開発するために、音素レキシコンへの依存を除去することを提案する。
音声合成とテキスト・テキスト・マスクによるトークン埋込から教師なし音声認識が実現可能であることを実験的に実証した。
論文 参考訳(メタデータ) (2024-06-12T16:30:58Z) - Cross-lingual Knowledge Transfer and Iterative Pseudo-labeling for
Low-Resource Speech Recognition with Transducers [6.017182111335404]
言語間知識伝達と反復的擬似ラベル化は、ASRシステムの精度向上に成功していることを示す2つの手法である。
そこで本研究では,ハイブリッドシステムで作成したテキストを用いてトレーニングしたTransducerシステムが,単語誤り率の18%の削減を実現していることを示す。
論文 参考訳(メタデータ) (2023-05-23T03:50:35Z) - Investigating the Sensitivity of Automatic Speech Recognition Systems to
Phonetic Variation in L2 Englishes [3.198144010381572]
この研究は、複数のL2英語で音声変化を処理する方法を見つけるために、ASRシステムを探索する方法を実証する。
ASRの振る舞いは、類似した話し言葉を持つ話者間で体系的かつ一貫性があることが示されている。
論文 参考訳(メタデータ) (2023-05-12T11:29:13Z) - From English to More Languages: Parameter-Efficient Model Reprogramming
for Cross-Lingual Speech Recognition [50.93943755401025]
言語間音声認識のためのニューラルモデル再プログラミングに基づく新しいパラメータ効率学習フレームワークを提案する。
我々は、学習可能な事前学習機能強化に焦点を当てた、異なる補助的ニューラルネットワークアーキテクチャを設計する。
提案手法は,既存のASRチューニングアーキテクチャとその拡張性能を自己監督的損失で向上させる。
論文 参考訳(メタデータ) (2023-01-19T02:37:56Z) - Integrated Semantic and Phonetic Post-correction for Chinese Speech
Recognition [1.2914521751805657]
提案手法は,中国語ASRの誤り率を軽減するために,誤りとその置換候補間の文脈的表現と音声情報を総合的に活用する手法である。
実世界の音声認識実験の結果,提案手法はベースラインモデルよりも明らかに低いことがわかった。
論文 参考訳(メタデータ) (2021-11-16T11:55:27Z) - Dynamic Acoustic Unit Augmentation With BPE-Dropout for Low-Resource
End-to-End Speech Recognition [62.94773371761236]
我々は、OOVレートの高い低リソースセットアップで効果的なエンドツーエンドASRシステムを構築することを検討します。
本稿では,BPE-dropout法に基づく動的音響ユニット拡張法を提案する。
我々の単言語トルココンフォーマーは22.2%の文字誤り率(CER)と38.9%の単語誤り率(WER)の競争結果を確立した。
論文 参考訳(メタデータ) (2021-03-12T10:10:13Z) - Multi-task Language Modeling for Improving Speech Recognition of Rare
Words [14.745696312889763]
音声認識性能を向上させるために,意図やスロット予測などのセマンティックターゲットを利用するマルチタスク学習を用いた第2パスシステムを提案する。
マルチタスク LM を用いた ASR システムは,レアワード認識のための RNN Transducer のみの ASR ベースラインと比較して,4.6% の WERR 推論を示す。
論文 参考訳(メタデータ) (2020-11-23T20:40:44Z) - Rnn-transducer with language bias for end-to-end Mandarin-English
code-switching speech recognition [58.105818353866354]
本稿では,言語バイアスを考慮したリカレントニューラルネットワークトランスデューサ(RNN-T)モデルを提案する。
我々は、CSの点を予測するためにモデルにバイアスを与えるために、言語アイデンティティを使用する。
これにより、言語識別情報を転写から直接学習するモデルが促進され、追加のLIDモデルが不要になる。
論文 参考訳(メタデータ) (2020-02-19T12:01:33Z) - Joint Contextual Modeling for ASR Correction and Language Understanding [60.230013453699975]
言語理解(LU)と協調してASR出力の文脈的言語補正を行うマルチタスクニューラルアプローチを提案する。
そこで本研究では,市販のASRおよびLUシステムの誤差率を,少量のドメイン内データを用いてトレーニングしたジョイントモデルと比較して14%削減できることを示した。
論文 参考訳(メタデータ) (2020-01-28T22:09:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。