Fugu-MT 論文翻訳(概要): Pitch-Aware RNN-T for Mandarin Chinese Mispronunciation Detection and Diagnosis

論文の概要: Pitch-Aware RNN-T for Mandarin Chinese Mispronunciation Detection and Diagnosis

arxiv url: http://arxiv.org/abs/2406.04595v1
Date: Fri, 7 Jun 2024 02:59:58 GMT
ステータス: 翻訳完了
システム内更新日: 2024-06-10 15:48:53.505760
Title: Pitch-Aware RNN-T for Mandarin Chinese Mispronunciation Detection and Diagnosis
Title（参考訳）: 中国語誤字検出と診断のためのピッチ対応RNN-T
Authors: Xintong Wang, Mingqian Shi, Ye Wang,
Abstract要約: We introduced a stateless RNN-T model for Mandarin MDD, using HuBERT features with pitch embedded through a Pitch Fusion Block。我々のモデルは、ネイティブ話者データのみに基づいて訓練されており、電話誤り率を3%改善し、非ネイティブシナリオにおける最先端のベースラインよりもFalse Acceptance Rateを7%向上させた。
参考スコア（独自算出の注目度）: 4.588886675661641
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: Mispronunciation Detection and Diagnosis (MDD) systems, leveraging Automatic Speech Recognition (ASR), face two main challenges in Mandarin Chinese: 1) The two-stage models create an information gap between the phoneme or tone classification stage and the MDD stage. 2) The scarcity of Mandarin MDD datasets limits model training. In this paper, we introduce a stateless RNN-T model for Mandarin MDD, utilizing HuBERT features with pitch embedding through a Pitch Fusion Block. Our model, trained solely on native speaker data, shows a 3% improvement in Phone Error Rate and a 7% increase in False Acceptance Rate over the state-of-the-art baseline in non-native scenarios
Abstract（参考訳）: 自動音声認識(ASR)を利用した誤認識検出・診断システム(MDD)は中国語における2つの課題に直面している。 1) 2段階モデルでは音素分類段階とMDD段階の間に情報ギャップが生じる。 2) マンダリンMDDデータセットの不足はモデルトレーニングを制限する。本稿では,HuBERT特徴とピッチ埋め込みを用いたマンダリンMDDのためのステートレスRNN-Tモデルを提案する。我々のモデルは、ネイティブ話者データのみに基づいて訓練されており、電話誤り率の3%改善と、非ネイティブシナリオにおける最先端ベースラインに対する偽受け入れ率の7%向上を示している。

関連論文リスト

Pronunciation-Lexicon Free Training for Phoneme-based Crosslingual ASR via Joint Stochastic Approximation [12.39451124683428]
本稿では,音素を離散潜在変数として扱う潜在変数モデルに基づく手法を提案する。多言語事前学習S2Pモデルに基づいて,ポーランド語とインドネシア語でクロスリンガル実験を行った。 10分間しか音素の監督を行ない、新しい手法であるJSA-SPGは5%の誤り率の低減を実現した。
論文参考訳（メタデータ） (2025-07-04T12:23:22Z)
Large Language Model Should Understand Pinyin for Chinese ASR Error Correction [31.13523648668466]
我々は,中国のASR誤り訂正を改善するため,Pinyin-enhanced GECを提案する。提案手法は, 合成誤差をトレーニングに用い, 推論時に最良仮説を用いる。 Aishell-1とCommon Voiceデータセットの実験は、我々のアプローチがテキストのみの入力でGECを一貫して上回っていることを示している。
論文参考訳（メタデータ） (2024-09-20T06:50:56Z)
Pinyin Regularization in Error Correction for Chinese Speech Recognition with Large Language Models [11.287933170894311]
724Kの仮説と書き起こしのペアを持つ中国語ASRの誤り訂正を目的とした,特殊なベンチマークデータセットを構築した。本稿では,テキスト仮説から直接Pinyinを転写するプロンプトに対するPinyin正規化法を提案する。
論文参考訳（メタデータ） (2024-07-02T03:16:47Z)
Multilingual self-supervised speech representations improve the speech recognition of low-resource African languages with codeswitching [65.74653592668743]
微細な自己教師型多言語表現は絶対単語誤り率を最大20%削減する。訓練データに制限のある状況では、自己教師付き表現を微調整することが、より良いパフォーマンスと実行可能なソリューションである。
論文参考訳（メタデータ） (2023-11-25T17:05:21Z)
Phonological Level wav2vec2-based Mispronunciation Detection and Diagnosis Method [11.069975459609829]
音声特徴量検出に基づく低レベルの誤認識検出と診断(MDD)手法を提案する。提案手法は,母国語からの英語学習者から収集したL2音声コーパスに適用した。
論文参考訳（メタデータ） (2023-11-13T02:41:41Z)
READIN: A Chinese Multi-Task Benchmark with Realistic and Diverse Input Noises [87.70001456418504]
我々は、Realistic and Diverse Input Noisesを用いた中国のマルチタスクベンチマークREADINを構築した。 READINには4つの多様なタスクとアノテータが含まれており、Pinyin入力と音声入力という2つの一般的な中国語入力方式で元のテストデータを再入力するよう要求する。我々は、強化された事前訓練された言語モデルと、堅牢なトレーニング手法を用いて実験を行い、これらのモデルがREADINに顕著な性能低下を被ることがしばしば見いだされた。
論文参考訳（メタデータ） (2023-02-14T20:14:39Z)
Multilingual Zero Resource Speech Recognition Base on Self-Supervise Pre-Trained Acoustic Models [14.887781621924255]
本稿では,事前学習モデルの使用を単語レベルのゼロリソース音声認識に拡張するための最初の試みである。 IPA音素の書き起こしで事前訓練されたモデルを微調整し、余分なテキストで訓練された言語モデルで復号する。 Wav2vec 2.0とHuBERTモデルの実験により、この手法は一部の言語で単語誤り率を20%以下に抑えることができることが示された。
論文参考訳（メタデータ） (2022-10-13T12:11:18Z)
WaBERT: A Low-resource End-to-end Model for Spoken Language Understanding and Speech-to-BERT Alignment [2.7505260301752763]
本稿では,SLUタスクのための音声モデルと言語モデルを組み合わせた,新しいエンドツーエンドモデルを提案する。 WaBERTは事前訓練された音声と言語モデルに基づいているため、スクラッチからのトレーニングは必要ない。
論文参考訳（メタデータ） (2022-04-22T02:14:40Z)
Towards Language Modelling in the Speech Domain Using Sub-word Linguistic Units [56.52704348773307]
音節や音素を含む言語単位に基づくLSTMに基づく新しい生成音声LMを提案する。限られたデータセットでは、現代の生成モデルで要求されるものよりも桁違いに小さいので、我々のモデルはバブリング音声を近似する。補助的なテキストLM,マルチタスク学習目標,補助的な調音特徴を用いた訓練の効果を示す。
論文参考訳（メタデータ） (2021-10-31T22:48:30Z)
Towards Zero-shot Learning for Automatic Phonemic Transcription [82.9910512414173]
より難しい問題は、トレーニングデータをゼロにする言語のための音素変換器を構築することだ。我々のモデルは、トレーニングデータなしで、ターゲット言語で見知らぬ音素を認識できる。標準的な多言語モデルよりも平均して7.7%の音素誤り率を実現している。
論文参考訳（メタデータ） (2020-02-26T20:38:42Z)
Rnn-transducer with language bias for end-to-end Mandarin-English code-switching speech recognition [58.105818353866354]
本稿では,言語バイアスを考慮したリカレントニューラルネットワークトランスデューサ(RNN-T)モデルを提案する。我々は、CSの点を予測するためにモデルにバイアスを与えるために、言語アイデンティティを使用する。これにより、言語識別情報を転写から直接学習するモデルが促進され、追加のLIDモデルが不要になる。
論文参考訳（メタデータ） (2020-02-19T12:01:33Z)
Joint Contextual Modeling for ASR Correction and Language Understanding [60.230013453699975]
言語理解(LU)と協調してASR出力の文脈的言語補正を行うマルチタスクニューラルアプローチを提案する。そこで本研究では,市販のASRおよびLUシステムの誤差率を,少量のドメイン内データを用いてトレーニングしたジョイントモデルと比較して14%削減できることを示した。
論文参考訳（メタデータ） (2020-01-28T22:09:25Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。