論文の概要: MCE: Mixed Cantonese and English Audio Dataset
- arxiv url: http://arxiv.org/abs/2310.17953v2
- Date: Sun, 18 Feb 2024 08:24:56 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-21 05:09:02.996928
- Title: MCE: Mixed Cantonese and English Audio Dataset
- Title(参考訳): MCE: カントンと英語のオーディオデータセット
- Authors: Peng Xie, Zihao Xin, Yang Wang, Shengjun Huang, Tsz Wai Chan, Kani
Chen
- Abstract要約: Whisper-MCEの素晴らしい結果を紹介します。
Whisper-MCEは14.28%のMER(Mix Error Rate)を達成したが、これはオリジナルのモデルよりも35.13%低かった。
また、共通音声zh-HKでは12.61%の文字誤り率(CER)を達成した。
- 参考スコア(独自算出の注目度): 28.073769257449527
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recently Whisper has approached human-level robustness and accuracy in
English speech recognition, while in minor language and mixed language speech
recognition, there remains a compelling need for further improvement. In this
work,we present the impressive results of Whisper-MCE, our fine-tuned Whisper,
which was trainedusing our self-collected dataset, Mixed Cantoneseand English
(MCE) audio dataset. Whisper-MCE achieved an impressive Mix Error Rate (MER) of
14.28%, which is 35.13% lower than the original model. It also achieved 12.61%
Character Error Rate (CER) in Common voice zh-HK, positioning it as
state-of-the-art. However, MER and CER pose challenges when it comes to
evaluating its effectiveness in mixed-language and minor language contexts. We
proposed a novel evaluation metric called FAL, which assesses an Automatic
Speech Recognition (ASR) system based on fidelity to the original audio,
accuracy, and latency. Whisper-MCE outperformed other models in this evaluation
metric, achieving a score of 90.91 FAL, further highlighting its exceptional
performance. The MCE dataset and code can be found at
https://github.com/Shelton1013/Whisper MCE.
- Abstract(参考訳): 近年、whisperは英語音声認識において人間のレベルのロバスト性と正確性にアプローチしているが、マイナー言語と混合言語音声認識では、さらなる改善が必要である。
本研究では、自作したデータセットであるMixed Cantoneseand English (MCE)オーディオデータセットをトレーニングしたWhisper-MCEの印象的な結果を示す。
Whisper-MCEは14.28%のMER(Mix Error Rate)を達成したが、これはオリジナルのモデルよりも35.13%低かった。
また、共通音声zh-HKでは12.61%の文字誤り率(CER)を達成した。
しかし、MERとCERは、混合言語とマイナー言語での有効性を評価する上で、課題となる。
そこで我々は,FALと呼ばれる新しい評価基準を提案し,元の音声,精度,レイテンシに対する忠実度に基づいて自動音声認識(ASR)システムを評価する。
Whisper-MCEは、この評価基準で他のモデルよりも優れ、90.91 FALのスコアを得た。
MCEデータセットとコードはhttps://github.com/Shelton1013/Whisper MCEで見ることができる。
関連論文リスト
- A Cross-Modal Approach to Silent Speech with LLM-Enhanced Recognition [0.0]
サイレント音声インタフェース(SSI)は、無音音声通信のための脳-コンピュータインタフェースの非侵襲的な代替手段を提供する。
我々は,マルチモーダル・ニューラル・オーディオ(MONA)を導入し,多モーダル・アライメントを利用した多モーダル・モデルの学習を行う。
我々の知る限りでは、オープンボキャブラリ上の非侵襲的無声音声認識が15% WERの閾値をクリアした最初の事例である。
論文 参考訳(メタデータ) (2024-03-02T21:15:24Z) - MLCA-AVSR: Multi-Layer Cross Attention Fusion based Audio-Visual Speech Recognition [62.89464258519723]
異なるレベルのオーディオ/視覚エンコーダに融合することで、各モードの表現を促進する多層クロスアテンション融合に基づくAVSR手法を提案する。
提案手法は第1位システムを超え,新たなSOTA cpCERの29.13%をこのデータセット上に構築する。
論文 参考訳(メタデータ) (2024-01-07T08:59:32Z) - Accented Speech Recognition With Accent-specific Codebooks [53.288874858671576]
音声アクセントは最先端の自動音声認識(ASR)システムに重大な課題をもたらす。
あまり表現されないアクセントによる性能低下は、ASRの包括的採用に対する深刻な抑止力である。
トレーニング可能なコードブックを用いたクロスアテンションを用いた,エンドツーエンドのASRシステムに対するアクセント適応手法を提案する。
論文 参考訳(メタデータ) (2023-10-24T16:10:58Z) - Improving Speech Recognition for African American English With Audio
Classification [17.785482810741367]
本稿では,少数のドメイン外データを用いて,米国英語短波形音声認識器の頑健性を向上させる新しい手法を提案する。
このデータを微調整すると、MAEの品質を低下させることなくAAEとMAEの間で38.5%の単語誤り率格差が減少する。
論文 参考訳(メタデータ) (2023-09-16T19:57:45Z) - An ensemble-based framework for mispronunciation detection of Arabic
phonemes [0.0]
この研究は、アラビア語の音素の誤発音を定義するアンサンブルモデルを導入している。
実験結果から,メル分光法の特徴抽出手法を用いたアンサンブルアルゴリズムによる投票は,95.9%の精度で顕著な分類結果を示した。
論文 参考訳(メタデータ) (2023-01-03T22:17:08Z) - Sequence-level self-learning with multiple hypotheses [53.04725240411895]
我々は、自動音声認識(ASR)のためのアテンションベースシーケンス・ツー・シーケンス(seq2seq)モデルを用いた新しい自己学習手法を開発した。
従来の教師なし学習手法とは対照的に,我々はEmphmulti-task Learning(MTL)フレームワークを採用する。
実験の結果,本手法は,英語データのみを用いてトレーニングしたベースラインモデルと比較して,英文音声データのWERを14.55%から10.36%に削減できることがわかった。
論文 参考訳(メタデータ) (2021-12-10T20:47:58Z) - Transfer learning from High-Resource to Low-Resource Language Improves
Speech Affect Recognition Classification Accuracy [0.0]
低リソース言語における影響を認識するために,モデルが高リソース言語と微調整で訓練されるアプローチを提案する。
ベースライン精度60.45、68.05、80.34、56.58パーセントを達成し、SAVEE、EMOVO、Urdu、およびIEMOCAP上で同じコーパス設定でモデルをトレーニングします。
論文 参考訳(メタデータ) (2021-03-04T08:17:19Z) - MixSpeech: Data Augmentation for Low-resource Automatic Speech
Recognition [54.84624870942339]
MixSpeechは、自動音声認識(ASR)のためのミックスアップに基づくシンプルで効果的なデータ拡張方法です。
mixspeechをlas(listen, attend, spell)とtransformerを含む2つのポピュラーなエンドツーエンド音声認識モデルに適用した。
実験の結果,MixSpeechはデータ拡張のないベースラインモデルよりも精度が高いことがわかった。
論文 参考訳(メタデータ) (2021-02-25T03:40:43Z) - Arabic Speech Recognition by End-to-End, Modular Systems and Human [56.96327247226586]
我々は、エンドツーエンド変換器ASR、モジュール型HMM-DNN ASR、および人間の音声認識のための包括的なベンチマークを行う。
ASRでは、エンドツーエンドの作業が12.5%、27.5%、23.8%のWERとなり、それぞれMGB2、MGB3、MGB5の新たなパフォーマンスマイルストーンとなった。
以上の結果から,アラビア語における人的パフォーマンスは,平均3.6%のWERギャップを持つ機械に比べて,依然としてかなり優れていたことが示唆された。
論文 参考訳(メタデータ) (2021-01-21T05:55:29Z) - Black-box Adaptation of ASR for Accented Speech [52.63060669715216]
我々は,ターゲットアクセントからの音声にブラックボックス,クラウドベースのASRシステムを適用する問題を紹介した。
そこで我々は,オープンソースアクセント調整型ローカルモデルとブラックボックスサービスとの結合を新たに提案する。
本アルゴリズムは,既存の単語レベルの組み合わせ手法よりもアクセントエラーの修正が優れている。
論文 参考訳(メタデータ) (2020-06-24T07:07:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。