論文の概要: MCE: Mixed Cantonese and English Audio Dataset
- arxiv url: http://arxiv.org/abs/2310.17953v2
- Date: Sun, 18 Feb 2024 08:24:56 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-21 05:09:02.996928
- Title: MCE: Mixed Cantonese and English Audio Dataset
- Title(参考訳): MCE: カントンと英語のオーディオデータセット
- Authors: Peng Xie, Zihao Xin, Yang Wang, Shengjun Huang, Tsz Wai Chan, Kani
Chen
- Abstract要約: Whisper-MCEの素晴らしい結果を紹介します。
Whisper-MCEは14.28%のMER(Mix Error Rate)を達成したが、これはオリジナルのモデルよりも35.13%低かった。
また、共通音声zh-HKでは12.61%の文字誤り率(CER)を達成した。
- 参考スコア(独自算出の注目度): 28.073769257449527
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recently Whisper has approached human-level robustness and accuracy in
English speech recognition, while in minor language and mixed language speech
recognition, there remains a compelling need for further improvement. In this
work,we present the impressive results of Whisper-MCE, our fine-tuned Whisper,
which was trainedusing our self-collected dataset, Mixed Cantoneseand English
(MCE) audio dataset. Whisper-MCE achieved an impressive Mix Error Rate (MER) of
14.28%, which is 35.13% lower than the original model. It also achieved 12.61%
Character Error Rate (CER) in Common voice zh-HK, positioning it as
state-of-the-art. However, MER and CER pose challenges when it comes to
evaluating its effectiveness in mixed-language and minor language contexts. We
proposed a novel evaluation metric called FAL, which assesses an Automatic
Speech Recognition (ASR) system based on fidelity to the original audio,
accuracy, and latency. Whisper-MCE outperformed other models in this evaluation
metric, achieving a score of 90.91 FAL, further highlighting its exceptional
performance. The MCE dataset and code can be found at
https://github.com/Shelton1013/Whisper MCE.
- Abstract(参考訳): 近年、whisperは英語音声認識において人間のレベルのロバスト性と正確性にアプローチしているが、マイナー言語と混合言語音声認識では、さらなる改善が必要である。
本研究では、自作したデータセットであるMixed Cantoneseand English (MCE)オーディオデータセットをトレーニングしたWhisper-MCEの印象的な結果を示す。
Whisper-MCEは14.28%のMER(Mix Error Rate)を達成したが、これはオリジナルのモデルよりも35.13%低かった。
また、共通音声zh-HKでは12.61%の文字誤り率(CER)を達成した。
しかし、MERとCERは、混合言語とマイナー言語での有効性を評価する上で、課題となる。
そこで我々は,FALと呼ばれる新しい評価基準を提案し,元の音声,精度,レイテンシに対する忠実度に基づいて自動音声認識(ASR)システムを評価する。
Whisper-MCEは、この評価基準で他のモデルよりも優れ、90.91 FALのスコアを得た。
MCEデータセットとコードはhttps://github.com/Shelton1013/Whisper MCEで見ることができる。
関連論文リスト
- Improving Multilingual ASR in the Wild Using Simple N-best Re-ranking [68.77659513993507]
我々は,多言語ASRの精度を向上させるため,単純かつ効果的なN-best再分類手法を提案する。
その結果, 音声認識の精度は8.7%, 6.1%, 単語誤り率は3.3%, 単語誤り率は2.0%であった。
論文 参考訳(メタデータ) (2024-09-27T03:31:32Z) - Early Joint Learning of Emotion Information Makes MultiModal Model Understand You Better [9.378013909890374]
マルチモーダル感情認識チャレンジ(MER2024)における感情認識のためのソリューションを提案する。
音声とテキスト間のモーダル競争を緩和するために、我々は早期融合戦略を採用する。
MER2024-SEMIとMER2024-NOISEの両方でtextbf2 をランク付けし,本手法の有効性を検証した。
論文 参考訳(メタデータ) (2024-09-12T05:05:34Z) - Automatic Speech Recognition Advancements for Indigenous Languages of the Americas [0.0]
The Second Americas (Americas Natural Language Processing) Competition Track 1 of NeurIPS (Neural Information Processing Systems) 2022年、Cechua、Guarani、Brbri、Kotiria、Wa'ikhanaの5つの先住民言語の自動音声認識システムの訓練タスクを提案した。
対象言語毎の最先端のASRモデルの微調整について,データ拡張法に富んだ多種多様な情報源からの音声データの約36.65時間を用いて述べる。
私たちは各言語で最高のモデルをリリースし、Wa'ikhanaとKotiriaの最初のオープンなASRモデルをマークしています。
論文 参考訳(メタデータ) (2024-04-12T10:12:38Z) - MLCA-AVSR: Multi-Layer Cross Attention Fusion based Audio-Visual Speech Recognition [62.89464258519723]
異なるレベルのオーディオ/視覚エンコーダに融合することで、各モードの表現を促進する多層クロスアテンション融合に基づくAVSR手法を提案する。
提案手法は第1位システムを超え,新たなSOTA cpCERの29.13%をこのデータセット上に構築する。
論文 参考訳(メタデータ) (2024-01-07T08:59:32Z) - Speech collage: code-switched audio generation by collaging monolingual
corpora [50.356820349870986]
Speech Collage は音声セグメントをスプライシングすることでモノリンガルコーパスからCSデータを合成する手法である。
2つのシナリオにおける音声認識における生成データの影響について検討する。
論文 参考訳(メタデータ) (2023-09-27T14:17:53Z) - Transsion TSUP's speech recognition system for ASRU 2023 MADASR
Challenge [11.263392524468625]
このシステムは、低リソースのインドの言語にASRモデルを適用することに焦点を当てている。
提案手法は, ベンガル語で24.17%, 24.43%, 15.97%, 15.97%, WERで19.61%, 19.54%, 15.48%, 15.48%の単語誤り率を達成した。
論文 参考訳(メタデータ) (2023-07-20T00:55:01Z) - Cross-lingual Knowledge Transfer and Iterative Pseudo-labeling for
Low-Resource Speech Recognition with Transducers [6.017182111335404]
言語間知識伝達と反復的擬似ラベル化は、ASRシステムの精度向上に成功していることを示す2つの手法である。
そこで本研究では,ハイブリッドシステムで作成したテキストを用いてトレーニングしたTransducerシステムが,単語誤り率の18%の削減を実現していることを示す。
論文 参考訳(メタデータ) (2023-05-23T03:50:35Z) - From English to More Languages: Parameter-Efficient Model Reprogramming
for Cross-Lingual Speech Recognition [50.93943755401025]
言語間音声認識のためのニューラルモデル再プログラミングに基づく新しいパラメータ効率学習フレームワークを提案する。
我々は、学習可能な事前学習機能強化に焦点を当てた、異なる補助的ニューラルネットワークアーキテクチャを設計する。
提案手法は,既存のASRチューニングアーキテクチャとその拡張性能を自己監督的損失で向上させる。
論文 参考訳(メタデータ) (2023-01-19T02:37:56Z) - How Phonotactics Affect Multilingual and Zero-shot ASR Performance [74.70048598292583]
Transformer encoder-decoderモデルは、トレーニング中に提示された言語のIPA転写において、多言語データをうまく活用することが示されている。
我々は,エンコーダデコーダをAMとLMを分離したハイブリッドASRシステムに置き換える。
交叉音韻律のモデル化による利得は限定的であり,強すぎるモデルがゼロショット転送を損なう可能性があることを示す。
論文 参考訳(メタデータ) (2020-10-22T23:07:24Z) - Multi-talker ASR for an unknown number of sources: Joint training of
source counting, separation and ASR [91.87500543591945]
能動話者の未知数に対するエンドツーエンドマルチストーカー自動音声認識システムを開発した。
実験の結果,精度,音源分離,音声認識において有望な性能を示した。
我々のシステムは、トレーニング中に見たよりも多くの話者によく当てはまる。
論文 参考訳(メタデータ) (2020-06-04T11:25:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。