論文の概要: Whisper-MCE: Whisper Model Finetuned for Better Performance with Mixed
Languages
- arxiv url: http://arxiv.org/abs/2310.17953v1
- Date: Fri, 27 Oct 2023 08:01:55 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-30 14:34:31.324444
- Title: Whisper-MCE: Whisper Model Finetuned for Better Performance with Mixed
Languages
- Title(参考訳): Whisper-MCE:混合言語の性能向上を目的としたWhisperモデル
- Authors: Peng Xie, XingYuan Liu, ZiWei Chen, Kani Chen, Yang Wang
- Abstract要約: 我々はWhisper-MCEの素晴らしい結果を示す。
本モデルとベースラインのwhisper-large-v2モデルを比較することで,オリジナル音声のコンテンツを正確にキャプチャする能力が優れていることを示す。
特に、混合言語を認識する特定のタスクにおいて、我々のモデルは既存のモデルよりも優れています。
- 参考スコア(独自算出の注目度): 7.178697136486403
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recently Whisper has approached human-level robustness and accuracy in
English automatic speech recognition (ASR), while in minor language and mixed
language speech recognition, there remains a compelling need for further
improvement. In this work, we present the impressive results of Whisper-MCE,
our finetuned Whisper model, which was trained using our self-collected
dataset, Mixed Cantonese and English audio dataset (MCE). Meanwhile,
considering word error rate (WER) poses challenges when it comes to evaluating
its effectiveness in minor language and mixed-language contexts, we present a
novel rating mechanism. By comparing our model to the baseline whisper-large-v2
model, we demonstrate its superior ability to accurately capture the content of
the original audio, achieve higher recognition accuracy, and exhibit faster
recognition speed. Notably, our model outperforms other existing models in the
specific task of recognizing mixed language.
- Abstract(参考訳): 近年、whisperは英語自動音声認識(asr)において、人間レベルの堅牢性と正確性にアプローチしているが、マイナー言語と混合言語音声認識では、さらなる改善が必要である。
本研究は,我々の自作データセットであるMixed Cantonese and English audio dataset (MCE)を用いて学習したWhisper-MCEの印象的な結果を示す。
一方、単語誤り率(WER)は、マイナー言語と混合言語での有効性を評価する上で、新たな評価メカニズムを示す。
本モデルとベースラインのwhisper-large-v2モデルを比較することで,オリジナル音声の内容を正確にキャプチャし,高い認識精度を達成し,より高速に認識できることを示す。
特に、混合言語を認識する特定のタスクにおいて、我々のモデルは既存のモデルよりも優れています。
関連論文リスト
- A Cross-Modal Approach to Silent Speech with LLM-Enhanced Recognition [0.0]
サイレント音声インタフェース(SSI)は、無音音声通信のための脳-コンピュータインタフェースの非侵襲的な代替手段を提供する。
我々は,マルチモーダル・ニューラル・オーディオ(MONA)を導入し,多モーダル・アライメントを利用した多モーダル・モデルの学習を行う。
我々の知る限りでは、オープンボキャブラリ上の非侵襲的無声音声認識が15% WERの閾値をクリアした最初の事例である。
論文 参考訳(メタデータ) (2024-03-02T21:15:24Z) - MLCA-AVSR: Multi-Layer Cross Attention Fusion based Audio-Visual Speech Recognition [62.89464258519723]
異なるレベルのオーディオ/視覚エンコーダに融合することで、各モードの表現を促進する多層クロスアテンション融合に基づくAVSR手法を提案する。
提案手法は第1位システムを超え,新たなSOTA cpCERの29.13%をこのデータセット上に構築する。
論文 参考訳(メタデータ) (2024-01-07T08:59:32Z) - Accented Speech Recognition With Accent-specific Codebooks [53.288874858671576]
音声アクセントは最先端の自動音声認識(ASR)システムに重大な課題をもたらす。
あまり表現されないアクセントによる性能低下は、ASRの包括的採用に対する深刻な抑止力である。
トレーニング可能なコードブックを用いたクロスアテンションを用いた,エンドツーエンドのASRシステムに対するアクセント適応手法を提案する。
論文 参考訳(メタデータ) (2023-10-24T16:10:58Z) - Improving Speech Recognition for African American English With Audio
Classification [17.785482810741367]
本稿では,少数のドメイン外データを用いて,米国英語短波形音声認識器の頑健性を向上させる新しい手法を提案する。
このデータを微調整すると、MAEの品質を低下させることなくAAEとMAEの間で38.5%の単語誤り率格差が減少する。
論文 参考訳(メタデータ) (2023-09-16T19:57:45Z) - An ensemble-based framework for mispronunciation detection of Arabic
phonemes [0.0]
この研究は、アラビア語の音素の誤発音を定義するアンサンブルモデルを導入している。
実験結果から,メル分光法の特徴抽出手法を用いたアンサンブルアルゴリズムによる投票は,95.9%の精度で顕著な分類結果を示した。
論文 参考訳(メタデータ) (2023-01-03T22:17:08Z) - Sequence-level self-learning with multiple hypotheses [53.04725240411895]
我々は、自動音声認識(ASR)のためのアテンションベースシーケンス・ツー・シーケンス(seq2seq)モデルを用いた新しい自己学習手法を開発した。
従来の教師なし学習手法とは対照的に,我々はEmphmulti-task Learning(MTL)フレームワークを採用する。
実験の結果,本手法は,英語データのみを用いてトレーニングしたベースラインモデルと比較して,英文音声データのWERを14.55%から10.36%に削減できることがわかった。
論文 参考訳(メタデータ) (2021-12-10T20:47:58Z) - Transfer learning from High-Resource to Low-Resource Language Improves
Speech Affect Recognition Classification Accuracy [0.0]
低リソース言語における影響を認識するために,モデルが高リソース言語と微調整で訓練されるアプローチを提案する。
ベースライン精度60.45、68.05、80.34、56.58パーセントを達成し、SAVEE、EMOVO、Urdu、およびIEMOCAP上で同じコーパス設定でモデルをトレーニングします。
論文 参考訳(メタデータ) (2021-03-04T08:17:19Z) - MixSpeech: Data Augmentation for Low-resource Automatic Speech
Recognition [54.84624870942339]
MixSpeechは、自動音声認識(ASR)のためのミックスアップに基づくシンプルで効果的なデータ拡張方法です。
mixspeechをlas(listen, attend, spell)とtransformerを含む2つのポピュラーなエンドツーエンド音声認識モデルに適用した。
実験の結果,MixSpeechはデータ拡張のないベースラインモデルよりも精度が高いことがわかった。
論文 参考訳(メタデータ) (2021-02-25T03:40:43Z) - Arabic Speech Recognition by End-to-End, Modular Systems and Human [56.96327247226586]
我々は、エンドツーエンド変換器ASR、モジュール型HMM-DNN ASR、および人間の音声認識のための包括的なベンチマークを行う。
ASRでは、エンドツーエンドの作業が12.5%、27.5%、23.8%のWERとなり、それぞれMGB2、MGB3、MGB5の新たなパフォーマンスマイルストーンとなった。
以上の結果から,アラビア語における人的パフォーマンスは,平均3.6%のWERギャップを持つ機械に比べて,依然としてかなり優れていたことが示唆された。
論文 参考訳(メタデータ) (2021-01-21T05:55:29Z) - Black-box Adaptation of ASR for Accented Speech [52.63060669715216]
我々は,ターゲットアクセントからの音声にブラックボックス,クラウドベースのASRシステムを適用する問題を紹介した。
そこで我々は,オープンソースアクセント調整型ローカルモデルとブラックボックスサービスとの結合を新たに提案する。
本アルゴリズムは,既存の単語レベルの組み合わせ手法よりもアクセントエラーの修正が優れている。
論文 参考訳(メタデータ) (2020-06-24T07:07:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。