論文の概要: Whisper-MCE: Whisper Model Finetuned for Better Performance with Mixed
Languages
- arxiv url: http://arxiv.org/abs/2310.17953v1
- Date: Fri, 27 Oct 2023 08:01:55 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-30 14:34:31.324444
- Title: Whisper-MCE: Whisper Model Finetuned for Better Performance with Mixed
Languages
- Title(参考訳): Whisper-MCE:混合言語の性能向上を目的としたWhisperモデル
- Authors: Peng Xie, XingYuan Liu, ZiWei Chen, Kani Chen, Yang Wang
- Abstract要約: 我々はWhisper-MCEの素晴らしい結果を示す。
本モデルとベースラインのwhisper-large-v2モデルを比較することで,オリジナル音声のコンテンツを正確にキャプチャする能力が優れていることを示す。
特に、混合言語を認識する特定のタスクにおいて、我々のモデルは既存のモデルよりも優れています。
- 参考スコア(独自算出の注目度): 7.178697136486403
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recently Whisper has approached human-level robustness and accuracy in
English automatic speech recognition (ASR), while in minor language and mixed
language speech recognition, there remains a compelling need for further
improvement. In this work, we present the impressive results of Whisper-MCE,
our finetuned Whisper model, which was trained using our self-collected
dataset, Mixed Cantonese and English audio dataset (MCE). Meanwhile,
considering word error rate (WER) poses challenges when it comes to evaluating
its effectiveness in minor language and mixed-language contexts, we present a
novel rating mechanism. By comparing our model to the baseline whisper-large-v2
model, we demonstrate its superior ability to accurately capture the content of
the original audio, achieve higher recognition accuracy, and exhibit faster
recognition speed. Notably, our model outperforms other existing models in the
specific task of recognizing mixed language.
- Abstract(参考訳): 近年、whisperは英語自動音声認識(asr)において、人間レベルの堅牢性と正確性にアプローチしているが、マイナー言語と混合言語音声認識では、さらなる改善が必要である。
本研究は,我々の自作データセットであるMixed Cantonese and English audio dataset (MCE)を用いて学習したWhisper-MCEの印象的な結果を示す。
一方、単語誤り率(WER)は、マイナー言語と混合言語での有効性を評価する上で、新たな評価メカニズムを示す。
本モデルとベースラインのwhisper-large-v2モデルを比較することで,オリジナル音声の内容を正確にキャプチャし,高い認識精度を達成し,より高速に認識できることを示す。
特に、混合言語を認識する特定のタスクにおいて、我々のモデルは既存のモデルよりも優れています。
関連論文リスト
- Improving Multilingual ASR in the Wild Using Simple N-best Re-ranking [68.77659513993507]
我々は,多言語ASRの精度を向上させるため,単純かつ効果的なN-best再分類手法を提案する。
その結果, 音声認識の精度は8.7%, 6.1%, 単語誤り率は3.3%, 単語誤り率は2.0%であった。
論文 参考訳(メタデータ) (2024-09-27T03:31:32Z) - Early Joint Learning of Emotion Information Makes MultiModal Model Understand You Better [9.378013909890374]
マルチモーダル感情認識チャレンジ(MER2024)における感情認識のためのソリューションを提案する。
音声とテキスト間のモーダル競争を緩和するために、我々は早期融合戦略を採用する。
MER2024-SEMIとMER2024-NOISEの両方でtextbf2 をランク付けし,本手法の有効性を検証した。
論文 参考訳(メタデータ) (2024-09-12T05:05:34Z) - Automatic Speech Recognition Advancements for Indigenous Languages of the Americas [0.0]
The Second Americas (Americas Natural Language Processing) Competition Track 1 of NeurIPS (Neural Information Processing Systems) 2022年、Cechua、Guarani、Brbri、Kotiria、Wa'ikhanaの5つの先住民言語の自動音声認識システムの訓練タスクを提案した。
対象言語毎の最先端のASRモデルの微調整について,データ拡張法に富んだ多種多様な情報源からの音声データの約36.65時間を用いて述べる。
私たちは各言語で最高のモデルをリリースし、Wa'ikhanaとKotiriaの最初のオープンなASRモデルをマークしています。
論文 参考訳(メタデータ) (2024-04-12T10:12:38Z) - MLCA-AVSR: Multi-Layer Cross Attention Fusion based Audio-Visual Speech Recognition [62.89464258519723]
異なるレベルのオーディオ/視覚エンコーダに融合することで、各モードの表現を促進する多層クロスアテンション融合に基づくAVSR手法を提案する。
提案手法は第1位システムを超え,新たなSOTA cpCERの29.13%をこのデータセット上に構築する。
論文 参考訳(メタデータ) (2024-01-07T08:59:32Z) - Speech collage: code-switched audio generation by collaging monolingual
corpora [50.356820349870986]
Speech Collage は音声セグメントをスプライシングすることでモノリンガルコーパスからCSデータを合成する手法である。
2つのシナリオにおける音声認識における生成データの影響について検討する。
論文 参考訳(メタデータ) (2023-09-27T14:17:53Z) - Transsion TSUP's speech recognition system for ASRU 2023 MADASR
Challenge [11.263392524468625]
このシステムは、低リソースのインドの言語にASRモデルを適用することに焦点を当てている。
提案手法は, ベンガル語で24.17%, 24.43%, 15.97%, 15.97%, WERで19.61%, 19.54%, 15.48%, 15.48%の単語誤り率を達成した。
論文 参考訳(メタデータ) (2023-07-20T00:55:01Z) - Cross-lingual Knowledge Transfer and Iterative Pseudo-labeling for
Low-Resource Speech Recognition with Transducers [6.017182111335404]
言語間知識伝達と反復的擬似ラベル化は、ASRシステムの精度向上に成功していることを示す2つの手法である。
そこで本研究では,ハイブリッドシステムで作成したテキストを用いてトレーニングしたTransducerシステムが,単語誤り率の18%の削減を実現していることを示す。
論文 参考訳(メタデータ) (2023-05-23T03:50:35Z) - From English to More Languages: Parameter-Efficient Model Reprogramming
for Cross-Lingual Speech Recognition [50.93943755401025]
言語間音声認識のためのニューラルモデル再プログラミングに基づく新しいパラメータ効率学習フレームワークを提案する。
我々は、学習可能な事前学習機能強化に焦点を当てた、異なる補助的ニューラルネットワークアーキテクチャを設計する。
提案手法は,既存のASRチューニングアーキテクチャとその拡張性能を自己監督的損失で向上させる。
論文 参考訳(メタデータ) (2023-01-19T02:37:56Z) - How Phonotactics Affect Multilingual and Zero-shot ASR Performance [74.70048598292583]
Transformer encoder-decoderモデルは、トレーニング中に提示された言語のIPA転写において、多言語データをうまく活用することが示されている。
我々は,エンコーダデコーダをAMとLMを分離したハイブリッドASRシステムに置き換える。
交叉音韻律のモデル化による利得は限定的であり,強すぎるモデルがゼロショット転送を損なう可能性があることを示す。
論文 参考訳(メタデータ) (2020-10-22T23:07:24Z) - Multi-talker ASR for an unknown number of sources: Joint training of
source counting, separation and ASR [91.87500543591945]
能動話者の未知数に対するエンドツーエンドマルチストーカー自動音声認識システムを開発した。
実験の結果,精度,音源分離,音声認識において有望な性能を示した。
我々のシステムは、トレーニング中に見たよりも多くの話者によく当てはまる。
論文 参考訳(メタデータ) (2020-06-04T11:25:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。