論文の概要: MADGF: Multi-Agent Data Generation Framework
- arxiv url: http://arxiv.org/abs/2310.17953v3
- Date: Tue, 11 Jun 2024 12:06:43 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-13 00:58:30.825876
- Title: MADGF: Multi-Agent Data Generation Framework
- Title(参考訳): MADGF:マルチエージェントデータ生成フレームワーク
- Authors: Peng Xie, Kani Chen,
- Abstract要約: 本稿では,この課題に対処する新しいマルチエージェントデータ生成フレームワーク(MADGF)を提案する。
生成したMixed Cantonese and English (MCE)オーディオデータセットを利用して、オープンソースの多言語ASRモデルWhisperを微調整する。
- 参考スコア(独自算出の注目度): 0.5700195008916903
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Automatic Speech Recognition (ASR) systems predominantly cater to monolingual inputs and struggle with the complexity introduced by mixed language audio. In this paper, we present a novel Multi-Agent Data Generation Framework (MADGF) to address this challenge. We finetune the open-source multilingual ASR model, Whisper, utilizing our generated Mixed Cantonese and English (MCE) audio dataset, Which achieved an impressive Mix Error Rate (MER) of 14.28%, 35.13% lower than the original model. Meanwhile, single language recognition ability is not affected, 12.6% Character Error Rate (CER) in Common voice zh-HK, 14.8% Word Error Rate (WER) in Common voice en. However, these metrics do not encompass all aspects critical to the ASR systems. Hence, we propose a novel evaluation metric called Fidelity to the Original Audio, Accuracy, and Latency (FAL).
- Abstract(参考訳): 自動音声認識(ASR)システムは、主にモノリンガル入力に対応し、混合言語音声によってもたらされる複雑さに対処する。
本稿では,この課題に対処する新しいマルチエージェントデータ生成フレームワーク(MADGF)を提案する。
我々はオープンソースの多言語ASRモデルWhisperを微調整し、生成したMixed Cantonese and English (MCE)オーディオデータセットを利用して、14.28%、35.13%のMER(Mix Error Rate)を達成した。
一方、単一言語認識能力は影響を受けておらず、共通音声zh-HKの文字誤り率(CER)が12.6%、共通音声enの単語誤り率(WER)が14.8%である。
しかし、これらの指標はASRシステムにとって重要な全ての側面を包含していない。
そこで本研究では,FAL(Original Audio, Accuracy, and Latency)に対するフィデリティ(Fidelity)と呼ばれる新しい評価指標を提案する。
関連論文リスト
- Multilingual Audio-Visual Speech Recognition with Hybrid CTC/RNN-T Fast Conformer [59.57249127943914]
本稿では,複数の改良を加えた多言語音声認識モデルを提案する。
我々は、6つの異なる言語に対する音声視覚訓練データの量を増やし、重複しない多言語データセットの自動書き起こしを生成する。
提案モデルでは, LRS3データセット上での新たな最先端性能を実現し, WERは0.8%に達した。
論文 参考訳(メタデータ) (2024-03-14T01:16:32Z) - MLCA-AVSR: Multi-Layer Cross Attention Fusion based Audio-Visual Speech Recognition [62.89464258519723]
異なるレベルのオーディオ/視覚エンコーダに融合することで、各モードの表現を促進する多層クロスアテンション融合に基づくAVSR手法を提案する。
提案手法は第1位システムを超え,新たなSOTA cpCERの29.13%をこのデータセット上に構築する。
論文 参考訳(メタデータ) (2024-01-07T08:59:32Z) - Speech collage: code-switched audio generation by collaging monolingual
corpora [50.356820349870986]
Speech Collage は音声セグメントをスプライシングすることでモノリンガルコーパスからCSデータを合成する手法である。
2つのシナリオにおける音声認識における生成データの影響について検討する。
論文 参考訳(メタデータ) (2023-09-27T14:17:53Z) - Transsion TSUP's speech recognition system for ASRU 2023 MADASR
Challenge [11.263392524468625]
このシステムは、低リソースのインドの言語にASRモデルを適用することに焦点を当てている。
提案手法は, ベンガル語で24.17%, 24.43%, 15.97%, 15.97%, WERで19.61%, 19.54%, 15.48%, 15.48%の単語誤り率を達成した。
論文 参考訳(メタデータ) (2023-07-20T00:55:01Z) - Cross-lingual Knowledge Transfer and Iterative Pseudo-labeling for
Low-Resource Speech Recognition with Transducers [6.017182111335404]
言語間知識伝達と反復的擬似ラベル化は、ASRシステムの精度向上に成功していることを示す2つの手法である。
そこで本研究では,ハイブリッドシステムで作成したテキストを用いてトレーニングしたTransducerシステムが,単語誤り率の18%の削減を実現していることを示す。
論文 参考訳(メタデータ) (2023-05-23T03:50:35Z) - From English to More Languages: Parameter-Efficient Model Reprogramming
for Cross-Lingual Speech Recognition [50.93943755401025]
言語間音声認識のためのニューラルモデル再プログラミングに基づく新しいパラメータ効率学習フレームワークを提案する。
我々は、学習可能な事前学習機能強化に焦点を当てた、異なる補助的ニューラルネットワークアーキテクチャを設計する。
提案手法は,既存のASRチューニングアーキテクチャとその拡張性能を自己監督的損失で向上させる。
論文 参考訳(メタデータ) (2023-01-19T02:37:56Z) - How Phonotactics Affect Multilingual and Zero-shot ASR Performance [74.70048598292583]
Transformer encoder-decoderモデルは、トレーニング中に提示された言語のIPA転写において、多言語データをうまく活用することが示されている。
我々は,エンコーダデコーダをAMとLMを分離したハイブリッドASRシステムに置き換える。
交叉音韻律のモデル化による利得は限定的であり,強すぎるモデルがゼロショット転送を損なう可能性があることを示す。
論文 参考訳(メタデータ) (2020-10-22T23:07:24Z) - Multi-talker ASR for an unknown number of sources: Joint training of
source counting, separation and ASR [91.87500543591945]
能動話者の未知数に対するエンドツーエンドマルチストーカー自動音声認識システムを開発した。
実験の結果,精度,音源分離,音声認識において有望な性能を示した。
我々のシステムは、トレーニング中に見たよりも多くの話者によく当てはまる。
論文 参考訳(メタデータ) (2020-06-04T11:25:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。