論文の概要: Developing a Multilingual Dataset and Evaluation Metrics for Code-Switching: A Focus on Hong Kong's Polylingual Dynamics
- arxiv url: http://arxiv.org/abs/2310.17953v4
- Date: Sun, 02 Mar 2025 12:17:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-04 13:04:16.866547
- Title: Developing a Multilingual Dataset and Evaluation Metrics for Code-Switching: A Focus on Hong Kong's Polylingual Dynamics
- Title(参考訳): コードスイッチングのための多言語データセットの構築と評価指標:香港の多言語ダイナミクスに着目して
- Authors: Peng Xie, Kani Chen,
- Abstract要約: 我々は,Multi-Agent Data Generation Framework (MADGF) を用いた混合カントンと英語(MCE)音声の34.8時間データセットを開発した。
我々は,オープンソースの多言語自動音声認識(ASR)モデルであるWhisperをMCEデータセットで微調整し,印象的なゼロショット性能を実現した。
- 参考スコア(独自算出の注目度): 0.5700195008916903
- License:
- Abstract: The existing audio datasets are predominantly tailored towards single languages, overlooking the complex linguistic behaviors of multilingual communities that engage in code-switching. This practice, where individuals frequently mix two or more languages in their daily interactions, is particularly prevalent in multilingual regions such as Hong Kong, China. To bridge this gap, we have developed a 34.8-hour dataset of Mixed Cantonese and English (MCE) audio using our Multi-Agent Data Generation Framework (MADGF). We fine-tuned the open-source multilingual Automatic Speech Recognition (ASR) model, Whisper, with the MCE dataset, leading to impressive zero-shot performance. The traditional metrics overlook important factors such as latency in real-world applications and code-switching scenarios. We have introduced a novel evaluation metric called Fidelity to the Original Audio, Accuracy, and Latency (FAL). This metric aims to overcome the limitations of traditional metrics used to assess ASR systems.
- Abstract(参考訳): 既存の音声データセットは、コードスイッチングに関わる多言語コミュニティの複雑な言語行動を見越して、主に単一言語向けに調整されている。
この慣行は、個人が日々の交流の中で2つ以上の言語を頻繁に混ぜるものであり、特に香港や中国などの多言語地域では一般的である。
このギャップを埋めるため,Multi-Agent Data Generation Framework (MADGF) を用いた混合カントンと英語(MCE)音声の34.8時間データセットを開発した。
我々は,オープンソースの多言語自動音声認識(ASR)モデルであるWhisperをMCEデータセットで微調整し,印象的なゼロショット性能を実現した。
従来のメトリクスは、現実世界のアプリケーションにおけるレイテンシやコードスイッチングシナリオといった重要な要素を見落としています。
我々は、FAL(Original Audio, Accuracy, and Latency)にFidelityと呼ばれる新しい評価指標を導入した。
このメトリクスは、ASRシステムを評価するのに使用される伝統的なメトリクスの制限を克服することを目的としている。
関連論文リスト
- Improving Multilingual ASR in the Wild Using Simple N-best Re-ranking [68.77659513993507]
我々は,多言語ASRの精度を向上させるため,単純かつ効果的なN-best再分類手法を提案する。
その結果, 音声認識の精度は8.7%, 6.1%, 単語誤り率は3.3%, 単語誤り率は2.0%であった。
論文 参考訳(メタデータ) (2024-09-27T03:31:32Z) - Early Joint Learning of Emotion Information Makes MultiModal Model Understand You Better [9.378013909890374]
マルチモーダル感情認識チャレンジ(MER2024)における感情認識のためのソリューションを提案する。
音声とテキスト間のモーダル競争を緩和するために、我々は早期融合戦略を採用する。
MER2024-SEMIとMER2024-NOISEの両方でtextbf2 をランク付けし,本手法の有効性を検証した。
論文 参考訳(メタデータ) (2024-09-12T05:05:34Z) - Automatic Speech Recognition Advancements for Indigenous Languages of the Americas [0.0]
The Second Americas (Americas Natural Language Processing) Competition Track 1 of NeurIPS (Neural Information Processing Systems) 2022年、Cechua、Guarani、Brbri、Kotiria、Wa'ikhanaの5つの先住民言語の自動音声認識システムの訓練タスクを提案した。
対象言語毎の最先端のASRモデルの微調整について,データ拡張法に富んだ多種多様な情報源からの音声データの約36.65時間を用いて述べる。
私たちは各言語で最高のモデルをリリースし、Wa'ikhanaとKotiriaの最初のオープンなASRモデルをマークしています。
論文 参考訳(メタデータ) (2024-04-12T10:12:38Z) - MLCA-AVSR: Multi-Layer Cross Attention Fusion based Audio-Visual Speech Recognition [62.89464258519723]
異なるレベルのオーディオ/視覚エンコーダに融合することで、各モードの表現を促進する多層クロスアテンション融合に基づくAVSR手法を提案する。
提案手法は第1位システムを超え,新たなSOTA cpCERの29.13%をこのデータセット上に構築する。
論文 参考訳(メタデータ) (2024-01-07T08:59:32Z) - Speech collage: code-switched audio generation by collaging monolingual
corpora [50.356820349870986]
Speech Collage は音声セグメントをスプライシングすることでモノリンガルコーパスからCSデータを合成する手法である。
2つのシナリオにおける音声認識における生成データの影響について検討する。
論文 参考訳(メタデータ) (2023-09-27T14:17:53Z) - Transsion TSUP's speech recognition system for ASRU 2023 MADASR
Challenge [11.263392524468625]
このシステムは、低リソースのインドの言語にASRモデルを適用することに焦点を当てている。
提案手法は, ベンガル語で24.17%, 24.43%, 15.97%, 15.97%, WERで19.61%, 19.54%, 15.48%, 15.48%の単語誤り率を達成した。
論文 参考訳(メタデータ) (2023-07-20T00:55:01Z) - Cross-lingual Knowledge Transfer and Iterative Pseudo-labeling for
Low-Resource Speech Recognition with Transducers [6.017182111335404]
言語間知識伝達と反復的擬似ラベル化は、ASRシステムの精度向上に成功していることを示す2つの手法である。
そこで本研究では,ハイブリッドシステムで作成したテキストを用いてトレーニングしたTransducerシステムが,単語誤り率の18%の削減を実現していることを示す。
論文 参考訳(メタデータ) (2023-05-23T03:50:35Z) - From English to More Languages: Parameter-Efficient Model Reprogramming
for Cross-Lingual Speech Recognition [50.93943755401025]
言語間音声認識のためのニューラルモデル再プログラミングに基づく新しいパラメータ効率学習フレームワークを提案する。
我々は、学習可能な事前学習機能強化に焦点を当てた、異なる補助的ニューラルネットワークアーキテクチャを設計する。
提案手法は,既存のASRチューニングアーキテクチャとその拡張性能を自己監督的損失で向上させる。
論文 参考訳(メタデータ) (2023-01-19T02:37:56Z) - How Phonotactics Affect Multilingual and Zero-shot ASR Performance [74.70048598292583]
Transformer encoder-decoderモデルは、トレーニング中に提示された言語のIPA転写において、多言語データをうまく活用することが示されている。
我々は,エンコーダデコーダをAMとLMを分離したハイブリッドASRシステムに置き換える。
交叉音韻律のモデル化による利得は限定的であり,強すぎるモデルがゼロショット転送を損なう可能性があることを示す。
論文 参考訳(メタデータ) (2020-10-22T23:07:24Z) - Multi-talker ASR for an unknown number of sources: Joint training of
source counting, separation and ASR [91.87500543591945]
能動話者の未知数に対するエンドツーエンドマルチストーカー自動音声認識システムを開発した。
実験の結果,精度,音源分離,音声認識において有望な性能を示した。
我々のシステムは、トレーニング中に見たよりも多くの話者によく当てはまる。
論文 参考訳(メタデータ) (2020-06-04T11:25:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。