論文の概要: Summary on the ISCSLP 2022 Chinese-English Code-Switching ASR Challenge
- arxiv url: http://arxiv.org/abs/2210.06091v2
- Date: Thu, 13 Oct 2022 08:26:45 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-14 11:41:30.935189
- Title: Summary on the ISCSLP 2022 Chinese-English Code-Switching ASR Challenge
- Title(参考訳): ISCSLP 2022中英コードスイッチングASRチャレンジの概要
- Authors: Shuhao Deng, Chengfei Li, Jinfeng Bai, Qingqing Zhang, Wei-Qiang
Zhang, Runyan Yang, Gaofeng Cheng, Pengyuan Zhang and Yonghong Yan
- Abstract要約: ISCSLP 2022 CSASRチャレンジでは、TAL_CSASRコーパスとMagicData-RAMCコーパス、参加者向けの開発とテストセットの2つのトレーニングセットが提供された。
40以上のチームがこの挑戦に参加し、勝者チームは16.70%の混合誤差率(MER)をテストセットで達成した。
本稿では、データセット、関連するベースラインシステム、および要件を説明し、CSASRチャレンジ結果と提案システムで使用される主要なテクニックとトリックを要約する。
- 参考スコア(独自算出の注目度): 25.69349931845173
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Code-switching automatic speech recognition becomes one of the most
challenging and the most valuable scenarios of automatic speech recognition,
due to the code-switching phenomenon between multilingual language and the
frequent occurrence of code-switching phenomenon in daily life. The ISCSLP 2022
Chinese-English Code-Switching Automatic Speech Recognition (CSASR) Challenge
aims to promote the development of code-switching automatic speech recognition.
The ISCSLP 2022 CSASR challenge provided two training sets, TAL_CSASR corpus
and MagicData-RAMC corpus, a development and a test set for participants, which
are used for CSASR model training and evaluation. Along with the challenge, we
also provide the baseline system performance for reference. As a result, more
than 40 teams participated in this challenge, and the winner team achieved
16.70% Mixture Error Rate (MER) performance on the test set and has achieved
9.8% MER absolute improvement compared with the baseline system. In this paper,
we will describe the datasets, the associated baselines system and the
requirements, and summarize the CSASR challenge results and major techniques
and tricks used in the submitted systems.
- Abstract(参考訳): コードスイッチング自動音声認識は、多言語言語間のコードスイッチング現象と日常生活におけるコードスイッチング現象の頻発により、最も困難で価値のある自動音声認識のシナリオの1つである。
ISCSLP 2022 China- English Code-Switching Automatic Speech Recognition (CSASR) Challengeは、コードスイッチング自動音声認識の開発を促進することを目的としている。
ISCSLP 2022 CSASRチャレンジでは、TAL_CSASRコーパスとMagicData-RAMCコーパス、参加者のための開発とテストセットの2つのトレーニングセットが提供され、CSASRモデルのトレーニングと評価に使用された。
この課題に加えて、参照のためのベースラインシステムパフォーマンスも提供します。
その結果、40以上のチームがこの挑戦に参加し、勝者チームは16.70%の混合エラー率(MER)をテストセットで達成し、ベースラインシステムと比較して9.8%のMERを絶対的に改善した。
本稿では,データセット,関連するベースラインシステム,要件について述べるとともに,提案システムで使用されるcsasrチャレンジ結果と主要なテクニックとトリックを要約する。
関連論文リスト
- ICMC-ASR: The ICASSP 2024 In-Car Multi-Channel Automatic Speech
Recognition Challenge [94.13624830833314]
この課題は、新しいエネルギー車両内で記録された100時間以上のマルチチャネル音声データを収集する。
1位チームのUSTCiflytekはASRトラックで13.16%のCER、ASDRトラックで21.48%のcpCERを達成した。
論文 参考訳(メタデータ) (2024-01-07T12:51:42Z) - MLCA-AVSR: Multi-Layer Cross Attention Fusion based Audio-Visual Speech Recognition [62.89464258519723]
異なるレベルのオーディオ/視覚エンコーダに融合することで、各モードの表現を促進する多層クロスアテンション融合に基づくAVSR手法を提案する。
提案手法は第1位システムを超え,新たなSOTA cpCERの29.13%をこのデータセット上に構築する。
論文 参考訳(メタデータ) (2024-01-07T08:59:32Z) - Perception Test 2023: A Summary of the First Challenge And Outcome [67.0525378209708]
最初のパーセプションテストは、IEEE/CVF International Conference on Computer Vision (ICCV) 2023と共に半日間のワークショップとして開催された。
目標は、最近提案されたPerception Testベンチマークで最先端のビデオモデルをベンチマークすることであった。
このレポートでは、タスク記述、メトリクス、ベースライン、結果について要約しています。
論文 参考訳(メタデータ) (2023-12-20T15:12:27Z) - A Study on the Integration of Pipeline and E2E SLU systems for Spoken
Semantic Parsing toward STOP Quality Challenge [33.89616011003973]
本稿では,音声言語理解グランドチャレンジにおける品質トラック(トラック1)のための音声意味解析システムについて述べる。
Whisperのような強自動音声認識(ASR)モデルとBARTのような事前訓練言語モデル(LM)は、我々のSLUフレームワーク内で利用され、性能が向上する。
また,各モデルの出力レベルの組み合わせについて,精度80.8の精度で検討し,第1位を獲得した。
論文 参考訳(メタデータ) (2023-05-02T17:25:19Z) - Code Switched and Code Mixed Speech Recognition for Indic languages [0.0]
多言語自動音声認識(ASR)システムの訓練は、音響情報と語彙情報が典型的には言語固有のものであるため困難である。
言語識別(LID)に基づく一言語モデルとエンドツーエンドの多言語音声認識システムの性能を比較した。
また,Hindi- English と Bengali- English の相似解法を提案し,それぞれ 21.77 と 28.27 の WER を実現する。
論文 参考訳(メタデータ) (2022-03-30T18:09:28Z) - OLR 2021 Challenge: Datasets, Rules and Baselines [23.878103387338918]
本稿では,データプロファイル,4つのタスク,2つのベースライン,評価原則を紹介する。
言語識別(LID)タスクに加えて、OLR 2021 Challengeに初めて多言語自動音声認識(ASR)タスクが導入された。
論文 参考訳(メタデータ) (2021-07-23T09:57:29Z) - Arabic Code-Switching Speech Recognition using Monolingual Data [13.513655231184261]
自動音声認識(ASR)におけるコードスイッチングは,グローバル化による重要な課題である。
最近の多言語ASRの研究は、モノリンガルシステムに対する潜在的な改善を示している。
我々は,大規模ASR実験を通じて,ASRの多言語モデリングに関連する重要な課題について検討した。
論文 参考訳(メタデータ) (2021-07-04T08:40:49Z) - Auto-KWS 2021 Challenge: Task, Datasets, and Baselines [63.82759886293636]
Auto-KWS 2021チャレンジは、カスタマイズされたキーワードスポッティングタスクに機械学習を適用するプロセスを自動化するために、自動機械学習(AutoML)ソリューションを呼び出します。
この課題は、ターゲットデバイスが特定のキーワードで登録された話者によってのみ覚醒できる、カスタマイズされたキーワードスポッティングの問題に焦点を当てている。
論文 参考訳(メタデータ) (2021-03-31T14:56:48Z) - The Sequence-to-Sequence Baseline for the Voice Conversion Challenge
2020: Cascading ASR and TTS [66.06385966689965]
本稿では,音声変換チャレンジ(VCC)2020におけるSequence-to-Sequence(seq2seq)ベースラインシステムを提案する。
本稿では,まず入力音声を自動音声認識 (ASR) モデルで書き起こす,音声変換 (VC) のナイーブなアプローチを検討する。
本手法を,オープンソースのエンドツーエンド音声処理ツールキットであるESPnetを用いて,シーケンス・ツー・シーケンス(seq2seq)フレームワークで再検討する。
論文 参考訳(メタデータ) (2020-10-06T02:27:38Z) - The NTT DCASE2020 Challenge Task 6 system: Automated Audio Captioning
with Keywords and Sentence Length Estimation [49.41766997393417]
本報告では, 音響シーン・イベントの検出・分類に関わるシステムについて述べる。
本論文は,音声の自動字幕化における2つの不確定性,すなわち,単語選択不確定性と文長不確定性に焦点をあてる。
マルチタスク学習によりキーワードと文長を推定することにより,主字幕生成と部分不確定化を同時に解決する。
論文 参考訳(メタデータ) (2020-07-01T04:26:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。