論文の概要: ICMC-ASR: The ICASSP 2024 In-Car Multi-Channel Automatic Speech
Recognition Challenge
- arxiv url: http://arxiv.org/abs/2401.03473v1
- Date: Sun, 7 Jan 2024 12:51:42 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-09 18:53:32.470696
- Title: ICMC-ASR: The ICASSP 2024 In-Car Multi-Channel Automatic Speech
Recognition Challenge
- Title(参考訳): ICMC-ASR:ICASSP 2024車載マルチチャネル音声認識チャレンジ
- Authors: He Wang, Pengcheng Guo, Yue Li, Ao Zhang, Jiayao Sun, Lei Xie, Wei
Chen, Pan Zhou, Hui Bu, Xin Xu, Binbin Zhang, Zhuo Chen, Jian Wu, Longbiao
Wang, Eng Siong Chng, Sun Li
- Abstract要約: この課題は、新しいエネルギー車両内で記録された100時間以上のマルチチャネル音声データを収集する。
1位チームのUSTCiflytekはASRトラックで13.16%のCER、ASDRトラックで21.48%のcpCERを達成した。
- 参考スコア(独自算出の注目度): 94.13624830833314
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: To promote speech processing and recognition research in driving scenarios,
we build on the success of the Intelligent Cockpit Speech Recognition Challenge
(ICSRC) held at ISCSLP 2022 and launch the ICASSP 2024 In-Car Multi-Channel
Automatic Speech Recognition (ICMC-ASR) Challenge. This challenge collects over
100 hours of multi-channel speech data recorded inside a new energy vehicle and
40 hours of noise for data augmentation. Two tracks, including automatic speech
recognition (ASR) and automatic speech diarization and recognition (ASDR) are
set up, using character error rate (CER) and concatenated minimum permutation
character error rate (cpCER) as evaluation metrics, respectively. Overall, the
ICMC-ASR Challenge attracts 98 participating teams and receives 53 valid
results in both tracks. In the end, first-place team USTCiflytek achieves a CER
of 13.16% in the ASR track and a cpCER of 21.48% in the ASDR track, showing an
absolute improvement of 13.08% and 51.4% compared to our challenge baseline,
respectively.
- Abstract(参考訳): 運転シナリオにおける音声認識研究を促進するため,ISCSLP 2022で行われたICSRC(Intelligent Cockpit Speech Recognition Challenge)の成功と,ICASSP 2024 In-car Multi-Channel Automatic Speech Recognition (ICMC-ASR) Challengeの立ち上げを行った。
この課題は、新しいエネルギー車両内で記録された100時間以上のマルチチャネル音声データと、データ拡張のための40時間以上のノイズを収集する。
評価指標として、文字誤り率(cer)と結合最小置換文字誤り率(cpcer)を用いて、自動音声認識(asr)と自動音声ダイアリゼーション・認識(asdr)を含む2つのトラックを設定する。
ICMC-ASRチャレンジは98の参加チームを集め、両方のトラックで53の有効な結果を得た。
最後に、ustciflytekはasrトラックで13.16%、asdrトラックで21.48%、チャレンジベースラインと比べて絶対的に13.08%、51.4%改善した。
関連論文リスト
- ICASSP 2024 Speech Signal Improvement Challenge [27.7329948783064]
ICASSP 2024音声信号改善グランドチャレンジは、通信システムにおける音声信号の品質向上分野の研究を刺激することを目的としている。
データセットシンセサイザーを導入して競争を強化し、すべての参加チームがより高いベースラインで開始できるようにします。
我々は、主観的P.804と目的語精度の指標を用いて、実時間トラックにおける13のシステムと非実時間トラックにおける11のシステムを評価した。
論文 参考訳(メタデータ) (2024-01-25T18:08:00Z) - The NPU-ASLP-LiAuto System Description for Visual Speech Recognition in
CNVSRC 2023 [67.11294606070278]
本稿では,第1回中国連続視覚音声認識チャレンジ(CNVSRC)2023において,NPU-ASLP-LiAuto(Team 237)が導入した視覚音声認識システムについて述べる。
データ処理に関しては,ベースライン1からリップモーション抽出器を利用してマルチスケール映像データを生成する。
トレーニング中に、速度摂動、ランダム回転、水平反転、色変換を含む様々な拡張技術が適用される。
論文 参考訳(メタデータ) (2024-01-07T14:20:52Z) - MLCA-AVSR: Multi-Layer Cross Attention Fusion based Audio-Visual Speech Recognition [62.89464258519723]
異なるレベルのオーディオ/視覚エンコーダに融合することで、各モードの表現を促進する多層クロスアテンション融合に基づくAVSR手法を提案する。
提案手法は第1位システムを超え,新たなSOTA cpCERの29.13%をこのデータセット上に構築する。
論文 参考訳(メタデータ) (2024-01-07T08:59:32Z) - The NUS-HLT System for ICASSP2024 ICMC-ASR Grand Challenge [50.41897641763171]
本稿では,車載マルチチャネル音声認識におけるICMC-ASR Challengeの両トラックにおけるチームの取り組みを要約する。
提案システムには、マルチチャネルフロントエンド拡張とダイアリゼーション、トレーニングデータ拡張、マルチチャネル分岐を用いた音声認識モデリングが含まれる。
The offical Eval1 and Eval2 set, our best system achieve a relative 34.3% improve in CER and 56.5% improve in cpCER, than the offical baseline system。
論文 参考訳(メタデータ) (2023-12-26T11:11:22Z) - VoxSRC 2022: The Fourth VoxCeleb Speaker Recognition Challenge [95.6159736804855]
VoxCeleb Speaker Recognition Challenge 2022 (VoxSRC-22)は、InterSPEECH 2022と共同で開催された。
この課題の目的は、最先端の話者認識システムが「野生」で得られた音声から話者を識別し、分類し、認識できるかどうかを評価することである。
論文 参考訳(メタデータ) (2023-02-20T19:27:14Z) - Summary on the ISCSLP 2022 Chinese-English Code-Switching ASR Challenge [25.69349931845173]
ISCSLP 2022 CSASRチャレンジでは、TAL_CSASRコーパスとMagicData-RAMCコーパス、参加者向けの開発とテストセットの2つのトレーニングセットが提供された。
40以上のチームがこの挑戦に参加し、勝者チームは16.70%の混合誤差率(MER)をテストセットで達成した。
本稿では、データセット、関連するベースラインシステム、および要件を説明し、CSASRチャレンジ結果と提案システムで使用される主要なテクニックとトリックを要約する。
論文 参考訳(メタデータ) (2022-10-12T11:05:13Z) - The NIST CTS Speaker Recognition Challenge [1.5282767384702267]
アメリカ国立標準技術研究所(NIST)は2020年8月からCTSチャレンジの第2回を実施中である。
本稿では,CTSチャレンジにおけるシステム性能の評価と解析について概説する。
論文 参考訳(メタデータ) (2022-04-21T16:06:27Z) - CI-AVSR: A Cantonese Audio-Visual Speech Dataset for In-car Command
Recognition [91.33781557979819]
新しいデータセットであるCantonese In-car Audio-Visual Speech Recognition (CI-AVSR)を導入する。
カントン語話者30人が記録した200の車載コマンドの4,984サンプル(8.3時間)で構成されている。
当社のデータセットのクリーンバージョンと拡張バージョンの両方について、詳細な統計情報を提供しています。
論文 参考訳(メタデータ) (2022-01-11T06:32:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。