論文の概要: CI-AVSR: A Cantonese Audio-Visual Speech Dataset for In-car Command
Recognition
- arxiv url: http://arxiv.org/abs/2201.03804v1
- Date: Tue, 11 Jan 2022 06:32:12 GMT
- ステータス: 処理完了
- システム内更新日: 2022-01-12 18:38:33.045543
- Title: CI-AVSR: A Cantonese Audio-Visual Speech Dataset for In-car Command
Recognition
- Title(参考訳): CI-AVSR:車内コマンド認識のためのカントン音声・ビジュアル音声データセット
- Authors: Wenliang Dai, Samuel Cahyawijaya, Tiezheng Yu, Elham J. Barezi, Peng
Xu, Cheuk Tung Shadow Yiu, Rita Frieske, Holy Lovenia, Genta Indra Winata,
Qifeng Chen, Xiaojuan Ma, Bertram E. Shi, Pascale Fung
- Abstract要約: 新しいデータセットであるCantonese In-car Audio-Visual Speech Recognition (CI-AVSR)を導入する。
カントン語話者30人が記録した200の車載コマンドの4,984サンプル(8.3時間)で構成されている。
当社のデータセットのクリーンバージョンと拡張バージョンの両方について、詳細な統計情報を提供しています。
- 参考スコア(独自算出の注目度): 91.33781557979819
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: With the rise of deep learning and intelligent vehicle, the smart assistant
has become an essential in-car component to facilitate driving and provide
extra functionalities. In-car smart assistants should be able to process
general as well as car-related commands and perform corresponding actions,
which eases driving and improves safety. However, there is a data scarcity
issue for low resource languages, hindering the development of research and
applications. In this paper, we introduce a new dataset, Cantonese In-car
Audio-Visual Speech Recognition (CI-AVSR), for in-car command recognition in
the Cantonese language with both video and audio data. It consists of 4,984
samples (8.3 hours) of 200 in-car commands recorded by 30 native Cantonese
speakers. Furthermore, we augment our dataset using common in-car background
noises to simulate real environments, producing a dataset 10 times larger than
the collected one. We provide detailed statistics of both the clean and the
augmented versions of our dataset. Moreover, we implement two multimodal
baselines to demonstrate the validity of CI-AVSR. Experiment results show that
leveraging the visual signal improves the overall performance of the model.
Although our best model can achieve a considerable quality on the clean test
set, the speech recognition quality on the noisy data is still inferior and
remains as an extremely challenging task for real in-car speech recognition
systems. The dataset and code will be released at
https://github.com/HLTCHKUST/CI-AVSR.
- Abstract(参考訳): ディープラーニングとインテリジェントな車両の台頭により、スマートアシスタントは、運転を容易にし、余分な機能を提供するために、車内コンポーネントとして不可欠なものになっている。
車内スマートアシスタントは、運転を楽にし、安全性を向上させるために、一般および車関連コマンドを処理し、対応するアクションを実行することができるべきである。
しかし、低リソース言語にはデータ不足の問題があり、研究やアプリケーションの開発を妨げている。
本稿では,Cantonese言語における車内コマンド認識のための新しいデータセットであるCantonese In-car Audio-Visual Speech Recognition (CI-AVSR)を導入する。
カントン語話者30人が記録した200の車載コマンドの4,984サンプル(8.3時間)で構成されている。
さらに,実環境をシミュレートするために,車内背景雑音を用いたデータセットの拡張を行い,収集したデータより10倍大きいデータセットを生成する。
当社のデータセットのクリーンバージョンと拡張バージョンの両方に関する詳細な統計情報を提供しています。
さらに,CI-AVSRの有効性を示すために,2つのマルチモーダルベースラインを実装した。
実験の結果,視覚信号の活用により,モデル全体の性能が向上することがわかった。
私たちの最良のモデルはクリーンなテストセットでかなりの品質を達成できますが、ノイズの多いデータの音声認識品質はいまだに劣っており、実際の車内音声認識システムにとって非常に困難なタスクです。
データセットとコードはhttps://github.com/HLTCHKUST/CI-AVSRで公開される。
関連論文リスト
- Multilingual Audio-Visual Speech Recognition with Hybrid CTC/RNN-T Fast Conformer [59.57249127943914]
本稿では,複数の改良を加えた多言語音声認識モデルを提案する。
我々は、6つの異なる言語に対する音声視覚訓練データの量を増やし、重複しない多言語データセットの自動書き起こしを生成する。
提案モデルでは, LRS3データセット上での新たな最先端性能を実現し, WERは0.8%に達した。
論文 参考訳(メタデータ) (2024-03-14T01:16:32Z) - Auto-AVSR: Audio-Visual Speech Recognition with Automatic Labels [100.43280310123784]
トレーニングセットのサイズを増大させるために,未ラベルデータセットの自動書き起こしの使用について検討した。
近年の文献的傾向であるトレーニングセットのサイズが大きくなると、ノイズのある書き起こしを用いたにもかかわらずWERが減少することが実証された。
提案手法は,RS2 と LRS3 の AV-ASR 上での最先端性能を実現する。
論文 参考訳(メタデータ) (2023-03-25T00:37:34Z) - AV-data2vec: Self-supervised Learning of Audio-Visual Speech
Representations with Contextualized Target Representations [88.30635799280923]
AV-data2vecを導入し、文脈化表現の予測に基づいて音声・視覚表現を構築する。
LRS3の結果は、AV-data2vecが、同じ量のデータとモデルサイズで既存のメソッドを一貫して上回っていることを示している。
論文 参考訳(メタデータ) (2023-02-10T02:55:52Z) - Kaggle Competition: Cantonese Audio-Visual Speech Recognition for In-car
Commands [48.155806720847394]
車載スマートアシスタントは、車に関するコマンドだけでなく、一般的な処理も行う必要がある。
ほとんどのデータセットは、英語や中国語などの主要言語で使われている。
我々は車載コマンドに対するカントネーゼ音声認識を提案する。
論文 参考訳(メタデータ) (2022-07-06T13:31:56Z) - Exploring Capabilities of Monolingual Audio Transformers using Large
Datasets in Automatic Speech Recognition of Czech [0.9653976364051563]
チェコ語単言語音声トランスフォーマーを8万時間以上のラベルなし音声を含む大規模データセットから事前学習する過程について述べる。
2つの公開データセットで評価された様々な微調整設定による実験の大規模なパレットを提示する。
論文 参考訳(メタデータ) (2022-06-15T16:14:37Z) - Automatic Speech Recognition Datasets in Cantonese Language: A Survey
and a New Dataset [85.52036362232688]
私たちのデータセットは、香港のCandoneseオーディオブックから収集された、73.6時間のクリーンな読み上げ音声と書き起こしとの組み合わせで構成されています。
哲学、政治、教育、文化、ライフスタイル、家族の領域を組み合わせて、幅広いトピックをカバーしている。
MDCC と Common Voice zh-HK にマルチデータセット学習を適用することで,強力で堅牢な Cantonese ASR モデルを作成する。
論文 参考訳(メタデータ) (2022-01-07T12:09:15Z) - Multiresolution and Multimodal Speech Recognition with Transformers [22.995102995029576]
本稿ではトランスフォーマーアーキテクチャを用いた音声視覚自動音声認識(AV-ASR)システムを提案する。
我々は、視覚情報によって提供されるシーンコンテキストに着目して、ASRを接地する。
私たちの結果は、最先端のListen、Attend、Spellベースのアーキテクチャに匹敵します。
論文 参考訳(メタデータ) (2020-04-29T09:32:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。