論文の概要: Kaggle Competition: Cantonese Audio-Visual Speech Recognition for In-car
Commands
- arxiv url: http://arxiv.org/abs/2207.02663v1
- Date: Wed, 6 Jul 2022 13:31:56 GMT
- ステータス: 処理完了
- システム内更新日: 2022-07-07 18:07:42.800119
- Title: Kaggle Competition: Cantonese Audio-Visual Speech Recognition for In-car
Commands
- Title(参考訳): kaggleコンペティション:車内コマンドのためのカントン音声・視覚音声認識
- Authors: Wenliang Dai, Samuel Cahyawijaya, Tiezheng Yu, Elham J Barezi, Pascale
Fung
- Abstract要約: 車載スマートアシスタントは、車に関するコマンドだけでなく、一般的な処理も行う必要がある。
ほとんどのデータセットは、英語や中国語などの主要言語で使われている。
我々は車載コマンドに対するカントネーゼ音声認識を提案する。
- 参考スコア(独自算出の注目度): 48.155806720847394
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: With the rise of deep learning and intelligent vehicles, the smart assistant
has become an essential in-car component to facilitate driving and provide
extra functionalities. In-car smart assistants should be able to process
general as well as car-related commands and perform corresponding actions,
which eases driving and improves safety. However, in this research field, most
datasets are in major languages, such as English and Chinese. There is a huge
data scarcity issue for low-resource languages, hindering the development of
research and applications for broader communities. Therefore, it is crucial to
have more benchmarks to raise awareness and motivate the research in
low-resource languages. To mitigate this problem, we collect a new dataset,
namely Cantonese In-car Audio-Visual Speech Recognition (CI-AVSR), for in-car
speech recognition in the Cantonese language with video and audio data.
Together with it, we propose Cantonese Audio-Visual Speech Recognition for
In-car Commands as a new challenge for the community to tackle low-resource
speech recognition under in-car scenarios.
- Abstract(参考訳): ディープラーニングとインテリジェントな車両の登場により、スマートアシスタントは運転を容易にし、余分な機能を提供する上で不可欠な車内コンポーネントとなった。
車内スマートアシスタントは、運転を楽にし、安全性を向上させるために、一般および車関連コマンドを処理し、対応するアクションを実行することができるべきである。
しかし、この研究分野では、ほとんどのデータセットは英語や中国語などの主要言語で使われている。
低リソース言語には膨大なデータ不足の問題があり、幅広いコミュニティの研究やアプリケーションの開発を妨げている。
したがって、低リソース言語の研究に対する認識とモチベーションを高めるために、より多くのベンチマークを持つことが重要です。
この問題を軽減するために,音声データと映像データを用いた車内音声認識のための新しいデータセット,ci-avsr(cantonese in-car audio-visual speech recognition)を収集した。
そこで本研究では,車内シナリオ下での低音源音声認識に対処するための新たな課題として,車内コマンドのためのCantonese Audio-Visual Speech Recognitionを提案する。
関連論文リスト
- Automatic Speech Recognition for Hindi [0.6292138336765964]
この研究は、Webアプリケーションの開発と音声認識のためのWebインターフェースの設計に関するものだった。
ウェブアプリケーションは、大量のオーディオファイルとその転写を管理し、ASR転写の人間の修正を容易にする。
音声認識用Webインターフェースは、Webアプリを実行するデバイスから16kHzのモノオーディオを記録し、音声アクティビティ検出(VAD)を行い、音声認識エンジンに音声を送信する。
論文 参考訳(メタデータ) (2024-06-26T07:39:20Z) - Discovering Phonetic Inventories with Crosslingual Automatic Speech
Recognition [71.49308685090324]
本稿では,未知言語における音声認識における異なる要因(モデルアーキテクチャ,音韻モデル,音声表現の種類)の影響について検討する。
独特な音、類似した音、トーン言語は、音声による在庫発見の大きな課題である。
論文 参考訳(メタデータ) (2022-01-26T22:12:55Z) - CI-AVSR: A Cantonese Audio-Visual Speech Dataset for In-car Command
Recognition [91.33781557979819]
新しいデータセットであるCantonese In-car Audio-Visual Speech Recognition (CI-AVSR)を導入する。
カントン語話者30人が記録した200の車載コマンドの4,984サンプル(8.3時間)で構成されている。
当社のデータセットのクリーンバージョンと拡張バージョンの両方について、詳細な統計情報を提供しています。
論文 参考訳(メタデータ) (2022-01-11T06:32:12Z) - Automatic Speech Recognition Datasets in Cantonese Language: A Survey
and a New Dataset [85.52036362232688]
私たちのデータセットは、香港のCandoneseオーディオブックから収集された、73.6時間のクリーンな読み上げ音声と書き起こしとの組み合わせで構成されています。
哲学、政治、教育、文化、ライフスタイル、家族の領域を組み合わせて、幅広いトピックをカバーしている。
MDCC と Common Voice zh-HK にマルチデータセット学習を適用することで,強力で堅牢な Cantonese ASR モデルを作成する。
論文 参考訳(メタデータ) (2022-01-07T12:09:15Z) - Voice Conversion Can Improve ASR in Very Low-Resource Settings [32.170748231414365]
本稿では,低音源音声認識を改善するために,VCシステムが言語横断的に利用できるかどうかを検討する。
私たちは、英語で実践的なVCシステムを設計し、訓練するために、最近のいくつかのテクニックを組み合わせています。
その結果,低リソース言語4言語すべてにおいて,有意な量の拡張データを使用する場合,音声認識性能が向上することが判明した。
論文 参考訳(メタデータ) (2021-11-04T07:57:00Z) - Cross-lingual Transfer for Speech Processing using Acoustic Language
Similarity [81.51206991542242]
言語間の移動は、このデジタル分割を橋渡しする魅力的な方法を提供する。
現在の言語間アルゴリズムは、テキストベースのタスクや音声関連タスクを低リソース言語で実現している。
本稿では,数百の言語をまたがる音響的言語間移動対を効率的に同定する言語類似性手法を提案する。
論文 参考訳(メタデータ) (2021-11-02T01:55:17Z) - Meta-Transfer Learning for Code-Switched Speech Recognition [72.84247387728999]
低リソース環境下でのコード切替音声認識システムにおける学習を伝達するメタトランスファー学習法を提案する。
本モデルでは,コードスイッチングデータに最適化を条件付けることにより,個々の言語を識別し,混合言語音声をよりよく認識できるように変換する。
論文 参考訳(メタデータ) (2020-04-29T14:27:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。