論文の概要: The ASRU 2019 Mandarin-English Code-Switching Speech Recognition
Challenge: Open Datasets, Tracks, Methods and Results
- arxiv url: http://arxiv.org/abs/2007.05916v1
- Date: Sun, 12 Jul 2020 05:38:57 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-11 06:05:59.194495
- Title: The ASRU 2019 Mandarin-English Code-Switching Speech Recognition
Challenge: Open Datasets, Tracks, Methods and Results
- Title(参考訳): ASRU 2019 Mandarin- English Code-Switching Speech Recognition Challenge: Open Datasets, Tracks, Methods and Results
- Authors: Xian Shi, Qiangze Feng, Lei Xie
- Abstract要約: 本稿では,ASRU 2019 Mandarin- English code-switching speech recognition Challengeの設計と主な成果について述べる。
500時間 マンダリン音声データと240時間 マンダリン英語 CS データを参加者に公開する。
- 参考スコア(独自算出の注目度): 9.089285414356969
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Code-switching (CS) is a common phenomenon and recognizing CS speech is
challenging. But CS speech data is scarce and there' s no common testbed in
relevant research. This paper describes the design and main outcomes of the
ASRU 2019 Mandarin-English code-switching speech recognition challenge, which
aims to improve the ASR performance in Mandarin-English code-switching
situation. 500 hours Mandarin speech data and 240 hours Mandarin-English
intra-sentencial CS data are released to the participants. Three tracks were
set for advancing the AM and LM part in traditional DNN-HMM ASR system, as well
as exploring the E2E models' performance. The paper then presents an overview
of the results and system performance in the three tracks. It turns out that
traditional ASR system benefits from pronunciation lexicon, CS text generating
and data augmentation. In E2E track, however, the results highlight the
importance of using language identification, building-up a rational set of
modeling units and spec-augment. The other details in model training and method
comparsion are discussed.
- Abstract(参考訳): コードスイッチング(CS)は一般的な現象であり、CS音声を認識することは困難である。
しかし、CS音声データは乏しく、関連する研究に共通するテストベッドはない。
本稿では,ASRU 2019 Mandarin- English code-switching speech Recognition Challengeの設計と主な成果について述べる。
参加者には、500時間マンダリン音声データと240時間マンダリン英語内csデータを公開する。
AMとLMを従来のDNN-HMM ASRシステムで前進させる3つのトラックが設定され、E2Eモデルの性能を探求した。
そこで本論文では,3トラックの結果とシステム性能について概説する。
従来のasrシステムは発音レキシコン、csテキスト生成、データ拡張の恩恵を受けている。
しかし、E2Eトラックでは、言語識別、合理的なモデリングユニットの構築、および仕様拡張の重要性が強調されている。
モデルトレーニングとメソッド比較の他の詳細について述べる。
関連論文リスト
- Speech collage: code-switched audio generation by collaging monolingual
corpora [50.356820349870986]
Speech Collage は音声セグメントをスプライシングすることでモノリンガルコーパスからCSデータを合成する手法である。
2つのシナリオにおける音声認識における生成データの影響について検討する。
論文 参考訳(メタデータ) (2023-09-27T14:17:53Z) - Unified model for code-switching speech recognition and language
identification based on a concatenated tokenizer [17.700515986659063]
Code-Switching (CS) Multilingual Automatic Speech Recognition (ASR) モデルは会話中に2つ以上の交互言語を含む音声を転写することができる。
本稿では,純粋にモノリンガルなデータソースからASRデータセットをコードスイッチングする新しい手法を提案する。
新たな Concatenated Tokenizer により、ASR モデルは既存のモノリンガルトークンを再利用しながら、出力されたテキストトークンごとに言語IDを生成することができる。
論文 参考訳(メタデータ) (2023-06-14T21:24:11Z) - From English to More Languages: Parameter-Efficient Model Reprogramming
for Cross-Lingual Speech Recognition [50.93943755401025]
言語間音声認識のためのニューラルモデル再プログラミングに基づく新しいパラメータ効率学習フレームワークを提案する。
我々は、学習可能な事前学習機能強化に焦点を当てた、異なる補助的ニューラルネットワークアーキテクチャを設計する。
提案手法は,既存のASRチューニングアーキテクチャとその拡張性能を自己監督的損失で向上させる。
論文 参考訳(メタデータ) (2023-01-19T02:37:56Z) - Language-agnostic Code-Switching in Sequence-To-Sequence Speech
Recognition [62.997667081978825]
コードスイッチング(Code-Switching, CS)とは、異なる言語の単語やフレーズを交互に使用する現象である。
本稿では,異なるソース言語の音声および対応するラベルを転写する,シンプルで効果的なデータ拡張手法を提案する。
さらに,5,03%のWERによるトレーニング中に見つからない文間言語スイッチにおいて,モデルの性能を向上できることを示す。
論文 参考訳(メタデータ) (2022-10-17T12:15:57Z) - Pronunciation-aware unique character encoding for RNN Transducer-based
Mandarin speech recognition [38.60303603000269]
本稿では,E2E RNN-T ベースの Mandarin ASR システム構築に新しい発音認識文字符号化法を提案する。
提案する符号化法は発音ベース音節と文字索引(CI)の組み合わせである。
論文 参考訳(メタデータ) (2022-07-29T09:49:10Z) - AISHELL-NER: Named Entity Recognition from Chinese Speech [54.434118596263126]
中国語音声からのNERのための新しいデータセットAISEHLL-NERを提案する。
その結果,ASRと事前学習したNERタグを併用することにより,性能が向上できることが示唆された。
論文 参考訳(メタデータ) (2022-02-17T09:18:48Z) - Mandarin-English Code-switching Speech Recognition with Self-supervised
Speech Representation Models [55.82292352607321]
コードスイッチング(英: Code-switching, CS)は、複数の言語が文内で使用される日常会話において一般的である。
本稿では、最近成功した自己教師付き学習(SSL)手法を用いて、CSを使わずに多くのラベルなし音声データを活用する。
論文 参考訳(メタデータ) (2021-10-07T14:43:35Z) - KARI: KAnari/QCRI's End-to-End systems for the INTERSPEECH 2021 Indian
Languages Code-Switching Challenge [7.711092265101041]
本稿では,低リソースのインド言語に対するICS(Interspeech 2021 Code-switching)チャレンジに参加するために使用される,Kanari/QCRIシステムとモデリング戦略について述べる。
このサブタスクには、ヒンディー語とベンガル語という2つのCSデータセットのための音声認識システムの開発が含まれていた。
CSの課題に対処するために、公開のモノリンガルヒンディー語、ベンガル語、英語の音声データを取り入れるためにトランスファーラーニングを利用する。
論文 参考訳(メタデータ) (2021-06-10T16:12:51Z) - Streaming End-to-End Bilingual ASR Systems with Joint Language
Identification [19.09014345299161]
本稿では,ASRと言語識別の両方を実行するストリーミング,エンドツーエンド,バイリンガルシステムを提案する。
提案手法は、アメリカ合衆国で話される英語とスペイン語、インドで話される英語とヒンディー語という2つの言語対に適用される。
論文 参考訳(メタデータ) (2020-07-08T05:00:25Z) - Rnn-transducer with language bias for end-to-end Mandarin-English
code-switching speech recognition [58.105818353866354]
本稿では,言語バイアスを考慮したリカレントニューラルネットワークトランスデューサ(RNN-T)モデルを提案する。
我々は、CSの点を予測するためにモデルにバイアスを与えるために、言語アイデンティティを使用する。
これにより、言語識別情報を転写から直接学習するモデルが促進され、追加のLIDモデルが不要になる。
論文 参考訳(メタデータ) (2020-02-19T12:01:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。