論文の概要: Investigations on Speech Recognition Systems for Low-Resource Dialectal
Arabic-English Code-Switching Speech
- arxiv url: http://arxiv.org/abs/2108.12881v1
- Date: Sun, 29 Aug 2021 17:23:30 GMT
- ステータス: 処理完了
- システム内更新日: 2021-09-01 01:23:49.561177
- Title: Investigations on Speech Recognition Systems for Low-Resource Dialectal
Arabic-English Code-Switching Speech
- Title(参考訳): 低音源アラビア語-英語音声の音声認識システムの検討
- Authors: Injy Hamed, Pavel Denisov, Chia-Yu Li, Mohamed Elmahdy, Slim
Abdennadher, Ngoc Thang Vu
- Abstract要約: コードスイッチによるエジプト・アラビア英語自動音声認識(ASR)に関する研究について述べる。
DNNベースのハイブリッドモデルとTransformerベースのエンドツーエンドモデルを用いて,ASRシステムを構築した。
両システムの出力を組み合わせることで,認識を向上できることを示す。
- 参考スコア(独自算出の注目度): 32.426525641734344
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Code-switching (CS), defined as the mixing of languages in conversations, has
become a worldwide phenomenon. The prevalence of CS has been recently met with
a growing demand and interest to build CS ASR systems. In this paper, we
present our work on code-switched Egyptian Arabic-English automatic speech
recognition (ASR). We first contribute in filling the huge gap in resources by
collecting, analyzing and publishing our spontaneous CS Egyptian Arabic-English
speech corpus. We build our ASR systems using DNN-based hybrid and
Transformer-based end-to-end models. In this paper, we present a thorough
comparison between both approaches under the setting of a low-resource,
orthographically unstandardized, and morphologically rich language pair. We
show that while both systems give comparable overall recognition results, each
system provides complementary sets of strength points. We show that recognition
can be improved by combining the outputs of both systems. We propose several
effective system combination approaches, where hypotheses of both systems are
merged on sentence- and word-levels. Our approaches result in overall WER
relative improvement of 4.7%, over a baseline performance of 32.1% WER. In the
case of intra-sentential CS sentences, we achieve WER relative improvement of
4.8%. Our best performing system achieves 30.6% WER on ArzEn test set.
- Abstract(参考訳): 会話における言語混合として定義されたコードスイッチング(CS)は、世界的な現象となっている。
CSの流行は近年、CS ASRシステム構築への需要と関心が高まっている。
本稿では,コードスイッチによるエジプト・アラビア英語自動音声認識(ASR)について述べる。
我々はまず,自発的なエジプト・アラビア語・英語音声コーパスを収集,分析,公開することにより,資源の巨大なギャップを埋めることに貢献した。
DNNベースのハイブリッドモデルとTransformerベースのエンドツーエンドモデルを用いて,ASRシステムを構築した。
本稿では,低リソース,正書法非標準化,形態的リッチな言語対の設定による両手法の徹底的な比較について述べる。
いずれのシステムも全体の認識結果に匹敵するものの,各システムは相補的な強度点を提供する。
両システムの出力を組み合わせることで,認識を向上できることを示す。
そこで本研究では,両システムの仮説を文と単語レベルで融合するシステム組み合わせ手法を提案する。
提案手法は,WERのベースライン性能32.1%に対して,WER全体の相対的改善4.7%となる。
文中CS文の場合,WERの相対改善率は4.8%であった。
我々の最高のパフォーマンスシステムはArzEnテストセット上で30.6%のWERを達成する。
関連論文リスト
- MLCA-AVSR: Multi-Layer Cross Attention Fusion based Audio-Visual Speech Recognition [62.89464258519723]
異なるレベルのオーディオ/視覚エンコーダに融合することで、各モードの表現を促進する多層クロスアテンション融合に基づくAVSR手法を提案する。
提案手法は第1位システムを超え,新たなSOTA cpCERの29.13%をこのデータセット上に構築する。
論文 参考訳(メタデータ) (2024-01-07T08:59:32Z) - Speech collage: code-switched audio generation by collaging monolingual
corpora [50.356820349870986]
Speech Collage は音声セグメントをスプライシングすることでモノリンガルコーパスからCSデータを合成する手法である。
2つのシナリオにおける音声認識における生成データの影響について検討する。
論文 参考訳(メタデータ) (2023-09-27T14:17:53Z) - A Vector Quantized Approach for Text to Speech Synthesis on Real-World
Spontaneous Speech [94.64927912924087]
我々は、YouTubeやポッドキャストから現実の音声を使ってTSシステムを訓練する。
最近のText-to-Speechアーキテクチャは、複数のコード生成とモノトニックアライメントのために設計されている。
近年のテキスト・トゥ・スペーチ・アーキテクチャは,いくつかの客観的・主観的尺度において,既存のTSシステムより優れていることを示す。
論文 参考訳(メタデータ) (2023-02-08T17:34:32Z) - From English to More Languages: Parameter-Efficient Model Reprogramming
for Cross-Lingual Speech Recognition [50.93943755401025]
言語間音声認識のためのニューラルモデル再プログラミングに基づく新しいパラメータ効率学習フレームワークを提案する。
我々は、学習可能な事前学習機能強化に焦点を当てた、異なる補助的ニューラルネットワークアーキテクチャを設計する。
提案手法は,既存のASRチューニングアーキテクチャとその拡張性能を自己監督的損失で向上させる。
論文 参考訳(メタデータ) (2023-01-19T02:37:56Z) - Integrating Knowledge in End-to-End Automatic Speech Recognition for
Mandarin-English Code-Switching [41.88097793717185]
Code-Switching (CS) は多言語コミュニティでよく見られる言語現象である。
本稿では,マンダリン・イングリッシュCS音声におけるエンドツーエンド音声認識の検討について述べる。
論文 参考訳(メタデータ) (2021-12-19T17:31:15Z) - Arabic Code-Switching Speech Recognition using Monolingual Data [13.513655231184261]
自動音声認識(ASR)におけるコードスイッチングは,グローバル化による重要な課題である。
最近の多言語ASRの研究は、モノリンガルシステムに対する潜在的な改善を示している。
我々は,大規模ASR実験を通じて,ASRの多言語モデリングに関連する重要な課題について検討した。
論文 参考訳(メタデータ) (2021-07-04T08:40:49Z) - Towards One Model to Rule All: Multilingual Strategy for Dialectal
Code-Switching Arabic ASR [11.363966269198064]
自己アテンションに基づくコンストラクタアーキテクチャを用いて,多言語対応の大規模ASRを設計する。
我々はアラビア語(Ar)、英語(En)、フランス語(Fr)を用いてシステムを訓練した。
以上の結果から,最先端のモノリンガル方言アラビア語およびコードスイッチングアラビアASRよりも優れた結果が得られた。
論文 参考訳(メタデータ) (2021-05-31T08:20:38Z) - Dynamic Acoustic Unit Augmentation With BPE-Dropout for Low-Resource
End-to-End Speech Recognition [62.94773371761236]
我々は、OOVレートの高い低リソースセットアップで効果的なエンドツーエンドASRシステムを構築することを検討します。
本稿では,BPE-dropout法に基づく動的音響ユニット拡張法を提案する。
我々の単言語トルココンフォーマーは22.2%の文字誤り率(CER)と38.9%の単語誤り率(WER)の競争結果を確立した。
論文 参考訳(メタデータ) (2021-03-12T10:10:13Z) - You Do Not Need More Data: Improving End-To-End Speech Recognition by
Text-To-Speech Data Augmentation [59.31769998728787]
我々は、ASRトレーニングデータベース上にTSシステムを構築し、合成音声でデータを拡張し、認識モデルを訓練する。
テストクリーンはWER 4.3%,他のテストクリーンは13.5%で、このシステムはLibriSpeechトレインクリーン100で訓練されたエンドツーエンドASRの競争結果を確立している。
論文 参考訳(メタデータ) (2020-05-14T17:24:57Z) - Semi-supervised Development of ASR Systems for Multilingual
Code-switched Speech in Under-resourced Languages [19.569525304938033]
2つのアプローチは、南アフリカの5つの言語で、未ソースでコード変更されたスピーチであると考えられている。
第1は、4つの異なる言語対に対応する4つの別々のバイリンガル自動音声認識器を構成する。
2つ目は、すべての言語を表す単一の、統一された5言語ASRシステムである。
論文 参考訳(メタデータ) (2020-03-06T11:08:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。