論文の概要: Integrating Knowledge in End-to-End Automatic Speech Recognition for
Mandarin-English Code-Switching
- arxiv url: http://arxiv.org/abs/2112.10202v1
- Date: Sun, 19 Dec 2021 17:31:15 GMT
- ステータス: 処理完了
- システム内更新日: 2021-12-22 05:05:17.852629
- Title: Integrating Knowledge in End-to-End Automatic Speech Recognition for
Mandarin-English Code-Switching
- Title(参考訳): マンダリン・イングリッシュコード切り換えのためのエンドツーエンド自動音声認識における知識の統合
- Authors: Chia-Yu Li and Ngoc Thang Vu
- Abstract要約: Code-Switching (CS) は多言語コミュニティでよく見られる言語現象である。
本稿では,マンダリン・イングリッシュCS音声におけるエンドツーエンド音声認識の検討について述べる。
- 参考スコア(独自算出の注目度): 41.88097793717185
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Code-Switching (CS) is a common linguistic phenomenon in multilingual
communities that consists of switching between languages while speaking. This
paper presents our investigations on end-to-end speech recognition for
Mandarin-English CS speech. We analyse different CS specific issues such as the
properties mismatches between languages in a CS language pair, the
unpredictable nature of switching points, and the data scarcity problem. We
exploit and improve the state-of-the-art end-to-end system by merging
nonlinguistic symbols, by integrating language identification using
hierarchical softmax, by modeling sub-word units, by artificially lowering the
speaking rate, and by augmenting data using speed perturbed technique and
several monolingual datasets to improve the final performance not only on CS
speech but also on monolingual benchmarks in order to make the system more
applicable on real life settings. Finally, we explore the effect of different
language model integration methods on the performance of the proposed model.
Our experimental results reveal that all the proposed techniques improve the
recognition performance. The best combined system improves the baseline system
by up to 35% relatively in terms of mixed error rate and delivers acceptable
performance on monolingual benchmarks.
- Abstract(参考訳): コードスイッチング(英: code-switching, cs)は、多言語コミュニティにおける一般的な言語現象である。
本稿では,マンダリン英語cs音声のエンドツーエンド音声認識について検討する。
cs言語ペアにおける言語間の特性ミスマッチ,スイッチングポイントの予測不能な性質,データ不足といった,cs固有の問題を分析した。
我々は,非言語的記号の融合,階層的ソフトマックスを用いた言語識別の統合,サブワード単位のモデル化,発話率の人為的低下,および速度摂動技術と複数のモノリンガルデータセットを用いたデータ拡張により,CS音声だけでなく,モノリンガルベンチマーク上での最終的な性能向上を図り,実生活環境に適用できるようにする。
最後に,異なる言語モデル統合手法が提案モデルの性能に与える影響について検討する。
実験の結果,提案手法はすべて認識性能を向上させることがわかった。
最良の組み合わせシステムは、混合エラー率の点でベースラインシステムを最大35%改善し、単言語ベンチマークで許容できる性能を提供する。
関連論文リスト
- Improving Speech Emotion Recognition in Under-Resourced Languages via Speech-to-Speech Translation with Bootstrapping Data Selection [49.27067541740956]
音声感情認識(SER)は、人間とコンピュータの自然な相互作用が可能な汎用AIエージェントを開発する上で重要な要素である。
英語や中国語以外の言語でラベル付きデータが不足しているため、堅牢な多言語SERシステムの構築は依然として困難である。
本稿では,低SERリソース言語におけるSERの性能向上のための手法を提案する。
論文 参考訳(メタデータ) (2024-09-17T08:36:45Z) - Large Language Models for Dysfluency Detection in Stuttered Speech [16.812800649507302]
音声言語におけるディファレンシを正確に検出することは、自動音声処理と言語処理の部品の性能を向上させるのに役立つ。
大規模言語モデル(LLM)を非語彙入力の普遍的な学習者やプロセッサとして展開する最近の傾向に触発されて,言語モデリング問題として多ラベルディフルエンシ検出の課題にアプローチする。
本稿では,音声エンコーダモデルから抽出した音響表現をLLMに自動音声認識システムと音響表現で生成し,英語とドイツ語を含む3つのデータセット上で,ディフルエンシラベルを予測するシステムを提案する。
論文 参考訳(メタデータ) (2024-06-16T17:51:22Z) - An Initial Investigation of Language Adaptation for TTS Systems under Low-resource Scenarios [76.11409260727459]
本稿では,最近のSSLベースの多言語TSシステムであるZMM-TTSの言語適応性について検討する。
本研究では,事前学習言語と対象言語との音声学的な類似性が,対象言語の適応性能に影響を及ぼすことを示す。
論文 参考訳(メタデータ) (2024-06-13T08:16:52Z) - Leveraging Language ID to Calculate Intermediate CTC Loss for Enhanced
Code-Switching Speech Recognition [5.3545957730615905]
ASRモデルのエンコーダの中間層に言語識別情報を導入する。
言語切替処理におけるモデルの混乱を軽減し,言語区別を暗黙的に意味する音響的特徴を生成することを目的としている。
論文 参考訳(メタデータ) (2023-12-15T07:46:35Z) - Language-agnostic Code-Switching in Sequence-To-Sequence Speech
Recognition [62.997667081978825]
コードスイッチング(Code-Switching, CS)とは、異なる言語の単語やフレーズを交互に使用する現象である。
本稿では,異なるソース言語の音声および対応するラベルを転写する,シンプルで効果的なデータ拡張手法を提案する。
さらに,5,03%のWERによるトレーニング中に見つからない文間言語スイッチにおいて,モデルの性能を向上できることを示す。
論文 参考訳(メタデータ) (2022-10-17T12:15:57Z) - Code-Switching without Switching: Language Agnostic End-to-End Speech
Translation [68.8204255655161]
我々は音声認識と翻訳を一貫したエンドツーエンドの音声翻訳問題として扱う。
LASTを両方の入力言語で訓練することにより、入力言語に関係なく、音声を1つのターゲット言語にデコードする。
論文 参考訳(メタデータ) (2022-10-04T10:34:25Z) - Learning not to Discriminate: Task Agnostic Learning for Improving
Monolingual and Code-switched Speech Recognition [12.354292498112347]
本稿では、ドメイン逆学習を用いてタスクモデルを訓練することにより、これまでの作業よりもさらに改善する。
提案手法は,単語誤り率(WER)を3つの言語対に対して単言語およびコード切替テストセットで削減する。
論文 参考訳(メタデータ) (2020-06-09T13:45:30Z) - Meta-Transfer Learning for Code-Switched Speech Recognition [72.84247387728999]
低リソース環境下でのコード切替音声認識システムにおける学習を伝達するメタトランスファー学習法を提案する。
本モデルでは,コードスイッチングデータに最適化を条件付けることにより,個々の言語を識別し,混合言語音声をよりよく認識できるように変換する。
論文 参考訳(メタデータ) (2020-04-29T14:27:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。