論文の概要: Language-agnostic Code-Switching in Sequence-To-Sequence Speech
Recognition
- arxiv url: http://arxiv.org/abs/2210.08992v2
- Date: Mon, 3 Jul 2023 10:01:47 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-04 15:29:24.657810
- Title: Language-agnostic Code-Switching in Sequence-To-Sequence Speech
Recognition
- Title(参考訳): シーケンス間音声認識における言語に依存しないコードスイッチング
- Authors: Enes Yavuz Ugan, Christian Huber, Juan Hussain and Alexander Waibel
- Abstract要約: コードスイッチング(Code-Switching, CS)とは、異なる言語の単語やフレーズを交互に使用する現象である。
本稿では,異なるソース言語の音声および対応するラベルを転写する,シンプルで効果的なデータ拡張手法を提案する。
さらに,5,03%のWERによるトレーニング中に見つからない文間言語スイッチにおいて,モデルの性能を向上できることを示す。
- 参考スコア(独自算出の注目度): 62.997667081978825
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Code-Switching (CS) is referred to the phenomenon of alternately using words
and phrases from different languages. While today's neural end-to-end (E2E)
models deliver state-of-the-art performances on the task of automatic speech
recognition (ASR) it is commonly known that these systems are very
data-intensive. However, there is only a few transcribed and aligned CS speech
available. To overcome this problem and train multilingual systems which can
transcribe CS speech, we propose a simple yet effective data augmentation in
which audio and corresponding labels of different source languages are
concatenated. By using this training data, our E2E model improves on
transcribing CS speech. It also surpasses monolingual models on monolingual
tests. The results show that this augmentation technique can even improve the
model's performance on inter-sentential language switches not seen during
training by 5,03% WER.
- Abstract(参考訳): Code-Switching (CS)は、異なる言語の単語やフレーズを交互に使用する現象である。
今日のニューラルエンド・ツー・エンド(E2E)モデルは、自動音声認識(ASR)タスクで最先端のパフォーマンスを提供するが、これらのシステムが非常にデータ集約的であることは一般的に知られている。
しかし、書き起こされ、整列されたCS音声のみが利用可能である。
この問題を克服し、cs音声の書き起こしが可能な多言語システムを訓練するために、異なるソース言語の音声と対応するラベルを結合した、シンプルで効果的なデータ拡張を提案する。
このトレーニングデータを用いて,CS音声の書き起こしを改良したE2Eモデルを提案する。
また、単言語テストの単言語モデルを超えている。
その結果,この拡張手法は,5,03%のwarのトレーニングでは見られなかった言語間スイッチにおけるモデルの性能を向上させることさえ可能であった。
関連論文リスト
- A two-stage transliteration approach to improve performance of a multilingual ASR [1.9511556030544333]
本稿では,言語に依存しないエンドツーエンドモデルを構築するためのアプローチを提案する。
我々は2つのIndic言語に対するエンドツーエンドの多言語音声認識システムを用いて実験を行った。
論文 参考訳(メタデータ) (2024-10-09T05:30:33Z) - Multilingual self-supervised speech representations improve the speech
recognition of low-resource African languages with codeswitching [65.74653592668743]
微細な自己教師型多言語表現は絶対単語誤り率を最大20%削減する。
訓練データに制限のある状況では、自己教師付き表現を微調整することが、より良いパフォーマンスと実行可能なソリューションである。
論文 参考訳(メタデータ) (2023-11-25T17:05:21Z) - Speech collage: code-switched audio generation by collaging monolingual
corpora [50.356820349870986]
Speech Collage は音声セグメントをスプライシングすることでモノリンガルコーパスからCSデータを合成する手法である。
2つのシナリオにおける音声認識における生成データの影響について検討する。
論文 参考訳(メタデータ) (2023-09-27T14:17:53Z) - AudioPaLM: A Large Language Model That Can Speak and Listen [79.44757696533709]
本稿では,音声理解・生成のための大規模言語モデルであるAudioPaLMを紹介する。
AudioPaLMはテキストベースの言語モデルと音声ベースの言語モデルを融合する。
音声認識や音声音声翻訳などの応用により、テキストと音声を処理および生成することができる。
論文 参考訳(メタデータ) (2023-06-22T14:37:54Z) - Improving Code-Switching and Named Entity Recognition in ASR with Speech
Editing based Data Augmentation [22.38340990398735]
テキストベースの音声編集モデルを適用して,新たなデータ拡張手法を提案する。
コードスイッチングとNERタスクの実験結果から,提案手法は音声スプライシングとニューラルTSに基づくデータ拡張システムよりも優れていることが示された。
論文 参考訳(メタデータ) (2023-06-14T15:50:13Z) - Enhanced Direct Speech-to-Speech Translation Using Self-supervised
Pre-training and Data Augmentation [76.13334392868208]
直接音声音声変換(S2ST)モデルは、データ不足の問題に悩まされる。
本研究では,この課題に対処するために,ラベルのない音声データとデータ拡張を用いた自己教師付き事前学習について検討する。
論文 参考訳(メタデータ) (2022-04-06T17:59:22Z) - Integrating Knowledge in End-to-End Automatic Speech Recognition for
Mandarin-English Code-Switching [41.88097793717185]
Code-Switching (CS) は多言語コミュニティでよく見られる言語現象である。
本稿では,マンダリン・イングリッシュCS音声におけるエンドツーエンド音声認識の検討について述べる。
論文 参考訳(メタデータ) (2021-12-19T17:31:15Z) - Mandarin-English Code-switching Speech Recognition with Self-supervised
Speech Representation Models [55.82292352607321]
コードスイッチング(英: Code-switching, CS)は、複数の言語が文内で使用される日常会話において一般的である。
本稿では、最近成功した自己教師付き学習(SSL)手法を用いて、CSを使わずに多くのラベルなし音声データを活用する。
論文 参考訳(メタデータ) (2021-10-07T14:43:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。