論文の概要: Mandarin-English Code-switching Speech Recognition with Self-supervised
Speech Representation Models
- arxiv url: http://arxiv.org/abs/2110.03504v1
- Date: Thu, 7 Oct 2021 14:43:35 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-08 15:37:43.903980
- Title: Mandarin-English Code-switching Speech Recognition with Self-supervised
Speech Representation Models
- Title(参考訳): 自己教師付き音声表現モデルを用いたmandarin- english code-switching speech recognition
- Authors: Liang-Hsuan Tseng, Yu-Kuan Fu, Heng-Jui Chang, Hung-yi Lee
- Abstract要約: コードスイッチング(英: Code-switching, CS)は、複数の言語が文内で使用される日常会話において一般的である。
本稿では、最近成功した自己教師付き学習(SSL)手法を用いて、CSを使わずに多くのラベルなし音声データを活用する。
- 参考スコア(独自算出の注目度): 55.82292352607321
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Code-switching (CS) is common in daily conversations where more than one
language is used within a sentence. The difficulties of CS speech recognition
lie in alternating languages and the lack of transcribed data. Therefore, this
paper uses the recently successful self-supervised learning (SSL) methods to
leverage many unlabeled speech data without CS. We show that hidden
representations of SSL models offer frame-level language identity even if the
models are trained with English speech only. Jointly training CTC and language
identification modules with self-supervised speech representations improves CS
speech recognition performance. Furthermore, using multilingual speech data for
pre-training obtains the best CS speech recognition.
- Abstract(参考訳): コードスイッチング(cs)は、1つの文の中で複数の言語が使用される日々の会話で一般的である。
cs音声認識の難しさは、交互言語と書き起こされたデータの欠如にある。
そこで本稿では,最近成功した自己教師付き学習(SSL)手法を用いて,CSを使わずに多くのラベルなし音声データを活用する。
SSLモデルの隠れ表現は、たとえモデルが英語の音声のみで訓練されているとしても、フレームレベルの言語識別を提供することを示す。
CTCと言語識別モジュールを協調訓練することで,CS音声認識性能が向上する。
さらに、事前学習に多言語音声データを用いると、最高のCS音声認識が得られる。
関連論文リスト
- Leveraging Language ID to Calculate Intermediate CTC Loss for Enhanced
Code-Switching Speech Recognition [5.3545957730615905]
ASRモデルのエンコーダの中間層に言語識別情報を導入する。
言語切替処理におけるモデルの混乱を軽減し,言語区別を暗黙的に意味する音響的特徴を生成することを目的としている。
論文 参考訳(メタデータ) (2023-12-15T07:46:35Z) - Multilingual self-supervised speech representations improve the speech
recognition of low-resource African languages with codeswitching [65.74653592668743]
微細な自己教師型多言語表現は絶対単語誤り率を最大20%削減する。
訓練データに制限のある状況では、自己教師付き表現を微調整することが、より良いパフォーマンスと実行可能なソリューションである。
論文 参考訳(メタデータ) (2023-11-25T17:05:21Z) - SpeechGLUE: How Well Can Self-Supervised Speech Models Capture Linguistic Knowledge? [45.901645659694935]
音声表現のための自己教師付き学習(SSL)は、様々な下流タスクにうまく適用されている。
本稿では,音声SSL技術が言語知識をうまく捉えることができるかどうかを明らかにすることを目的とする。
論文 参考訳(メタデータ) (2023-06-14T09:04:29Z) - Language-agnostic Code-Switching in Sequence-To-Sequence Speech
Recognition [62.997667081978825]
コードスイッチング(Code-Switching, CS)とは、異なる言語の単語やフレーズを交互に使用する現象である。
本稿では,異なるソース言語の音声および対応するラベルを転写する,シンプルで効果的なデータ拡張手法を提案する。
さらに,5,03%のWERによるトレーニング中に見つからない文間言語スイッチにおいて,モデルの性能を向上できることを示す。
論文 参考訳(メタデータ) (2022-10-17T12:15:57Z) - Code-Switching without Switching: Language Agnostic End-to-End Speech
Translation [68.8204255655161]
我々は音声認識と翻訳を一貫したエンドツーエンドの音声翻訳問題として扱う。
LASTを両方の入力言語で訓練することにより、入力言語に関係なく、音声を1つのターゲット言語にデコードする。
論文 参考訳(メタデータ) (2022-10-04T10:34:25Z) - LAE: Language-Aware Encoder for Monolingual and Multilingual ASR [87.74794847245536]
言語固有の情報を混在させることにより,両状況に対処する新しい言語対応エンコーダ (LAE) アーキテクチャを提案する。
マンダリン・イングリッシュ・コードスウィッチ音声を用いた実験により,LAEはフレームレベルで異なる言語を識別できることが示唆された。
論文 参考訳(メタデータ) (2022-06-05T04:03:12Z) - Continual-wav2vec2: an Application of Continual Learning for
Self-Supervised Automatic Speech Recognition [0.23872611575805824]
自己教師付き学習(SSL)を用いた複数言語における音声表現の連続学習法を提案する。
Wav2vecモデルは、事前トレーニングフェーズで生オーディオ上でSSLを実行し、アノテートされた少数のデータに対して微調整を行う。
新しい言語タスクの事前学習を高速化するために、継続学習からのアイデアを、以前のタスクから知識を伝達するために使用します。
論文 参考訳(メタデータ) (2021-07-26T10:39:03Z) - Meta-Transfer Learning for Code-Switched Speech Recognition [72.84247387728999]
低リソース環境下でのコード切替音声認識システムにおける学習を伝達するメタトランスファー学習法を提案する。
本モデルでは,コードスイッチングデータに最適化を条件付けることにより,個々の言語を識別し,混合言語音声をよりよく認識できるように変換する。
論文 参考訳(メタデータ) (2020-04-29T14:27:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。