論文の概要: Towards Zero-Shot Code-Switched Speech Recognition
- arxiv url: http://arxiv.org/abs/2211.01458v1
- Date: Wed, 2 Nov 2022 19:52:54 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-04 13:52:32.757094
- Title: Towards Zero-Shot Code-Switched Speech Recognition
- Title(参考訳): ゼロショット符号切替音声認識に向けて
- Authors: Brian Yan, Matthew Wiesner, Ondrej Klejch, Preethi Jyothi, Shinji
Watanabe
- Abstract要約: ゼロショット設定の下で,効率的な符号切替自動音声認識システム (ASR) の構築を目指す。
そこで本研究では,各単言語モジュールの音声セグメントを単言語スクリプトで不特定に書き起こすことにより,各単言語モジュールを単純化することを提案する。
本手法をエンドツーエンドの微分可能なニューラルネットワークに適用し、マンダリン英語SEAMEテストセットにおけるゼロショットCS ASRの有効性を実証する。
- 参考スコア(独自算出の注目度): 44.76492452463019
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this work, we seek to build effective code-switched (CS) automatic speech
recognition systems (ASR) under the zero-shot setting where no transcribed CS
speech data is available for training. Previously proposed frameworks which
conditionally factorize the bilingual task into its constituent monolingual
parts are a promising starting point for leveraging monolingual data
efficiently. However, these methods require the monolingual modules to perform
language segmentation. That is, each monolingual module has to simultaneously
detect CS points and transcribe speech segments of one language while ignoring
those of other languages -- not a trivial task. We propose to simplify each
monolingual module by allowing them to transcribe all speech segments
indiscriminately with a monolingual script (i.e. transliteration). This simple
modification passes the responsibility of CS point detection to subsequent
bilingual modules which determine the final output by considering multiple
monolingual transliterations along with external language model information. We
apply this transliteration-based approach in an end-to-end differentiable
neural network and demonstrate its efficacy for zero-shot CS ASR on
Mandarin-English SEAME test sets.
- Abstract(参考訳): 本研究では,書き起こされたCS音声データがトレーニングに利用できないゼロショット設定の下で,効果的な符号切替自動音声認識システム(ASR)を構築することを目的とする。
従来提案されていたバイリンガルタスクを構成要素モノリンガル部分に条件づけするフレームワークは、モノリンガルデータを効率的に活用するための有望な出発点である。
しかし、これらの方法は言語分割を実行するために単言語モジュールを必要とする。
つまり、各単言語モジュールは、自明なタスクではなく、他の言語を無視しながら、csポイントと1つの言語の音声セグメントを同時に検出し、書き起こさなければならない。
本稿では,各単言語モジュールを単言語スクリプト(すなわち音訳)で不特定にすべての音声セグメントを書き起こし,単純化することを提案する。
この単純な修正はCS点検出の責任をその後のバイリンガルモジュールに渡し、外部言語モデル情報とともに複数の単言語翻訳を考慮して最終的な出力を決定する。
本手法をエンドツーエンドの微分可能なニューラルネットワークに適用し,マンダリン英語SEAMEテストセットにおけるゼロショットCS ASRの有効性を示す。
関連論文リスト
- Unified model for code-switching speech recognition and language
identification based on a concatenated tokenizer [17.700515986659063]
Code-Switching (CS) Multilingual Automatic Speech Recognition (ASR) モデルは会話中に2つ以上の交互言語を含む音声を転写することができる。
本稿では,純粋にモノリンガルなデータソースからASRデータセットをコードスイッチングする新しい手法を提案する。
新たな Concatenated Tokenizer により、ASR モデルは既存のモノリンガルトークンを再利用しながら、出力されたテキストトークンごとに言語IDを生成することができる。
論文 参考訳(メタデータ) (2023-06-14T21:24:11Z) - Discrete Cross-Modal Alignment Enables Zero-Shot Speech Translation [71.35243644890537]
エンドツーエンド音声翻訳(ST)は、中間転写を生成することなく、ソース言語音声を対象言語テキストに翻訳することを目的としている。
既存のゼロショット法は、音声とテキストの2つのモダリティを共有意味空間に合わせることに失敗する。
音声とテキストの両方のモダリティに適合する離散語彙空間を共用した離散的クロスモーダルアライメント(DCMA)法を提案する。
論文 参考訳(メタデータ) (2022-10-18T03:06:47Z) - Language-agnostic Code-Switching in Sequence-To-Sequence Speech
Recognition [62.997667081978825]
コードスイッチング(Code-Switching, CS)とは、異なる言語の単語やフレーズを交互に使用する現象である。
本稿では,異なるソース言語の音声および対応するラベルを転写する,シンプルで効果的なデータ拡張手法を提案する。
さらに,5,03%のWERによるトレーニング中に見つからない文間言語スイッチにおいて,モデルの性能を向上できることを示す。
論文 参考訳(メタデータ) (2022-10-17T12:15:57Z) - LAE: Language-Aware Encoder for Monolingual and Multilingual ASR [87.74794847245536]
言語固有の情報を混在させることにより,両状況に対処する新しい言語対応エンコーダ (LAE) アーキテクチャを提案する。
マンダリン・イングリッシュ・コードスウィッチ音声を用いた実験により,LAEはフレームレベルで異なる言語を識別できることが示唆された。
論文 参考訳(メタデータ) (2022-06-05T04:03:12Z) - Joint Modeling of Code-Switched and Monolingual ASR via Conditional
Factorization [75.98664099579392]
本稿では,バイリンガル音声認識を構成するモノリンガルとコードスウィッチのサブタスクの可能性を共同でモデル化するための一般的な枠組みを提案する。
単言語およびコード切替コーパス間のバイリンガル・マンダリン・イングリッシュ音声認識における提案手法の有効性を実証する。
論文 参考訳(メタデータ) (2021-11-29T23:14:54Z) - Mandarin-English Code-switching Speech Recognition with Self-supervised
Speech Representation Models [55.82292352607321]
コードスイッチング(英: Code-switching, CS)は、複数の言語が文内で使用される日常会話において一般的である。
本稿では、最近成功した自己教師付き学習(SSL)手法を用いて、CSを使わずに多くのラベルなし音声データを活用する。
論文 参考訳(メタデータ) (2021-10-07T14:43:35Z) - Learning to Recognize Code-switched Speech Without Forgetting
Monolingual Speech Recognition [14.559210845981605]
コード切替音声における微調整ASRモデルが単言語音声の性能を損なうことを示す。
単言語精度を犠牲にすることなく、コードスイッチングのための微調整モデルの正規化戦略を提案する。
論文 参考訳(メタデータ) (2020-06-01T08:16:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。