論文の概要: Non-autoregressive Mandarin-English Code-switching Speech Recognition
with Pinyin Mask-CTC and Word Embedding Regularization
- arxiv url: http://arxiv.org/abs/2104.02258v1
- Date: Tue, 6 Apr 2021 03:01:09 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-07 14:13:18.520710
- Title: Non-autoregressive Mandarin-English Code-switching Speech Recognition
with Pinyin Mask-CTC and Word Embedding Regularization
- Title(参考訳): Pinyin Mask-CTCと単語埋め込み正規化を用いた非自己回帰マンダリン音声スイッチング音声認識
- Authors: Shun-Po Chuang, Heng-Jui Chang, Sung-Feng Huang, Hung-yi Lee
- Abstract要約: マンダリン・イングリッシュ・コード・スイッチング (CS) は東アジアや東南アジアでよく使われている。
近年の非自己回帰(NAR)ASRモデルは、自己回帰(AR)モデルにおける左から右へのビームデコードの必要性を排除している。
エンコーダの出力目標をpinyinに変更してエンコーダトレーニングを高速化し,文脈情報学習のためのpinyin-to-mandarinデコーダを提案する。
- 参考スコア(独自算出の注目度): 61.749126838659315
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Mandarin-English code-switching (CS) is frequently used among East and
Southeast Asian people. However, the intra-sentence language switching of the
two very different languages makes recognizing CS speech challenging.
Meanwhile, the recent successful non-autoregressive (NAR) ASR models remove the
need for left-to-right beam decoding in autoregressive (AR) models and achieved
outstanding performance and fast inference speed. Therefore, in this paper, we
took advantage of the Mask-CTC NAR ASR framework to tackle the CS speech
recognition issue. We propose changing the Mandarin output target of the
encoder to Pinyin for faster encoder training, and introduce Pinyin-to-Mandarin
decoder to learn contextualized information. Moreover, we propose word
embedding label smoothing to regularize the decoder with contextualized
information and projection matrix regularization to bridge that gap between the
encoder and decoder. We evaluate the proposed methods on the SEAME corpus and
achieved exciting results.
- Abstract(参考訳): マンダリン・イングリッシュ・コード・スイッチング (CS) は東アジアや東南アジアでよく使われている。
しかし、2つの非常に異なる言語の文内言語切り替えは、CS音声の認識を困難にしている。
一方、最近成功した非自己回帰(NAR)ASRモデルは、自己回帰(AR)モデルにおける左から右へのビームデコードの必要性を排除し、優れた性能と高速な推論速度を達成した。
そこで本稿では,CS音声認識問題に対処するために,Mask-CTC NAR ASRフレームワークを利用した。
エンコーダの出力目標をpinyinに変更してエンコーダトレーニングを高速化し,文脈情報学習のためのpinyin-to-mandarinデコーダを提案する。
さらに,エンコーダとデコーダ間のギャップを埋めるために,文脈情報と投影行列の正規化によりデコーダを正則化する単語埋め込みラベル平滑化を提案する。
提案手法をSEAMEコーパス上で評価し,エキサイティングな結果を得た。
関連論文リスト
- Using Large Language Model for End-to-End Chinese ASR and NER [35.876792804001646]
本稿では,クロスアテンションによる音声特徴を組み込んだエンコーダ・デコーダアーキテクチャを提案する。
本稿では,中国語の自動音声認識(ASR)と名前認識(NER)の2つの手法を比較した。
実験の結果,エンコーダ-デコーダアーキテクチャは短いコンテキストでデコーダのみのアーキテクチャよりも優れていることがわかった。
論文 参考訳(メタデータ) (2024-01-21T03:15:05Z) - Leveraging Language ID to Calculate Intermediate CTC Loss for Enhanced
Code-Switching Speech Recognition [5.3545957730615905]
ASRモデルのエンコーダの中間層に言語識別情報を導入する。
言語切替処理におけるモデルの混乱を軽減し,言語区別を暗黙的に意味する音響的特徴を生成することを目的としている。
論文 参考訳(メタデータ) (2023-12-15T07:46:35Z) - Linguistic-Enhanced Transformer with CTC Embedding for Speech
Recognition [29.1423215212174]
関節CTC-Attention モデルの最近の動向は自動音声認識(ASR)において顕著に改善されている
本稿では,訓練中にデコーダに改良されたCTC情報を導入する言語拡張トランスフォーマを提案する。
AISHELL-1音声コーパスの実験では、文字誤り率(CER)は7%まで相対的に減少している。
論文 参考訳(メタデータ) (2022-10-25T08:12:59Z) - Code-Switching without Switching: Language Agnostic End-to-End Speech
Translation [68.8204255655161]
我々は音声認識と翻訳を一貫したエンドツーエンドの音声翻訳問題として扱う。
LASTを両方の入力言語で訓練することにより、入力言語に関係なく、音声を1つのターゲット言語にデコードする。
論文 参考訳(メタデータ) (2022-10-04T10:34:25Z) - LAE: Language-Aware Encoder for Monolingual and Multilingual ASR [87.74794847245536]
言語固有の情報を混在させることにより,両状況に対処する新しい言語対応エンコーダ (LAE) アーキテクチャを提案する。
マンダリン・イングリッシュ・コードスウィッチ音声を用いた実験により,LAEはフレームレベルで異なる言語を識別できることが示唆された。
論文 参考訳(メタデータ) (2022-06-05T04:03:12Z) - Wav2Seq: Pre-training Speech-to-Text Encoder-Decoder Models Using Pseudo
Languages [58.43299730989809]
本稿では,音声データに対するエンコーダ・デコーダモデルの両部分を事前学習するための,最初の自己教師型アプローチであるWav2Seqを紹介する。
我々は、コンパクトな離散表現として擬似言語を誘導し、自己教師付き擬似音声認識タスクを定式化する。
このプロセスは独自のものであり、低コストの第2段階のトレーニングとして適用することができる。
論文 参考訳(メタデータ) (2022-05-02T17:59:02Z) - Adversarial Neural Networks for Error Correcting Codes [76.70040964453638]
機械学習(ML)モデルの性能と適用性を高めるための一般的なフレームワークを紹介する。
本稿では,MLデコーダと競合する識別器ネットワークを組み合わせることを提案する。
我々のフレームワークはゲーム理論であり、GAN(Generative Adversarial Network)によって動機付けられている。
論文 参考訳(メタデータ) (2021-12-21T19:14:44Z) - Transformer-Transducers for Code-Switched Speech Recognition [23.281314397784346]
コード切替音声認識のためのトランスフォーマー・トランスデューサモデルアーキテクチャを用いたエンドツーエンドのASRシステムを提案する。
まず、コードスイッチングの低リソースシナリオを扱うために、2つの補助損失関数を導入する。
第二に,言語ID情報を用いた新しいマスクベースのトレーニング戦略を提案し,文内コードスイッチングに向けたラベルエンコーダのトレーニングを改善する。
論文 参考訳(メタデータ) (2020-11-30T17:27:41Z) - Bi-Decoder Augmented Network for Neural Machine Translation [108.3931242633331]
本稿では,ニューラルマシン翻訳タスクのためのBi-Decoder Augmented Network (BiDAN)を提案する。
各デコーダは入力されたテキストの表現を対応する言語に変換するため、2つの目的語と共同でトレーニングすることで、共有エンコーダは言語に依存しない意味空間を生成することができる。
論文 参考訳(メタデータ) (2020-01-14T02:05:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。