論文の概要: Optimizing Bilingual Neural Transducer with Synthetic Code-switching
Text Generation
- arxiv url: http://arxiv.org/abs/2210.12214v1
- Date: Fri, 21 Oct 2022 19:42:41 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-25 18:51:01.990993
- Title: Optimizing Bilingual Neural Transducer with Synthetic Code-switching
Text Generation
- Title(参考訳): 合成コード切替テキスト生成によるバイリンガルニューラルトランスデューサの最適化
- Authors: Thien Nguyen, Nathalie Tran, Liuhui Deng, Thiago Fraga da Silva,
Matthew Radzihovsky, Roger Hsiao, Henry Mason, Stefan Braun, Erik McDermott,
Dogan Can, Pawel Swietojanski, Lyan Verwimp, Sibel Oyman, Tresi Arvizo, Honza
Silovsky, Arnab Ghoshal, Mathieu Martel, Bharat Ram Ambati and Mohamed Ali
- Abstract要約: 半教師付きトレーニングと合成コードスイッチングデータにより、コードスイッチング音声におけるバイリンガルASRシステムを改善することができる。
最終システムは ASCEND English/Mandarin code-switching test set 上で25%混合誤り率 (MER) を達成する。
- 参考スコア(独自算出の注目度): 10.650573361117669
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Code-switching describes the practice of using more than one language in the
same sentence. In this study, we investigate how to optimize a neural
transducer based bilingual automatic speech recognition (ASR) model for
code-switching speech. Focusing on the scenario where the ASR model is trained
without supervised code-switching data, we found that semi-supervised training
and synthetic code-switched data can improve the bilingual ASR system on
code-switching speech. We analyze how each of the neural transducer's encoders
contributes towards code-switching performance by measuring encoder-specific
recall values, and evaluate our English/Mandarin system on the ASCEND data set.
Our final system achieves 25% mixed error rate (MER) on the ASCEND
English/Mandarin code-switching test set -- reducing the MER by 2.1% absolute
compared to the previous literature -- while maintaining good accuracy on the
monolingual test sets.
- Abstract(参考訳): コードスイッチング(code-switching)とは、複数の言語を同じ文で使用するプラクティスである。
本研究では,ニューラルトランスデューサを用いたバイリンガル自動音声認識(asr)モデルをコードスイッチング音声に最適化する方法を検討する。
教師付きコードスイッチングデータなしでASRモデルを訓練するシナリオに着目し,半教師付きトレーニングと合成コードスイッチングデータにより,コードスイッチング音声におけるバイリンガルASRシステムが改善されることを発見した。
エンコーダ固有のリコール値を計測することにより,各エンコーダのエンコーダがコードスイッチング性能にどのように寄与するかを分析し,昇降データを用いた英語/中国語システムを評価する。
最後のシステムは、英語/中国語のコード切り換えテストセットの25%の混合エラー率(mer)を達成し、単言語テストセットの精度を保ちながら、merを以前の文献と比較して絶対的な2.1%削減した。
関連論文リスト
- Zero Resource Code-switched Speech Benchmark Using Speech Utterance Pairs For Multiple Spoken Languages [49.6922490267701]
我々は,自己教師型音声エンコーダのコード切替能力を評価するために,ゼロリソースコード切替音声ベンチマークを導入した。
本稿では,音声エンコーダのコードスイッチング能力を評価するために,離散単位に基づく言語モデリングのベースラインシステムを紹介する。
論文 参考訳(メタデータ) (2023-10-04T17:58:11Z) - Code-Switching Text Generation and Injection in Mandarin-English ASR [57.57570417273262]
業界で広く使われているストリーミングモデルTransformer-Transducer(T-T)の性能向上のためのテキスト生成とインジェクションについて検討する。
まず、コードスイッチングテキストデータを生成し、テキスト-to-Speech(TTS)変換または暗黙的に音声とテキストの潜在空間を結び付けることによって、T-Tモデルに生成されたテキストを明示的に注入する戦略を提案する。
実際のマンダリン・イングリッシュ音声の1,800時間を含むデータセットを用いて訓練したT-Tモデルの実験結果から,生成したコードスイッチングテキストを注入する手法により,T-Tモデルの性能が著しく向上することが示された。
論文 参考訳(メタデータ) (2023-03-20T09:13:27Z) - Streaming End-to-End Multilingual Speech Recognition with Joint Language
Identification [14.197869575012925]
本稿では、フレーム単位の言語識別子(LID)予測器を統合することにより、カスケードエンコーダに基づくリカレントニューラルネットワークトランスデューサ(RNN-T)モデルの構造を変更することを提案する。
カスケードエンコーダ付きRNN-Tは、右コンテキストのないファーストパス復号法を用いて低レイテンシでストリーミングASRを実現し、右コンテキストの長いセカンドパス復号法を用いて低ワード誤り率(WER)を実現する。
9言語ローカライズされた音声検索データセットの実験結果から,提案手法は平均96.2%のLID予測精度と2次パスWERを実現していることがわかった。
論文 参考訳(メタデータ) (2022-09-13T15:10:41Z) - Reducing language context confusion for end-to-end code-switching
automatic speech recognition [50.89821865949395]
本稿では,E2E符号スイッチングASRモデルの多言語コンテキストの混同を低減するための言語関連アテンション機構を提案する。
複数の言語のそれぞれの注意を計算することにより、豊かな単言語データから言語知識を効率的に伝達することができる。
論文 参考訳(メタデータ) (2022-01-28T14:39:29Z) - Fast-MD: Fast Multi-Decoder End-to-End Speech Translation with
Non-Autoregressive Hidden Intermediates [59.678108707409606]
我々は、接続性時間分類(CTC)出力に基づいて非自己回帰デコードによりHIを生成する高速MDモデルであるFast-MDを提案し、続いてASRデコーダを提案する。
高速MDは、GPUとCPUの「単純なMDモデル」よりも2倍、4倍高速なデコード速度を実現した。
論文 参考訳(メタデータ) (2021-09-27T05:21:30Z) - Arabic Code-Switching Speech Recognition using Monolingual Data [13.513655231184261]
自動音声認識(ASR)におけるコードスイッチングは,グローバル化による重要な課題である。
最近の多言語ASRの研究は、モノリンガルシステムに対する潜在的な改善を示している。
我々は,大規模ASR実験を通じて,ASRの多言語モデリングに関連する重要な課題について検討した。
論文 参考訳(メタデータ) (2021-07-04T08:40:49Z) - Using heterogeneity in semi-supervised transcription hypotheses to
improve code-switched speech recognition [6.224255518500385]
モノリンガルデータは、コードスウィッチペア内の1つの言語とより密に一致している可能性があることを示す。
コードスイッチングASRのための半教師付きアプローチを提案する。
論文 参考訳(メタデータ) (2021-06-14T18:39:18Z) - Transformer-Transducers for Code-Switched Speech Recognition [23.281314397784346]
コード切替音声認識のためのトランスフォーマー・トランスデューサモデルアーキテクチャを用いたエンドツーエンドのASRシステムを提案する。
まず、コードスイッチングの低リソースシナリオを扱うために、2つの補助損失関数を導入する。
第二に,言語ID情報を用いた新しいマスクベースのトレーニング戦略を提案し,文内コードスイッチングに向けたラベルエンコーダのトレーニングを改善する。
論文 参考訳(メタデータ) (2020-11-30T17:27:41Z) - Data Augmentation for End-to-end Code-switching Speech Recognition [54.0507000473827]
コードスイッチングデータ拡張のための3つの新しいアプローチが提案されている。
既存のコードスイッチングデータによる音声スプライシングと、単語翻訳や単語挿入によって生成された新しいコードスイッチングテキストによるTS。
200時間のMandarin-Britishコードスイッチングデータセットの実験では、コードスイッチングASRを個別に大幅に改善した。
論文 参考訳(メタデータ) (2020-11-04T07:12:44Z) - Rnn-transducer with language bias for end-to-end Mandarin-English
code-switching speech recognition [58.105818353866354]
本稿では,言語バイアスを考慮したリカレントニューラルネットワークトランスデューサ(RNN-T)モデルを提案する。
我々は、CSの点を予測するためにモデルにバイアスを与えるために、言語アイデンティティを使用する。
これにより、言語識別情報を転写から直接学習するモデルが促進され、追加のLIDモデルが不要になる。
論文 参考訳(メタデータ) (2020-02-19T12:01:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。