Fugu-MT 論文翻訳(概要): Optimizing Bilingual Neural Transducer with Synthetic Code-switching Text Generation

論文の概要: Optimizing Bilingual Neural Transducer with Synthetic Code-switching Text Generation

arxiv url: http://arxiv.org/abs/2210.12214v1
Date: Fri, 21 Oct 2022 19:42:41 GMT
ステータス: 翻訳完了
システム内更新日: 2022-10-25 18:51:01.990993
Title: Optimizing Bilingual Neural Transducer with Synthetic Code-switching Text Generation
Title（参考訳）: 合成コード切替テキスト生成によるバイリンガルニューラルトランスデューサの最適化
Authors: Thien Nguyen, Nathalie Tran, Liuhui Deng, Thiago Fraga da Silva, Matthew Radzihovsky, Roger Hsiao, Henry Mason, Stefan Braun, Erik McDermott, Dogan Can, Pawel Swietojanski, Lyan Verwimp, Sibel Oyman, Tresi Arvizo, Honza Silovsky, Arnab Ghoshal, Mathieu Martel, Bharat Ram Ambati and Mohamed Ali
Abstract要約: 半教師付きトレーニングと合成コードスイッチングデータにより、コードスイッチング音声におけるバイリンガルASRシステムを改善することができる。最終システムは ASCEND English/Mandarin code-switching test set 上で25%混合誤り率 (MER) を達成する。
参考スコア（独自算出の注目度）: 10.650573361117669
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Code-switching describes the practice of using more than one language in the same sentence. In this study, we investigate how to optimize a neural transducer based bilingual automatic speech recognition (ASR) model for code-switching speech. Focusing on the scenario where the ASR model is trained without supervised code-switching data, we found that semi-supervised training and synthetic code-switched data can improve the bilingual ASR system on code-switching speech. We analyze how each of the neural transducer's encoders contributes towards code-switching performance by measuring encoder-specific recall values, and evaluate our English/Mandarin system on the ASCEND data set. Our final system achieves 25% mixed error rate (MER) on the ASCEND English/Mandarin code-switching test set -- reducing the MER by 2.1% absolute compared to the previous literature -- while maintaining good accuracy on the monolingual test sets.
Abstract（参考訳）: コードスイッチング(code-switching)とは、複数の言語を同じ文で使用するプラクティスである。本研究では,ニューラルトランスデューサを用いたバイリンガル自動音声認識(asr)モデルをコードスイッチング音声に最適化する方法を検討する。教師付きコードスイッチングデータなしでASRモデルを訓練するシナリオに着目し,半教師付きトレーニングと合成コードスイッチングデータにより,コードスイッチング音声におけるバイリンガルASRシステムが改善されることを発見した。エンコーダ固有のリコール値を計測することにより,各エンコーダのエンコーダがコードスイッチング性能にどのように寄与するかを分析し,昇降データを用いた英語/中国語システムを評価する。最後のシステムは、英語/中国語のコード切り換えテストセットの25%の混合エラー率(mer)を達成し、単言語テストセットの精度を保ちながら、merを以前の文献と比較して絶対的な2.1%削減した。

関連論文リスト

Investigating and Scaling up Code-Switching for Multilingual Language Model Pre-Training [58.696660064190475]
コンテクスト内の異なる言語間を交互に交換するコードスイッチの存在が、多言語機能の鍵であることに気付きました。事前学習における言語アライメントのためのコードスイッチングのパワーをよりよく探求するために,合成コードスイッチングの戦略について検討する。
論文参考訳（メタデータ） (2025-04-02T15:09:58Z)
Adapting Whisper for Code-Switching through Encoding Refining and Language-Aware Decoding [27.499426765845705]
コードスイッチング自動音声認識(ASR)はアクセント、聴覚的類似性、シームレスな言語スイッチによる言語混乱による課題に直面している。我々は,大規模多言語事前学習音声認識モデルであるWhisperを,エンコーダ部とデコーダ部の両方からCSに適応させる。
論文参考訳（メタデータ） (2024-12-21T07:06:44Z)
Zero Resource Code-switched Speech Benchmark Using Speech Utterance Pairs For Multiple Spoken Languages [49.6922490267701]
我々は,自己教師型音声エンコーダのコード切替能力を評価するために,ゼロリソースコード切替音声ベンチマークを導入した。本稿では,音声エンコーダのコードスイッチング能力を評価するために,離散単位に基づく言語モデリングのベースラインシステムを紹介する。
論文参考訳（メタデータ） (2023-10-04T17:58:11Z)
Code-Switching Text Generation and Injection in Mandarin-English ASR [57.57570417273262]
業界で広く使われているストリーミングモデルTransformer-Transducer(T-T)の性能向上のためのテキスト生成とインジェクションについて検討する。まず、コードスイッチングテキストデータを生成し、テキスト-to-Speech(TTS)変換または暗黙的に音声とテキストの潜在空間を結び付けることによって、T-Tモデルに生成されたテキストを明示的に注入する戦略を提案する。実際のマンダリン・イングリッシュ音声の1,800時間を含むデータセットを用いて訓練したT-Tモデルの実験結果から,生成したコードスイッチングテキストを注入する手法により,T-Tモデルの性能が著しく向上することが示された。
論文参考訳（メタデータ） (2023-03-20T09:13:27Z)
Streaming End-to-End Multilingual Speech Recognition with Joint Language Identification [14.197869575012925]
本稿では、フレーム単位の言語識別子(LID)予測器を統合することにより、カスケードエンコーダに基づくリカレントニューラルネットワークトランスデューサ(RNN-T)モデルの構造を変更することを提案する。カスケードエンコーダ付きRNN-Tは、右コンテキストのないファーストパス復号法を用いて低レイテンシでストリーミングASRを実現し、右コンテキストの長いセカンドパス復号法を用いて低ワード誤り率(WER)を実現する。 9言語ローカライズされた音声検索データセットの実験結果から,提案手法は平均96.2%のLID予測精度と2次パスWERを実現していることがわかった。
論文参考訳（メタデータ） (2022-09-13T15:10:41Z)
Reducing language context confusion for end-to-end code-switching automatic speech recognition [50.89821865949395]
本稿では,E2E符号スイッチングASRモデルの多言語コンテキストの混同を低減するための言語関連アテンション機構を提案する。複数の言語のそれぞれの注意を計算することにより、豊かな単言語データから言語知識を効率的に伝達することができる。
論文参考訳（メタデータ） (2022-01-28T14:39:29Z)
Fast-MD: Fast Multi-Decoder End-to-End Speech Translation with Non-Autoregressive Hidden Intermediates [59.678108707409606]
我々は、接続性時間分類(CTC)出力に基づいて非自己回帰デコードによりHIを生成する高速MDモデルであるFast-MDを提案し、続いてASRデコーダを提案する。高速MDは、GPUとCPUの「単純なMDモデル」よりも2倍、4倍高速なデコード速度を実現した。
論文参考訳（メタデータ） (2021-09-27T05:21:30Z)
Arabic Code-Switching Speech Recognition using Monolingual Data [13.513655231184261]
自動音声認識(ASR)におけるコードスイッチングは,グローバル化による重要な課題である。最近の多言語ASRの研究は、モノリンガルシステムに対する潜在的な改善を示している。我々は,大規模ASR実験を通じて,ASRの多言語モデリングに関連する重要な課題について検討した。
論文参考訳（メタデータ） (2021-07-04T08:40:49Z)
Using heterogeneity in semi-supervised transcription hypotheses to improve code-switched speech recognition [6.224255518500385]
モノリンガルデータは、コードスウィッチペア内の1つの言語とより密に一致している可能性があることを示す。コードスイッチングASRのための半教師付きアプローチを提案する。
論文参考訳（メタデータ） (2021-06-14T18:39:18Z)
Transformer-Transducers for Code-Switched Speech Recognition [23.281314397784346]
コード切替音声認識のためのトランスフォーマー・トランスデューサモデルアーキテクチャを用いたエンドツーエンドのASRシステムを提案する。まず、コードスイッチングの低リソースシナリオを扱うために、2つの補助損失関数を導入する。第二に,言語ID情報を用いた新しいマスクベースのトレーニング戦略を提案し,文内コードスイッチングに向けたラベルエンコーダのトレーニングを改善する。
論文参考訳（メタデータ） (2020-11-30T17:27:41Z)
Data Augmentation for End-to-end Code-switching Speech Recognition [54.0507000473827]
コードスイッチングデータ拡張のための3つの新しいアプローチが提案されている。既存のコードスイッチングデータによる音声スプライシングと、単語翻訳や単語挿入によって生成された新しいコードスイッチングテキストによるTS。 200時間のMandarin-Britishコードスイッチングデータセットの実験では、コードスイッチングASRを個別に大幅に改善した。
論文参考訳（メタデータ） (2020-11-04T07:12:44Z)
Rnn-transducer with language bias for end-to-end Mandarin-English code-switching speech recognition [58.105818353866354]
本稿では,言語バイアスを考慮したリカレントニューラルネットワークトランスデューサ(RNN-T)モデルを提案する。我々は、CSの点を予測するためにモデルにバイアスを与えるために、言語アイデンティティを使用する。これにより、言語識別情報を転写から直接学習するモデルが促進され、追加のLIDモデルが不要になる。
論文参考訳（メタデータ） (2020-02-19T12:01:33Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。