論文の概要: Using heterogeneity in semi-supervised transcription hypotheses to
improve code-switched speech recognition
- arxiv url: http://arxiv.org/abs/2106.07699v1
- Date: Mon, 14 Jun 2021 18:39:18 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-17 10:15:39.018864
- Title: Using heterogeneity in semi-supervised transcription hypotheses to
improve code-switched speech recognition
- Title(参考訳): 半教師付き転写仮説における不均一性を用いた符号切替音声認識の改良
- Authors: Andrew Slottje, Shannon Wotherspoon, William Hartmann, Matthew Snover,
Owen Kimball
- Abstract要約: モノリンガルデータは、コードスウィッチペア内の1つの言語とより密に一致している可能性があることを示す。
コードスイッチングASRのための半教師付きアプローチを提案する。
- 参考スコア(独自算出の注目度): 6.224255518500385
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Modeling code-switched speech is an important problem in automatic speech
recognition (ASR). Labeled code-switched data are rare, so monolingual data are
often used to model code-switched speech. These monolingual data may be more
closely matched to one of the languages in the code-switch pair. We show that
such asymmetry can bias prediction toward the better-matched language and
degrade overall model performance. To address this issue, we propose a
semi-supervised approach for code-switched ASR. We consider the case of
English-Mandarin code-switching, and the problem of using monolingual data to
build bilingual "transcription models'' for annotation of unlabeled
code-switched data. We first build multiple transcription models so that their
individual predictions are variously biased toward either English or Mandarin.
We then combine these biased transcriptions using confidence-based selection.
This strategy generates a superior transcript for semi-supervised training, and
obtains a 19% relative improvement compared to a semi-supervised system that
relies on a transcription model built with only the best-matched monolingual
data.
- Abstract(参考訳): コード切替音声のモデリングは,音声認識(ASR)において重要な問題である。
ラベル付き符号切替データは稀であり、単言語データはしばしば符号切替音声のモデル化に用いられる。
これらの単言語データは、コード-スイッチペアの言語のいずれかとより密接に一致する可能性がある。
このような非対称性は、より適合した言語に対してバイアス予測を行い、全体のモデル性能を低下させる可能性がある。
この問題に対処するために,コードスイッチングASRのための半教師付きアプローチを提案する。
英語と中国語のコードスイッチングの事例と,単言語データを用いて,ラベルなしコード切り換えデータのアノテーションのためのバイリンガル「記述モデル」を構築する問題点について考察した。
まず、複数の転写モデルを構築し、それぞれの予測が英語かマンダリンに偏っているようにします。
次に、これらのバイアス付き転写を信頼に基づく選択で組み合わせます。
この戦略は、半教師付きトレーニングにおいて優れた書き起こしを生成し、最も適合した単言語データのみで構築された転写モデルに依存する半教師付きシステムと比較して19%の相対的な改善が得られる。
関連論文リスト
- Multilingual self-supervised speech representations improve the speech
recognition of low-resource African languages with codeswitching [65.74653592668743]
微細な自己教師型多言語表現は絶対単語誤り率を最大20%削減する。
訓練データに制限のある状況では、自己教師付き表現を微調整することが、より良いパフォーマンスと実行可能なソリューションである。
論文 参考訳(メタデータ) (2023-11-25T17:05:21Z) - The Effect of Alignment Objectives on Code-Switching Translation [0.0]
我々は、ある言語から別の言語への単言語文の翻訳が可能な単一の機械翻訳モデルを訓練する方法を提案している。
このモデルは、人間の意味でのバイリンガルモデルと見なすことができる。
論文 参考訳(メタデータ) (2023-09-10T14:46:31Z) - LAMASSU: Streaming Language-Agnostic Multilingual Speech Recognition and
Translation Using Neural Transducers [71.76680102779765]
自動音声認識(ASR)と音声翻訳(ST)はどちらもモデル構造としてニューラルトランスデューサを使用することができる。
ニューラルトランスデューサを用いた多言語音声認識および翻訳モデルであるLAMASSUを提案する。
論文 参考訳(メタデータ) (2022-11-05T04:03:55Z) - Optimizing Bilingual Neural Transducer with Synthetic Code-switching
Text Generation [10.650573361117669]
半教師付きトレーニングと合成コードスイッチングデータにより、コードスイッチング音声におけるバイリンガルASRシステムを改善することができる。
最終システムは ASCEND English/Mandarin code-switching test set 上で25%混合誤り率 (MER) を達成する。
論文 参考訳(メタデータ) (2022-10-21T19:42:41Z) - Language-agnostic Code-Switching in Sequence-To-Sequence Speech
Recognition [62.997667081978825]
コードスイッチング(Code-Switching, CS)とは、異なる言語の単語やフレーズを交互に使用する現象である。
本稿では,異なるソース言語の音声および対応するラベルを転写する,シンプルで効果的なデータ拡張手法を提案する。
さらに,5,03%のWERによるトレーニング中に見つからない文間言語スイッチにおいて,モデルの性能を向上できることを示す。
論文 参考訳(メタデータ) (2022-10-17T12:15:57Z) - Reducing language context confusion for end-to-end code-switching
automatic speech recognition [50.89821865949395]
本稿では,E2E符号スイッチングASRモデルの多言語コンテキストの混同を低減するための言語関連アテンション機構を提案する。
複数の言語のそれぞれの注意を計算することにより、豊かな単言語データから言語知識を効率的に伝達することができる。
論文 参考訳(メタデータ) (2022-01-28T14:39:29Z) - Exploring Unsupervised Pretraining Objectives for Machine Translation [99.5441395624651]
教師なし言語間事前訓練は、ニューラルマシン翻訳(NMT)の強力な結果を得た
ほとんどのアプローチは、入力の一部をマスキングしてデコーダで再構成することで、シーケンス・ツー・シーケンスアーキテクチャにマスク付き言語モデリング(MLM)を適用する。
マスキングと、実際の(完全な)文に似た入力を生成する代替目的を、文脈に基づいて単語を並べ替えて置き換えることにより比較する。
論文 参考訳(メタデータ) (2021-06-10T10:18:23Z) - One Model, Many Languages: Meta-learning for Multilingual Text-to-Speech [3.42658286826597]
本稿では,文脈パラメータ生成のメタラーニング概念を用いた多言語音声合成手法を提案する。
本モデルでは,言語間で効率的に情報を共有できることが示され,主観的評価テストにより,ベースラインよりも自然な,正確なコードスイッチング音声を生成する。
論文 参考訳(メタデータ) (2020-08-03T10:43:30Z) - Rnn-transducer with language bias for end-to-end Mandarin-English
code-switching speech recognition [58.105818353866354]
本稿では,言語バイアスを考慮したリカレントニューラルネットワークトランスデューサ(RNN-T)モデルを提案する。
我々は、CSの点を予測するためにモデルにバイアスを与えるために、言語アイデンティティを使用する。
これにより、言語識別情報を転写から直接学習するモデルが促進され、追加のLIDモデルが不要になる。
論文 参考訳(メタデータ) (2020-02-19T12:01:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。