論文の概要: Semi-supervised acoustic and language model training for English-isiZulu
code-switched speech recognition
- arxiv url: http://arxiv.org/abs/2004.04054v1
- Date: Sun, 5 Apr 2020 06:27:29 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-16 12:27:19.993343
- Title: Semi-supervised acoustic and language model training for English-isiZulu
code-switched speech recognition
- Title(参考訳): 英語isiZulu符号切替音声認識のための半教師付き音響・言語モデルトレーニング
- Authors: A. Biswas, F. de Wet, E. van der Westhuizen, T.R. Niesler
- Abstract要約: 本稿では,ソップオペラ音声を用いた英語isiZulu符号スイッチングASRのための半教師付き音響モデルと言語モデルの訓練について分析する。
転写不能な多言語音声の約11時間は、4つのバイリンガルコードスイッチング転写システムを用いて自動的に書き起こされた。
難易度を下げたにもかかわらず、半教師付き言語モデルはASRの性能を向上できなかった。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present an analysis of semi-supervised acoustic and language model
training for English-isiZulu code-switched ASR using soap opera speech.
Approximately 11 hours of untranscribed multilingual speech was transcribed
automatically using four bilingual code-switching transcription systems
operating in English-isiZulu, English-isiXhosa, English-Setswana and
English-Sesotho. These transcriptions were incorporated into the acoustic and
language model training sets. Results showed that the TDNN-F acoustic models
benefit from the additional semi-supervised data and that even better
performance could be achieved by including additional CNN layers. Using these
CNN-TDNN-F acoustic models, a first iteration of semi-supervised training
achieved an absolute mixed-language WER reduction of 3.4%, and a further 2.2%
after a second iteration. Although the languages in the untranscribed data were
unknown, the best results were obtained when all automatically transcribed data
was used for training and not just the utterances classified as
English-isiZulu. Despite reducing perplexity, the semi-supervised language
model was not able to improve the ASR performance.
- Abstract(参考訳): 本稿では,soapオペラ音声を用いた英語-isizulu符号切り換えasrの半教師付き音響・言語モデル学習の分析を行う。
英語-isiZulu, English-isiXhosa, English-Setswana, English-Sesothoの4つのバイリンガルコードスイッチング文字起こしシステムを用いて, 約11時間の無転写多言語音声を自動転写した。
これらの転写は音響モデルと言語モデルトレーニングセットに組み込まれた。
その結果、tdnn-f音響モデルは、追加の半教師付きデータから恩恵を受け、さらに追加のcnn層を含めることでさらに優れた性能が得られることがわかった。
これらのCNN-TDNN-F音響モデルを用いて、セミ教師付きトレーニングの最初のイテレーションは、絶対混合言語WERの3.4%、さらに2回目のイテレーションの2.2%の削減を達成した。
未転写データ中の言語は未知であるが、英語-isizuluに分類された発話だけでなく、すべての自動転写データがトレーニングに使用された場合に最も良い結果を得た。
難易度を下げたにもかかわらず、半教師付き言語モデルはASRの性能を向上できなかった。
関連論文リスト
- Multilingual self-supervised speech representations improve the speech
recognition of low-resource African languages with codeswitching [65.74653592668743]
微細な自己教師型多言語表現は絶対単語誤り率を最大20%削減する。
訓練データに制限のある状況では、自己教師付き表現を微調整することが、より良いパフォーマンスと実行可能なソリューションである。
論文 参考訳(メタデータ) (2023-11-25T17:05:21Z) - INTapt: Information-Theoretic Adversarial Prompt Tuning for Enhanced
Non-Native Speech Recognition [43.228070238684786]
本稿では,自動音声認識システムにおける表現バイアスを軽減するために,インタプタ(Information Theoretic Adversarial Prompt Tuning)を提案する。
インタプタは,(1)原入力とプロンプト連結入力のアクセント特徴依存性を低減するための逆トレーニング,(2)ASR性能を向上させるためのCTC損失を最小限に抑えるトレーニング,の2つの方法で同時に訓練される。
実験の結果,インタプタはL2英語の性能を向上し,L2アクセントとL1アクセントの特徴的類似性を高めることがわかった。
論文 参考訳(メタデータ) (2023-05-25T13:06:01Z) - Language-agnostic Code-Switching in Sequence-To-Sequence Speech
Recognition [62.997667081978825]
コードスイッチング(Code-Switching, CS)とは、異なる言語の単語やフレーズを交互に使用する現象である。
本稿では,異なるソース言語の音声および対応するラベルを転写する,シンプルで効果的なデータ拡張手法を提案する。
さらに,5,03%のWERによるトレーニング中に見つからない文間言語スイッチにおいて,モデルの性能を向上できることを示す。
論文 参考訳(メタデータ) (2022-10-17T12:15:57Z) - Exploiting Cross-domain And Cross-Lingual Ultrasound Tongue Imaging
Features For Elderly And Dysarthric Speech Recognition [55.25565305101314]
調音機能は音響信号歪みに不変であり、音声認識システムにうまく組み込まれている。
本稿では,A2Aモデルにおける24時間TaLコーパスの並列音声・超音波舌画像(UTI)データを利用したクロスドメインおよびクロスランガルA2Aインバージョン手法を提案する。
生成した調音機能を組み込んだ3つのタスクの実験は、ベースラインのTDNNとコンフォーマーASRシステムより一貫して優れていた。
論文 参考訳(メタデータ) (2022-06-15T07:20:28Z) - Mandarin-English Code-switching Speech Recognition with Self-supervised
Speech Representation Models [55.82292352607321]
コードスイッチング(英: Code-switching, CS)は、複数の言語が文内で使用される日常会話において一般的である。
本稿では、最近成功した自己教師付き学習(SSL)手法を用いて、CSを使わずに多くのラベルなし音声データを活用する。
論文 参考訳(メタデータ) (2021-10-07T14:43:35Z) - Exploring Retraining-Free Speech Recognition for Intra-sentential
Code-Switching [17.973043287866986]
本稿では,コードスイッチング(CS)音声認識システムの構築に向けた最初の取り組みについて述べる。
我々は外国語単語の高品質な発音を得るための自動アプローチを設計した。
従来の単言語ASRシステムで得られた単語誤り率を34.4%から55.5%削減する。
論文 参考訳(メタデータ) (2021-08-27T19:15:16Z) - Leveraging neural representations for facilitating access to
untranscribed speech from endangered languages [10.61744395262441]
オーストラリア・アボリジニの7言語とオランダの地方種から選択したデータを用いている。
wav2vec 2.0 Transformerの中間層からの表現は、タスクパフォーマンスに大きな利益をもたらす。
予め訓練された英語モデルを用いて抽出された特徴は、すべての評価言語の検出を改善したが、より良い検出性能は、評価言語の英語との音韻学的類似性と関連していた。
論文 参考訳(メタデータ) (2021-03-26T16:44:08Z) - How Phonotactics Affect Multilingual and Zero-shot ASR Performance [74.70048598292583]
Transformer encoder-decoderモデルは、トレーニング中に提示された言語のIPA転写において、多言語データをうまく活用することが示されている。
我々は,エンコーダデコーダをAMとLMを分離したハイブリッドASRシステムに置き換える。
交叉音韻律のモデル化による利得は限定的であり,強すぎるモデルがゼロショット転送を損なう可能性があることを示す。
論文 参考訳(メタデータ) (2020-10-22T23:07:24Z) - MAM: Masked Acoustic Modeling for End-to-End Speech-to-Text Translation [27.19320167337675]
本稿では,音声側のみで自己教師型で頑健な音声エンコーダを学習する手法を提案する。
Masked Acoustic Modeling (MAM) と呼ばれるこの技術は、E2E-STを改善する代替ソリューションを提供するだけでなく、任意の音響信号に対して事前学習を行うこともできる。
書き起こしを一切使わずに設定すると,MAM予習による+1.1BLEU,+2.3BLEUの平均的改善が達成される。
論文 参考訳(メタデータ) (2020-10-22T05:02:06Z) - Rnn-transducer with language bias for end-to-end Mandarin-English
code-switching speech recognition [58.105818353866354]
本稿では,言語バイアスを考慮したリカレントニューラルネットワークトランスデューサ(RNN-T)モデルを提案する。
我々は、CSの点を予測するためにモデルにバイアスを与えるために、言語アイデンティティを使用する。
これにより、言語識別情報を転写から直接学習するモデルが促進され、追加のLIDモデルが不要になる。
論文 参考訳(メタデータ) (2020-02-19T12:01:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。