論文の概要: Semi-supervised Development of ASR Systems for Multilingual
Code-switched Speech in Under-resourced Languages
- arxiv url: http://arxiv.org/abs/2003.03135v1
- Date: Fri, 6 Mar 2020 11:08:38 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-26 01:55:20.420316
- Title: Semi-supervised Development of ASR Systems for Multilingual
Code-switched Speech in Under-resourced Languages
- Title(参考訳): 多言語コード切り換え音声のための半教師付きasrシステムの開発
- Authors: Astik Biswas, Emre Y{\i}lmaz, Febe de Wet, Ewald van der Westhuizen,
Thomas Niesler
- Abstract要約: 2つのアプローチは、南アフリカの5つの言語で、未ソースでコード変更されたスピーチであると考えられている。
第1は、4つの異なる言語対に対応する4つの別々のバイリンガル自動音声認識器を構成する。
2つ目は、すべての言語を表す単一の、統一された5言語ASRシステムである。
- 参考スコア(独自算出の注目度): 19.569525304938033
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper reports on the semi-supervised development of acoustic and
language models for under-resourced, code-switched speech in five South African
languages. Two approaches are considered. The first constructs four separate
bilingual automatic speech recognisers (ASRs) corresponding to four different
language pairs between which speakers switch frequently. The second uses a
single, unified, five-lingual ASR system that represents all the languages
(English, isiZulu, isiXhosa, Setswana and Sesotho). We evaluate the
effectiveness of these two approaches when used to add additional data to our
extremely sparse training sets. Results indicate that batch-wise
semi-supervised training yields better results than a non-batch-wise approach.
Furthermore, while the separate bilingual systems achieved better recognition
performance than the unified system, they benefited more from pseudo-labels
generated by the five-lingual system than from those generated by the bilingual
systems.
- Abstract(参考訳): 本稿では,南アフリカ語5言語における音声・言語モデルの半教師付き開発について報告する。
2つのアプローチが考えられる。
1つ目は、話者が頻繁に切り替える4つの異なる言語対に対応する4つの別々のバイリンガル自動音声認識器(ASR)を構成する。
2つ目は、すべての言語(英語、isiZulu、isiXhosa、Seswana、Sesotho)を表す単一の5言語ASRシステムである。
極めて疎いトレーニングセットに追加データを追加する際に,これら2つのアプローチの有効性を評価した。
その結果,バッチ的半教師付きトレーニングは非バッチ的アプローチよりも優れた結果が得られることがわかった。
さらに,両言語系は統一システムよりも認識性能が優れていたが,両言語系が生成するシステムよりも,五言語系が生成する擬似ラベルの恩恵を受けていた。
関連論文リスト
- Improving Speech Emotion Recognition in Under-Resourced Languages via Speech-to-Speech Translation with Bootstrapping Data Selection [49.27067541740956]
音声感情認識(SER)は、人間とコンピュータの自然な相互作用が可能な汎用AIエージェントを開発する上で重要な要素である。
英語や中国語以外の言語でラベル付きデータが不足しているため、堅牢な多言語SERシステムの構築は依然として困難である。
本稿では,低SERリソース言語におけるSERの性能向上のための手法を提案する。
論文 参考訳(メタデータ) (2024-09-17T08:36:45Z) - A multi-speaker multi-lingual voice cloning system based on vits2 for limmits 2024 challenge [16.813582262700415]
この課題は,音声クローニング機能を備えた多言語多言語Indic Text-to-Speechシステムの構築である。
このシステムは、課題データを用いて訓練され、ターゲットスピーカー上で数発の音声クローンを行うための微調整が行われた。
論文 参考訳(メタデータ) (2024-06-22T10:49:36Z) - Hindi as a Second Language: Improving Visually Grounded Speech with
Semantically Similar Samples [89.16814518860357]
本研究の目的は,多言語の観点からの視覚的基盤音声モデル(VGS)の学習を検討することである。
この研究における重要な貢献は、低リソース言語の性能を向上させるために、バイリンガルな視覚的基盤を持つ音声モデルにおける高リソース言語のパワーを活用することである。
論文 参考訳(メタデータ) (2023-03-30T16:34:10Z) - LAE: Language-Aware Encoder for Monolingual and Multilingual ASR [87.74794847245536]
言語固有の情報を混在させることにより,両状況に対処する新しい言語対応エンコーダ (LAE) アーキテクチャを提案する。
マンダリン・イングリッシュ・コードスウィッチ音声を用いた実験により,LAEはフレームレベルで異なる言語を識別できることが示唆された。
論文 参考訳(メタデータ) (2022-06-05T04:03:12Z) - Bilingual End-to-End ASR with Byte-Level Subwords [4.268218327369146]
文字レベル、バイトレベル、バイトペア符号化(BPE)、バイトレベルバイトペア符号化(BBPE)など、さまざまな表現について検討する。
我々は,発話に基づくバイリンガルASRをサポートする単一エンドツーエンドモデルの開発に注力する。
ペナルティスキーム付きBBPEは,少ない出力と少ないパラメータであっても,発話ベースのバイリンガルASR性能を2%から5%向上できることがわかった。
論文 参考訳(メタデータ) (2022-05-01T15:01:01Z) - Code Switched and Code Mixed Speech Recognition for Indic languages [0.0]
多言語自動音声認識(ASR)システムの訓練は、音響情報と語彙情報が典型的には言語固有のものであるため困難である。
言語識別(LID)に基づく一言語モデルとエンドツーエンドの多言語音声認識システムの性能を比較した。
また,Hindi- English と Bengali- English の相似解法を提案し,それぞれ 21.77 と 28.27 の WER を実現する。
論文 参考訳(メタデータ) (2022-03-30T18:09:28Z) - Exploring Teacher-Student Learning Approach for Multi-lingual
Speech-to-Intent Classification [73.5497360800395]
複数の言語をサポートするエンドツーエンドシステムを開発した。
我々は、事前訓練された多言語自然言語処理モデルからの知識を利用する。
論文 参考訳(メタデータ) (2021-09-28T04:43:11Z) - BiToD: A Bilingual Multi-Domain Dataset For Task-Oriented Dialogue
Modeling [52.99188200886738]
BiToDは、エンドツーエンドのタスク指向対話モデリングのための最初のバイリンガルなマルチドメインデータセットである。
BiToDには、大規模で現実的なバイリンガル知識ベースを持つ7k以上のマルチドメイン対話(144k発声)が含まれている。
論文 参考訳(メタデータ) (2021-06-05T03:38:42Z) - Dual Script E2E framework for Multilingual and Code-Switching ASR [4.697788649564087]
インド語のための多言語およびコードスイッチングASRシステムを訓練する。
テキスト音声合成の結果に触発されて、私たちは社内ルールベースの共通ラベルセット(CLS)表現を使用する。
Indic ASR Challenge 2021の多言語およびコードスイッチングタスクについて,本研究の結果を示す。
論文 参考訳(メタデータ) (2021-06-02T18:08:27Z) - Acoustics Based Intent Recognition Using Discovered Phonetic Units for
Low Resource Languages [51.0542215642794]
本稿では,検出された音素単位を意図分類に用いる新しい音響に基づく意図認識システムを提案する。
我々は,2つの言語群 – インディカル言語とロマンス言語 – に対する2つの異なる意図認識タスクの結果を提示する。
論文 参考訳(メタデータ) (2020-11-07T00:35:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。