論文の概要: Semi-supervised Development of ASR Systems for Multilingual
Code-switched Speech in Under-resourced Languages
- arxiv url: http://arxiv.org/abs/2003.03135v1
- Date: Fri, 6 Mar 2020 11:08:38 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-26 01:55:20.420316
- Title: Semi-supervised Development of ASR Systems for Multilingual
Code-switched Speech in Under-resourced Languages
- Title(参考訳): 多言語コード切り換え音声のための半教師付きasrシステムの開発
- Authors: Astik Biswas, Emre Y{\i}lmaz, Febe de Wet, Ewald van der Westhuizen,
Thomas Niesler
- Abstract要約: 2つのアプローチは、南アフリカの5つの言語で、未ソースでコード変更されたスピーチであると考えられている。
第1は、4つの異なる言語対に対応する4つの別々のバイリンガル自動音声認識器を構成する。
2つ目は、すべての言語を表す単一の、統一された5言語ASRシステムである。
- 参考スコア(独自算出の注目度): 19.569525304938033
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper reports on the semi-supervised development of acoustic and
language models for under-resourced, code-switched speech in five South African
languages. Two approaches are considered. The first constructs four separate
bilingual automatic speech recognisers (ASRs) corresponding to four different
language pairs between which speakers switch frequently. The second uses a
single, unified, five-lingual ASR system that represents all the languages
(English, isiZulu, isiXhosa, Setswana and Sesotho). We evaluate the
effectiveness of these two approaches when used to add additional data to our
extremely sparse training sets. Results indicate that batch-wise
semi-supervised training yields better results than a non-batch-wise approach.
Furthermore, while the separate bilingual systems achieved better recognition
performance than the unified system, they benefited more from pseudo-labels
generated by the five-lingual system than from those generated by the bilingual
systems.
- Abstract(参考訳): 本稿では,南アフリカ語5言語における音声・言語モデルの半教師付き開発について報告する。
2つのアプローチが考えられる。
1つ目は、話者が頻繁に切り替える4つの異なる言語対に対応する4つの別々のバイリンガル自動音声認識器(ASR)を構成する。
2つ目は、すべての言語(英語、isiZulu、isiXhosa、Seswana、Sesotho)を表す単一の5言語ASRシステムである。
極めて疎いトレーニングセットに追加データを追加する際に,これら2つのアプローチの有効性を評価した。
その結果,バッチ的半教師付きトレーニングは非バッチ的アプローチよりも優れた結果が得られることがわかった。
さらに,両言語系は統一システムよりも認識性能が優れていたが,両言語系が生成するシステムよりも,五言語系が生成する擬似ラベルの恩恵を受けていた。
関連論文リスト
- Hindi as a Second Language: Improving Visually Grounded Speech with
Semantically Similar Samples [89.16814518860357]
本研究の目的は,多言語の観点からの視覚的基盤音声モデル(VGS)の学習を検討することである。
この研究における重要な貢献は、低リソース言語の性能を向上させるために、バイリンガルな視覚的基盤を持つ音声モデルにおける高リソース言語のパワーを活用することである。
論文 参考訳(メタデータ) (2023-03-30T16:34:10Z) - LAE: Language-Aware Encoder for Monolingual and Multilingual ASR [87.74794847245536]
言語固有の情報を混在させることにより,両状況に対処する新しい言語対応エンコーダ (LAE) アーキテクチャを提案する。
マンダリン・イングリッシュ・コードスウィッチ音声を用いた実験により,LAEはフレームレベルで異なる言語を識別できることが示唆された。
論文 参考訳(メタデータ) (2022-06-05T04:03:12Z) - Bilingual End-to-End ASR with Byte-Level Subwords [4.268218327369146]
文字レベル、バイトレベル、バイトペア符号化(BPE)、バイトレベルバイトペア符号化(BBPE)など、さまざまな表現について検討する。
我々は,発話に基づくバイリンガルASRをサポートする単一エンドツーエンドモデルの開発に注力する。
ペナルティスキーム付きBBPEは,少ない出力と少ないパラメータであっても,発話ベースのバイリンガルASR性能を2%から5%向上できることがわかった。
論文 参考訳(メタデータ) (2022-05-01T15:01:01Z) - Code Switched and Code Mixed Speech Recognition for Indic languages [0.0]
多言語自動音声認識(ASR)システムの訓練は、音響情報と語彙情報が典型的には言語固有のものであるため困難である。
言語識別(LID)に基づく一言語モデルとエンドツーエンドの多言語音声認識システムの性能を比較した。
また,Hindi- English と Bengali- English の相似解法を提案し,それぞれ 21.77 と 28.27 の WER を実現する。
論文 参考訳(メタデータ) (2022-03-30T18:09:28Z) - Exploring Teacher-Student Learning Approach for Multi-lingual
Speech-to-Intent Classification [73.5497360800395]
複数の言語をサポートするエンドツーエンドシステムを開発した。
我々は、事前訓練された多言語自然言語処理モデルからの知識を利用する。
論文 参考訳(メタデータ) (2021-09-28T04:43:11Z) - Investigations on Speech Recognition Systems for Low-Resource Dialectal
Arabic-English Code-Switching Speech [32.426525641734344]
コードスイッチによるエジプト・アラビア英語自動音声認識(ASR)に関する研究について述べる。
DNNベースのハイブリッドモデルとTransformerベースのエンドツーエンドモデルを用いて,ASRシステムを構築した。
両システムの出力を組み合わせることで,認識を向上できることを示す。
論文 参考訳(メタデータ) (2021-08-29T17:23:30Z) - BiToD: A Bilingual Multi-Domain Dataset For Task-Oriented Dialogue
Modeling [52.99188200886738]
BiToDは、エンドツーエンドのタスク指向対話モデリングのための最初のバイリンガルなマルチドメインデータセットである。
BiToDには、大規模で現実的なバイリンガル知識ベースを持つ7k以上のマルチドメイン対話(144k発声)が含まれている。
論文 参考訳(メタデータ) (2021-06-05T03:38:42Z) - Dual Script E2E framework for Multilingual and Code-Switching ASR [4.697788649564087]
インド語のための多言語およびコードスイッチングASRシステムを訓練する。
テキスト音声合成の結果に触発されて、私たちは社内ルールベースの共通ラベルセット(CLS)表現を使用する。
Indic ASR Challenge 2021の多言語およびコードスイッチングタスクについて,本研究の結果を示す。
論文 参考訳(メタデータ) (2021-06-02T18:08:27Z) - Acoustics Based Intent Recognition Using Discovered Phonetic Units for
Low Resource Languages [51.0542215642794]
本稿では,検出された音素単位を意図分類に用いる新しい音響に基づく意図認識システムを提案する。
我々は,2つの言語群 – インディカル言語とロマンス言語 – に対する2つの異なる意図認識タスクの結果を提示する。
論文 参考訳(メタデータ) (2020-11-07T00:35:31Z) - Unsupervised Cross-lingual Representation Learning for Speech
Recognition [63.85924123692923]
XLSRは、複数の言語における音声の生波形から1つのモデルを事前学習することで、言語間音声表現を学習する。
我々は、マスク付き潜在音声表現よりも対照的なタスクを解くことで訓練されたwav2vec 2.0を構築した。
実験により、言語間事前学習はモノリンガル事前訓練よりも著しく優れていることが示された。
論文 参考訳(メタデータ) (2020-06-24T18:25:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。