Fugu-MT 論文翻訳(概要): Semi-supervised Development of ASR Systems for Multilingual Code-switched Speech in Under-resourced Languages

論文の概要: Semi-supervised Development of ASR Systems for Multilingual Code-switched Speech in Under-resourced Languages

arxiv url: http://arxiv.org/abs/2003.03135v1
Date: Fri, 6 Mar 2020 11:08:38 GMT
ステータス: 翻訳完了
システム内更新日: 2022-12-26 01:55:20.420316
Title: Semi-supervised Development of ASR Systems for Multilingual Code-switched Speech in Under-resourced Languages
Title（参考訳）: 多言語コード切り換え音声のための半教師付きasrシステムの開発
Authors: Astik Biswas, Emre Y{\i}lmaz, Febe de Wet, Ewald van der Westhuizen, Thomas Niesler
Abstract要約: 2つのアプローチは、南アフリカの5つの言語で、未ソースでコード変更されたスピーチであると考えられている。第1は、4つの異なる言語対に対応する4つの別々のバイリンガル自動音声認識器を構成する。 2つ目は、すべての言語を表す単一の、統一された5言語ASRシステムである。
参考スコア（独自算出の注目度）: 19.569525304938033
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: This paper reports on the semi-supervised development of acoustic and language models for under-resourced, code-switched speech in five South African languages. Two approaches are considered. The first constructs four separate bilingual automatic speech recognisers (ASRs) corresponding to four different language pairs between which speakers switch frequently. The second uses a single, unified, five-lingual ASR system that represents all the languages (English, isiZulu, isiXhosa, Setswana and Sesotho). We evaluate the effectiveness of these two approaches when used to add additional data to our extremely sparse training sets. Results indicate that batch-wise semi-supervised training yields better results than a non-batch-wise approach. Furthermore, while the separate bilingual systems achieved better recognition performance than the unified system, they benefited more from pseudo-labels generated by the five-lingual system than from those generated by the bilingual systems.
Abstract（参考訳）: 本稿では,南アフリカ語5言語における音声・言語モデルの半教師付き開発について報告する。 2つのアプローチが考えられる。 1つ目は、話者が頻繁に切り替える4つの異なる言語対に対応する4つの別々のバイリンガル自動音声認識器(ASR)を構成する。 2つ目は、すべての言語(英語、isiZulu、isiXhosa、Seswana、Sesotho)を表す単一の5言語ASRシステムである。極めて疎いトレーニングセットに追加データを追加する際に,これら2つのアプローチの有効性を評価した。その結果,バッチ的半教師付きトレーニングは非バッチ的アプローチよりも優れた結果が得られることがわかった。さらに,両言語系は統一システムよりも認識性能が優れていたが,両言語系が生成するシステムよりも,五言語系が生成する擬似ラベルの恩恵を受けていた。

関連論文リスト

Efficient Multilingual ASR Finetuning via LoRA Language Experts [59.27778147311189]
本稿では,WhisperをベースとしたLoRA言語エキスパートによる多言語ASRをカスタマイズするための効率的な微調整フレームワークを提案する。 LoRAエキスパート融合や知識蒸留により,本手法は従来の微調整法よりも目標言語での認識性能が向上する。実験の結果,提案モデルでは,言語認識および言語認識のシナリオにおいて,約10%と15%の性能向上が得られた。
論文参考訳（メタデータ） (2025-06-11T07:06:27Z)
Enhancing Multilingual ASR for Unseen Languages via Language Embedding Modeling [50.62091603179394]
最も先進的なASRモデルの1つであるWhisperは99の言語を効果的に扱う。しかし、ウィスパーは未確認の言語と戦っているが、それらは事前訓練には含まれていない。本研究では,これらの関係を利用して未知言語上でのASR性能を向上させる手法を提案する。
論文参考訳（メタデータ） (2024-12-21T04:05:43Z)
Improving Speech Emotion Recognition in Under-Resourced Languages via Speech-to-Speech Translation with Bootstrapping Data Selection [49.27067541740956]
音声感情認識(SER)は、人間とコンピュータの自然な相互作用が可能な汎用AIエージェントを開発する上で重要な要素である。英語や中国語以外の言語でラベル付きデータが不足しているため、堅牢な多言語SERシステムの構築は依然として困難である。本稿では,低SERリソース言語におけるSERの性能向上のための手法を提案する。
論文参考訳（メタデータ） (2024-09-17T08:36:45Z)
A multi-speaker multi-lingual voice cloning system based on vits2 for limmits 2024 challenge [16.813582262700415]
この課題は,音声クローニング機能を備えた多言語多言語Indic Text-to-Speechシステムの構築である。このシステムは、課題データを用いて訓練され、ターゲットスピーカー上で数発の音声クローンを行うための微調整が行われた。
論文参考訳（メタデータ） (2024-06-22T10:49:36Z)
Hindi as a Second Language: Improving Visually Grounded Speech with Semantically Similar Samples [89.16814518860357]
本研究の目的は,多言語の観点からの視覚的基盤音声モデル(VGS)の学習を検討することである。この研究における重要な貢献は、低リソース言語の性能を向上させるために、バイリンガルな視覚的基盤を持つ音声モデルにおける高リソース言語のパワーを活用することである。
論文参考訳（メタデータ） (2023-03-30T16:34:10Z)
LAE: Language-Aware Encoder for Monolingual and Multilingual ASR [87.74794847245536]
言語固有の情報を混在させることにより,両状況に対処する新しい言語対応エンコーダ (LAE) アーキテクチャを提案する。マンダリン・イングリッシュ・コードスウィッチ音声を用いた実験により,LAEはフレームレベルで異なる言語を識別できることが示唆された。
論文参考訳（メタデータ） (2022-06-05T04:03:12Z)
Bilingual End-to-End ASR with Byte-Level Subwords [4.268218327369146]
文字レベル、バイトレベル、バイトペア符号化(BPE)、バイトレベルバイトペア符号化(BBPE)など、さまざまな表現について検討する。我々は,発話に基づくバイリンガルASRをサポートする単一エンドツーエンドモデルの開発に注力する。ペナルティスキーム付きBBPEは,少ない出力と少ないパラメータであっても,発話ベースのバイリンガルASR性能を2%から5%向上できることがわかった。
論文参考訳（メタデータ） (2022-05-01T15:01:01Z)
Code Switched and Code Mixed Speech Recognition for Indic languages [0.0]
多言語自動音声認識(ASR)システムの訓練は、音響情報と語彙情報が典型的には言語固有のものであるため困難である。言語識別(LID)に基づく一言語モデルとエンドツーエンドの多言語音声認識システムの性能を比較した。また,Hindi- English と Bengali- English の相似解法を提案し,それぞれ 21.77 と 28.27 の WER を実現する。
論文参考訳（メタデータ） (2022-03-30T18:09:28Z)
Exploring Teacher-Student Learning Approach for Multi-lingual Speech-to-Intent Classification [73.5497360800395]
複数の言語をサポートするエンドツーエンドシステムを開発した。我々は、事前訓練された多言語自然言語処理モデルからの知識を利用する。
論文参考訳（メタデータ） (2021-09-28T04:43:11Z)
BiToD: A Bilingual Multi-Domain Dataset For Task-Oriented Dialogue Modeling [52.99188200886738]
BiToDは、エンドツーエンドのタスク指向対話モデリングのための最初のバイリンガルなマルチドメインデータセットである。 BiToDには、大規模で現実的なバイリンガル知識ベースを持つ7k以上のマルチドメイン対話(144k発声)が含まれている。
論文参考訳（メタデータ） (2021-06-05T03:38:42Z)
Dual Script E2E framework for Multilingual and Code-Switching ASR [4.697788649564087]
インド語のための多言語およびコードスイッチングASRシステムを訓練する。テキスト音声合成の結果に触発されて、私たちは社内ルールベースの共通ラベルセット(CLS)表現を使用する。 Indic ASR Challenge 2021の多言語およびコードスイッチングタスクについて,本研究の結果を示す。
論文参考訳（メタデータ） (2021-06-02T18:08:27Z)
Acoustics Based Intent Recognition Using Discovered Phonetic Units for Low Resource Languages [51.0542215642794]
本稿では,検出された音素単位を意図分類に用いる新しい音響に基づく意図認識システムを提案する。我々は,2つの言語群 – インディカル言語とロマンス言語 – に対する2つの異なる意図認識タスクの結果を提示する。
論文参考訳（メタデータ） (2020-11-07T00:35:31Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。