Fugu-MT 論文翻訳(概要): Bootstrap an end-to-end ASR system by multilingual training, transfer learning, text-to-text mapping and synthetic audio

論文の概要: Bootstrap an end-to-end ASR system by multilingual training, transfer learning, text-to-text mapping and synthetic audio

arxiv url: http://arxiv.org/abs/2011.12696v2
Date: Fri, 18 Jun 2021 12:12:44 GMT
ステータス: 翻訳完了
システム内更新日: 2022-09-21 03:48:27.240387
Title: Bootstrap an end-to-end ASR system by multilingual training, transfer learning, text-to-text mapping and synthetic audio
Title（参考訳）: 多言語学習,移動学習,テキスト-テキストマッピング,合成音声によるエンドツーエンドASRシステムのブートストラップ
Authors: Manuel Giollo, Deniz Gunceler, Yulan Liu, Daniel Willett
Abstract要約: 限られたデータリソースでの音声認識のブートストラップは、長い間活発な研究領域だった。本稿では,低資源環境下でRNN-Transducerに基づく音声認識システム(ASR)をブートストラップする様々な手法の有効性について検討する。実験では,ASR後のテキスト・テキスト・マッピングと合成音声を用いた多言語モデルからの変換学習が付加的な改善をもたらすことを示した。
参考スコア（独自算出の注目度）: 8.510792628268824
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Bootstrapping speech recognition on limited data resources has been an area of active research for long. The recent transition to all-neural models and end-to-end (E2E) training brought along particular challenges as these models are known to be data hungry, but also came with opportunities around language-agnostic representations derived from multilingual data as well as shared word-piece output representations across languages that share script and roots. We investigate here the effectiveness of different strategies to bootstrap an RNN-Transducer (RNN-T) based automatic speech recognition (ASR) system in the low resource regime, while exploiting the abundant resources available in other languages as well as the synthetic audio from a text-to-speech (TTS) engine. Our experiments demonstrate that transfer learning from a multilingual model, using a post-ASR text-to-text mapping and synthetic audio deliver additive improvements, allowing us to bootstrap a model for a new language with a fraction of the data that would otherwise be needed. The best system achieved a 46% relative word error rate (WER) reduction compared to the monolingual baseline, among which 25% relative WER improvement is attributed to the post-ASR text-to-text mappings and the TTS synthetic data.
Abstract（参考訳）: 限られたデータリソース上での音声認識のブートストラップは、長い間活発な研究領域であった。近年のオールニューラルモデルとエンド・ツー・エンド(E2E)トレーニングは、これらのモデルがデータに飢えていることが知られているため、特定の課題を伴い、多言語データから派生した言語に依存しない表現や、スクリプトとルーツを共有する言語間でのワードピース出力表現に関する機会ももたらした。本稿では,rnn-transducer (rnn-t) ベースの音声認識 (asr) システムを低資源環境下でブートストラップする異なる戦略の有効性について検討し,他言語で利用可能な豊富な資源と,text-to-speech (tts) エンジンからの合成音声を活用する。私たちの実験では、asr後のテキストからテキストへのマッピングと合成オーディオを使った多言語モデルからのトランスファーラーニングが付加的な改善をもたらし、不要なデータのほんの一部で新しい言語のためのモデルをブートストラップできることが示されています。最良システムは単言語ベースラインに比べて46%の単語誤り率(WER)を達成し、25%の相対的なWER改善はASR後のテキスト・テキスト・マッピングとTS合成データによるものである。

関連論文リスト

Align2Speak: Improving TTS for Low Resource Languages via ASR-Guided Online Preference Optimization [13.222167833914924]
自動回帰型多言語TSモデルを新しい言語に適用するためのフレームワークを提案する。我々は、ターゲット言語の韻律的特徴を捉えるために、新しい言語の限られたペアデータに基づいて、このモデルを微調整する。実験により、このパイプラインは低リソース言語で理解不能で話者一貫性のある音声を生成することが示された。
論文参考訳（メタデータ） (2025-09-26T00:28:50Z)
Whisper-LM: Improving ASR Models with Language Models for Low-Resource Languages [0.43498389175652036]
本研究は、従来の言語モデルと新しい言語モデルと微調整されたWhisperモデルを統合し、あまり一般的でない言語での性能を高める。我々は、特に低リソースシナリオにおいて、単語エラー率を大幅に改善したことを示す。統合はすべてのモデルサイズに確実に貢献するが、改善の程度は様々であり、最適化された言語モデルパラメータの重要性を強調している。
論文参考訳（メタデータ） (2025-03-30T18:03:52Z)
Improving Speech Emotion Recognition in Under-Resourced Languages via Speech-to-Speech Translation with Bootstrapping Data Selection [49.27067541740956]
音声感情認識(SER)は、人間とコンピュータの自然な相互作用が可能な汎用AIエージェントを開発する上で重要な要素である。英語や中国語以外の言語でラベル付きデータが不足しているため、堅牢な多言語SERシステムの構築は依然として困難である。本稿では,低SERリソース言語におけるSERの性能向上のための手法を提案する。
論文参考訳（メタデータ） (2024-09-17T08:36:45Z)
A multilingual training strategy for low resource Text to Speech [5.109810774427171]
ソーシャルメディアからのデータを、小さなTSデータセット構築に利用することができるか、また、言語間移動学習がこの種のデータに有効かどうかを検討する。そこで本稿では,対象とする低リソース言語に対するTSモデルをトレーニングするために,外国語からのデータをどのように選択し,プールするかを検討する。以上の結果から,多言語事前学習は単言語事前学習よりも,生成した音声の明瞭さと自然性を高めることが示唆された。
論文参考訳（メタデータ） (2024-09-02T12:53:01Z)
Learning Cross-lingual Mappings for Data Augmentation to Improve Low-Resource Speech Recognition [31.575930914290762]
言語間リソースの爆発は、低リソース言語のデータの不足を補う効果的な方法である。エンドツーエンド音声認識のための学習可能な言語間マッピングの概念を拡張した。その結果,任意のソース言語 ASR モデルを用いて,低リソースターゲット言語認識を行うことが可能であることが示唆された。
論文参考訳（メタデータ） (2023-06-14T15:24:31Z)
Learning to Speak from Text: Zero-Shot Multilingual Text-to-Speech with Unsupervised Text Pretraining [65.30528567491984]
本稿では,対象言語に対するテキストのみのデータを用いたゼロショット多言語TS法を提案する。テキストのみのデータを使用することで、低リソース言語向けのTSシステムの開発が可能になる。評価の結果,文字誤り率が12%未満のゼロショットTSは,見当たらない言語では高い知能性を示した。
論文参考訳（メタデータ） (2023-01-30T00:53:50Z)
When Is TTS Augmentation Through a Pivot Language Useful? [26.084140117526488]
我々は,高出力のピボット言語のための訓練されたTSシステムを用いて,ターゲット言語からテキストを実行することによって,合成音声を生成することを提案する。数千の合成TSテキスト音声ペアを使用し、実際のデータを複製して最適な結果を得る。これらの発見の応用は、2つの低リソース言語に対してそれぞれ64.5%と45.0%の文字誤り低減率(CERR)を改善する。
論文参考訳（メタデータ） (2022-07-20T13:33:41Z)
Adaptive Activation Network For Low Resource Multilingual Speech Recognition [30.460501537763736]
ASRモデルの上位層に適応的アクティベーションネットワークを導入する。また,(1)クロス言語学習,(2)アクティベーション関数をソース言語からターゲット言語に置き換える,(2)多言語学習という2つの手法を提案する。 IARPA Babelデータセットに関する実験により、我々のアプローチは、オフスクラッチトレーニングや従来のボトルネック機能に基づく手法よりも優れていることを示した。
論文参考訳（メタデータ） (2022-05-28T04:02:59Z)
ASR data augmentation in low-resource settings using cross-lingual multi-speaker TTS and cross-lingual voice conversion [49.617722668505834]
提案手法は,モデル学習中に1つの話者のみを用いて音声合成と音声変換を行い,ASRシステムの改善を可能にする。対象言語における1つの実話者のみを用いてデータ拡張法を用いて、有望なASRトレーニング結果を得ることが可能である。
論文参考訳（メタデータ） (2022-03-29T11:55:30Z)
Cross-lingual Transfer for Speech Processing using Acoustic Language Similarity [81.51206991542242]
言語間の移動は、このデジタル分割を橋渡しする魅力的な方法を提供する。現在の言語間アルゴリズムは、テキストベースのタスクや音声関連タスクを低リソース言語で実現している。本稿では,数百の言語をまたがる音響的言語間移動対を効率的に同定する言語類似性手法を提案する。
論文参考訳（メタデータ） (2021-11-02T01:55:17Z)
LRSpeech: Extremely Low-Resource Speech Synthesis and Recognition [148.43282526983637]
データコストの低い言語のためのTLSおよびASRシステムであるLSpeechを開発した。実験言語(英語)と真の低リソース言語(リトアニア語)で実験を行い,LRSpeechの有効性を検証する。現在、より稀な言語でTSをサポートするために、商用のクラウド音声サービスにLSpeechをデプロイしています。
論文参考訳（メタデータ） (2020-08-09T08:16:33Z)
Meta-Transfer Learning for Code-Switched Speech Recognition [72.84247387728999]
低リソース環境下でのコード切替音声認識システムにおける学習を伝達するメタトランスファー学習法を提案する。本モデルでは,コードスイッチングデータに最適化を条件付けることにより,個々の言語を識別し,混合言語音声をよりよく認識できるように変換する。
論文参考訳（メタデータ） (2020-04-29T14:27:19Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。