論文の概要: A Complementary Joint Training Approach Using Unpaired Speech and Text
for Low-Resource Automatic Speech Recognition
- arxiv url: http://arxiv.org/abs/2204.02023v1
- Date: Tue, 5 Apr 2022 07:02:53 GMT
- ステータス: 処理完了
- システム内更新日: 2022-04-06 14:00:09.053027
- Title: A Complementary Joint Training Approach Using Unpaired Speech and Text
for Low-Resource Automatic Speech Recognition
- Title(参考訳): 低リソース自動音声認識のためのアンペア音声とテキストを用いた相補的合同学習手法
- Authors: Ye-Qian Du, Jie Zhang, Qiu-Shi Zhu, Li-Rong Dai, Ming-Hui Wu, Xin
Fang, Zhou-Wang Yang
- Abstract要約: 非ペアデータを利用して、一般的なシーケンス・ツー・シーケンスモデルをトレーニングする。
音声-疑似ラベルペアと合成音声テキストペアの相補性に着想を得て,補足的関節訓練(CJT)法を提案する。
- 参考スコア(独自算出の注目度): 25.473191378558138
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Unpaired data has shown to be beneficial for low-resource automatic speech
recognition~(ASR), which can be involved in the design of hybrid models with
multi-task training or language model dependent pre-training. In this work, we
leverage unpaired data to train a general sequence-to-sequence model. Unpaired
speech and text are used in the form of data pairs by generating the
corresponding missing parts in prior to model training. Inspired by the
complementarity of speech-PseudoLabel pair and SynthesizedAudio-text pair in
both acoustic features and linguistic features, we propose a complementary
joint training~(CJT) method that trains a model alternatively with two data
pairs. Furthermore, label masking for pseudo-labels and gradient restriction
for synthesized audio are proposed to further cope with the deviations from
real data, termed as CJT++. Experimental results show that compared to
speech-only training, the proposed basic CJT achieves great performance
improvements on clean/other test sets, and the CJT++ re-training yields further
performance enhancements. It is also apparent that the proposed method
outperforms the wav2vec2.0 model with the same model size and beam size,
particularly in extreme low-resource cases.
- Abstract(参考訳): マルチタスクトレーニングや言語モデルに依存した事前学習を伴うハイブリッドモデルの設計に関与できる低リソース自動音声認識~(ASR)において、未ペアデータの有用性が示されている。
本研究では,非ペアデータを利用して一般シーケンスからシーケンスへのモデルを学習する。
モデルトレーニングの前に対応する欠落部分を生成してデータペアの形式で、ペアなしの音声とテキストを使用する。
音声・擬似ラベルペアと合成音声テキストペアの音響的特徴と言語的特徴の相補性から着想を得て,2つのデータペアに代えてモデルを訓練する補足共同学習法(CJT)を提案する。
さらに, 擬似ラベルのラベルマスキングと合成音声の勾配制限により, cjt++ と呼ばれる実データからの逸脱にさらに対処できることを示す。
実験結果から,提案する基本的CJTは,音声のみの学習と比較してクリーン/他のテストセットの性能向上を実現し,CJT++の再学習によりさらなる性能向上が得られた。
提案手法がwav2vec2.0モデルと同一のモデルサイズとビームサイズ、特に極端に低リソースの場合よりも優れていることも明らかである。
関連論文リスト
- High-Fidelity Speech Synthesis with Minimal Supervision: All Using
Diffusion Models [56.00939852727501]
最小教師付き音声合成は、2種類の離散音声表現を組み合わせることでTSを分離する。
非自己回帰フレームワークは、制御可能性を高め、持続拡散モデルは、多様化された韻律表現を可能にする。
論文 参考訳(メタデータ) (2023-09-27T09:27:03Z) - Unsupervised Pre-Training For Data-Efficient Text-to-Speech On Low
Resource Languages [15.32264927462068]
そこで本研究では,大容量の非転写音声データを利用したシーケンス・ツー・シーケンスTSモデルの教師なし事前学習手法を提案する。
主なアイデアは、歪んだものから切り離されたメル・スペクトログラムを再構築するモデルを事前訓練することである。
低リソース言語シナリオにおける提案手法の有効性を実証的に実証した。
論文 参考訳(メタデータ) (2023-03-28T01:26:00Z) - Supervision-Guided Codebooks for Masked Prediction in Speech
Pre-training [102.14558233502514]
自己教師型学習(SSL)における事前学習のマズード予測は,音声認識における顕著な進歩をみせている。
本稿では,自動音声認識(ASR)の性能向上のための2つの教師付きコードブック生成手法を提案する。
論文 参考訳(メタデータ) (2022-06-21T06:08:30Z) - Enhanced Direct Speech-to-Speech Translation Using Self-supervised
Pre-training and Data Augmentation [76.13334392868208]
直接音声音声変換(S2ST)モデルは、データ不足の問題に悩まされる。
本研究では,この課題に対処するために,ラベルのない音声データとデータ拡張を用いた自己教師付き事前学習について検討する。
論文 参考訳(メタデータ) (2022-04-06T17:59:22Z) - JETS: Jointly Training FastSpeech2 and HiFi-GAN for End to End Text to
Speech [7.476901945542385]
本稿では、簡易な訓練パイプラインを持ち、個別に学習したモデルのカスケードを上回り、エンドツーエンドのテキスト音声合成(E2E-TTS)モデルを提案する。
提案モデルでは,アライメントモジュールを用いたFastSpeech2とHiFi-GANを併用する。
LJSpeechコーパスの実験では、提案されたモデルはESPNet2-TTSの最先端実装よりも優れていた。
論文 参考訳(メタデータ) (2022-03-31T07:25:11Z) - Differentiable Duration Modeling for End-to-End Text-to-Speech [6.571447892202893]
並列テキスト音声合成(TTS)モデルは,最近,高速で自然な音声合成を実現している。
本稿では,入力と出力のモノトニックシーケンスを学習するための可変長法を提案する。
本モデルでは,高忠実度合成を,対向学習と全地下構造時間との整合性の組み合わせにより学習する。
論文 参考訳(メタデータ) (2022-03-21T15:14:44Z) - Representative Subset Selection for Efficient Fine-Tuning in
Self-Supervised Speech Recognition [6.450618373898492]
ASRのための自己教師型音声モデルにおいて、効率的な微調整を行うために最適なデータのサブセットを同定する作業を検討する。
自己教師型ASRにおける代表サブセット選択のためのCOWERAGEアルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-03-18T10:12:24Z) - Speaker Embedding-aware Neural Diarization: a Novel Framework for
Overlapped Speech Diarization in the Meeting Scenario [51.5031673695118]
重なり合う音声のダイアリゼーションを単一ラベル予測問題として再構成する。
話者埋め込み認識型ニューラルダイアリゼーション(SEND)システムを提案する。
論文 参考訳(メタデータ) (2022-03-18T06:40:39Z) - Direct speech-to-speech translation with discrete units [64.19830539866072]
本稿では、中間テキスト生成に頼ることなく、ある言語から別の言語に音声を変換する直接音声音声翻訳(S2ST)モデルを提案する。
そこで本稿では,ラベルなし音声コーパスから学習した自己教師付き離散表現の予測を提案する。
対象のテキスト書き起こしが利用可能となると、同一の推論パスで2つのモード出力(音声とテキスト)を同時に生成できる、共同音声認識とテキストトレーニングを備えたマルチタスク学習フレームワークを設計する。
論文 参考訳(メタデータ) (2021-07-12T17:40:43Z) - MixSpeech: Data Augmentation for Low-resource Automatic Speech
Recognition [54.84624870942339]
MixSpeechは、自動音声認識(ASR)のためのミックスアップに基づくシンプルで効果的なデータ拡張方法です。
mixspeechをlas(listen, attend, spell)とtransformerを含む2つのポピュラーなエンドツーエンド音声認識モデルに適用した。
実験の結果,MixSpeechはデータ拡張のないベースラインモデルよりも精度が高いことがわかった。
論文 参考訳(メタデータ) (2021-02-25T03:40:43Z) - Efficiently Fusing Pretrained Acoustic and Linguistic Encoders for
Low-resource Speech Recognition [9.732767611907068]
本研究では,前訓練音響エンコーダ(wav2vec2.0)と前訓練言語エンコーダ(bert)をエンドツーエンドasrモデルに融合する。
本モデルは他のエンドツーエンドモデルに比べてcallhomeコーパスの認識性能が(15時間)向上する。
論文 参考訳(メタデータ) (2021-01-17T16:12:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。