論文の概要: Augmenting Images for ASR and TTS through Single-loop and Dual-loop
Multimodal Chain Framework
- arxiv url: http://arxiv.org/abs/2011.02099v1
- Date: Wed, 4 Nov 2020 02:26:02 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-29 22:50:19.423205
- Title: Augmenting Images for ASR and TTS through Single-loop and Dual-loop
Multimodal Chain Framework
- Title(参考訳): シングルループおよびデュアルループマルチモーダルチェーンフレームワークによるasrおよびttsの画像拡張
- Authors: Johanes Effendi, Andros Tjandra, Sakriani Sakti, Satoshi Nakamura
- Abstract要約: 画像生成(IG)によるマルチモーダルマシンチェーンフレームワークの改良
複数話者自然言語データに基づく単一ループおよび二重ループアーキテクチャを用いて,ASRおよびTSの画像データの拡張の可能性を検討する。
- 参考スコア(独自算出の注目度): 26.326043261200862
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Previous research has proposed a machine speech chain to enable automatic
speech recognition (ASR) and text-to-speech synthesis (TTS) to assist each
other in semi-supervised learning and to avoid the need for a large amount of
paired speech and text data. However, that framework still requires a large
amount of unpaired (speech or text) data. A prototype multimodal machine chain
was then explored to further reduce the need for a large amount of unpaired
data, which could improve ASR or TTS even when no more speech or text data were
available. Unfortunately, this framework relied on the image retrieval (IR)
model, and thus it was limited to handling only those images that were already
known during training. Furthermore, the performance of this framework was only
investigated with single-speaker artificial speech data. In this study, we
revamp the multimodal machine chain framework with image generation (IG) and
investigate the possibility of augmenting image data for ASR and TTS using
single-loop and dual-loop architectures on multispeaker natural speech data.
Experimental results revealed that both single-loop and dual-loop multimodal
chain frameworks enabled ASR and TTS to improve their performance using an
image-only dataset.
- Abstract(参考訳): 従来,自動音声認識(ASR)とテキスト音声合成(TTS)を併用して,半教師付き学習において相互に支援し,大量のペア音声とテキストデータの必要性を回避するマシン音声認識チェーンが提案されてきた。
しかし、このフレームワークには大量の非ペア(音声またはテキスト)データが必要である。
プロトタイプのマルチモーダルマシンチェーンは、より多くの未ペアデータの必要性を低減し、音声やテキストデータが得られなくても、ASRやTSが改善される可能性がある。
残念ながら、このフレームワークは画像検索(IR)モデルに依存しており、トレーニング中にすでに知られていた画像のみを扱うことに限られていた。
さらに,この枠組みの性能は単一話者人工音声データでのみ検討された。
本研究では、画像生成(IG)によるマルチモーダルマシンチェーンフレームワークを改良し、マルチスピーカ自然言語データに基づく単一ループおよびデュアルループアーキテクチャを用いて、ASRおよびTSの画像データの拡張の可能性を検討する。
実験の結果、シングルループとデュアルループのマルチモーダルチェーンフレームワークの両方が、画像のみのデータセットを使用して、ASRとTSの性能改善を可能にした。
関連論文リスト
- Hard-Synth: Synthesizing Diverse Hard Samples for ASR using Zero-Shot TTS and LLM [48.71951982716363]
テキスト音声合成(TTS)モデルは自動音声認識(ASR)システムを強化するために広く採用されている。
我々は,大規模言語モデル(LLM)と高度なゼロショットTSを利用する新しいASRデータ拡張手法であるHard-Synthを提案する。
我々のアプローチでは、追加のテキストデータに頼ることなく、書き直しによる多様なドメイン内テキストを生成するためにLLMを用いる。
論文 参考訳(メタデータ) (2024-11-20T09:49:37Z) - VHASR: A Multimodal Speech Recognition System With Vision Hotwords [74.94430247036945]
VHASRは、視覚をホットワードとして使用し、モデルの音声認識能力を強化するマルチモーダル音声認識システムである。
VHASRは、画像のキー情報を効果的に利用して、モデルの音声認識能力を高めることができる。
論文 参考訳(メタデータ) (2024-10-01T16:06:02Z) - Braille-to-Speech Generator: Audio Generation Based on Joint Fine-Tuning of CLIP and Fastspeech2 [0.0]
中国語の文脈に基づく画像合成フレームワークCLIP-KNN-Fastspeech2が構築された。
このフレームワークは、複数の基本モデルを統合し、独立した事前学習と共同微調整の戦略を採用する。
複数の公開データセットの実験的結果は、BLEU4、FAD(Fr'echet Audio Distance)、WER(Word Error Ratio)、推論速度などの客観的指標を改善したことを示している。
論文 参考訳(メタデータ) (2024-07-19T11:18:44Z) - Cross-Speaker Encoding Network for Multi-Talker Speech Recognition [74.97576062152709]
Cross-MixSpeaker
ネットワークは、話者間の表現を集約することでSIMOモデルの制限に対処する。
ネットワークはSOTと統合され、SIMOとSISOの両方の利点を利用する。
論文 参考訳(メタデータ) (2024-01-08T16:37:45Z) - Improving Audio-Visual Speech Recognition by Lip-Subword Correlation
Based Visual Pre-training and Cross-Modal Fusion Encoder [58.523884148942166]
本稿では,事前学習および微調整訓練の枠組みの下で,音声視覚音声認識(AVSR)を改善するための2つの新しい手法を提案する。
まず, マンダリンにおける口唇形状と音節レベルサブワード単位の相関について検討し, 口唇形状から良好なフレームレベル音節境界を確立する。
次に,音声誘導型クロスモーダルフュージョンエンコーダ(CMFE)ニューラルネットワークを提案する。
論文 参考訳(メタデータ) (2023-08-14T08:19:24Z) - Enhanced Direct Speech-to-Speech Translation Using Self-supervised
Pre-training and Data Augmentation [76.13334392868208]
直接音声音声変換(S2ST)モデルは、データ不足の問題に悩まされる。
本研究では,この課題に対処するために,ラベルのない音声データとデータ拡張を用いた自己教師付き事前学習について検討する。
論文 参考訳(メタデータ) (2022-04-06T17:59:22Z) - ATCSpeechNet: A multilingual end-to-end speech recognition framework for
air traffic control systems [15.527854608553824]
ATCSpeechNetは、航空交通制御システムにおけるコミュニケーション音声を人間可読テキストに変換する問題に取り組むために提案されている。
特徴工学や辞書を使わずに、音声波形を直接テキストに変換するエンドツーエンドのパラダイムが開発されている。
ATCSpeech corpusの実験結果から,非常に小さなラベル付きコーパスを用いて,提案手法が高い性能を実現することが示された。
論文 参考訳(メタデータ) (2021-02-17T02:27:09Z) - Bootstrap an end-to-end ASR system by multilingual training, transfer
learning, text-to-text mapping and synthetic audio [8.510792628268824]
限られたデータリソースでの音声認識のブートストラップは、長い間活発な研究領域だった。
本稿では,低資源環境下でRNN-Transducerに基づく音声認識システム(ASR)をブートストラップする様々な手法の有効性について検討する。
実験では,ASR後のテキスト・テキスト・マッピングと合成音声を用いた多言語モデルからの変換学習が付加的な改善をもたらすことを示した。
論文 参考訳(メタデータ) (2020-11-25T13:11:32Z) - Semi-supervised Learning for Multi-speaker Text-to-speech Synthesis
Using Discrete Speech Representation [125.59372403631006]
マルチ話者テキスト音声(TTS)のための半教師付き学習手法を提案する。
マルチスピーカTTSモデルは、離散音声表現を備えたエンコーダデコーダフレームワークを用いて、未転写音声から学習することができる。
提案した半教師あり学習手法は,音声データの一部がうるさい場合にも有効であることがわかった。
論文 参考訳(メタデータ) (2020-05-16T15:47:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。