Fugu-MT 論文翻訳(概要): Augmenting Images for ASR and TTS through Single-loop and Dual-loop Multimodal Chain Framework

論文の概要: Augmenting Images for ASR and TTS through Single-loop and Dual-loop Multimodal Chain Framework

arxiv url: http://arxiv.org/abs/2011.02099v1
Date: Wed, 4 Nov 2020 02:26:02 GMT
ステータス: 翻訳完了
システム内更新日: 2022-09-29 22:50:19.423205
Title: Augmenting Images for ASR and TTS through Single-loop and Dual-loop Multimodal Chain Framework
Title（参考訳）: シングルループおよびデュアルループマルチモーダルチェーンフレームワークによるasrおよびttsの画像拡張
Authors: Johanes Effendi, Andros Tjandra, Sakriani Sakti, Satoshi Nakamura
Abstract要約: 画像生成(IG)によるマルチモーダルマシンチェーンフレームワークの改良複数話者自然言語データに基づく単一ループおよび二重ループアーキテクチャを用いて,ASRおよびTSの画像データの拡張の可能性を検討する。
参考スコア（独自算出の注目度）: 26.326043261200862
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Previous research has proposed a machine speech chain to enable automatic speech recognition (ASR) and text-to-speech synthesis (TTS) to assist each other in semi-supervised learning and to avoid the need for a large amount of paired speech and text data. However, that framework still requires a large amount of unpaired (speech or text) data. A prototype multimodal machine chain was then explored to further reduce the need for a large amount of unpaired data, which could improve ASR or TTS even when no more speech or text data were available. Unfortunately, this framework relied on the image retrieval (IR) model, and thus it was limited to handling only those images that were already known during training. Furthermore, the performance of this framework was only investigated with single-speaker artificial speech data. In this study, we revamp the multimodal machine chain framework with image generation (IG) and investigate the possibility of augmenting image data for ASR and TTS using single-loop and dual-loop architectures on multispeaker natural speech data. Experimental results revealed that both single-loop and dual-loop multimodal chain frameworks enabled ASR and TTS to improve their performance using an image-only dataset.
Abstract（参考訳）: 従来,自動音声認識(ASR)とテキスト音声合成(TTS)を併用して,半教師付き学習において相互に支援し,大量のペア音声とテキストデータの必要性を回避するマシン音声認識チェーンが提案されてきた。しかし、このフレームワークには大量の非ペア(音声またはテキスト)データが必要である。プロトタイプのマルチモーダルマシンチェーンは、より多くの未ペアデータの必要性を低減し、音声やテキストデータが得られなくても、ASRやTSが改善される可能性がある。残念ながら、このフレームワークは画像検索(IR)モデルに依存しており、トレーニング中にすでに知られていた画像のみを扱うことに限られていた。さらに,この枠組みの性能は単一話者人工音声データでのみ検討された。本研究では、画像生成(IG)によるマルチモーダルマシンチェーンフレームワークを改良し、マルチスピーカ自然言語データに基づく単一ループおよびデュアルループアーキテクチャを用いて、ASRおよびTSの画像データの拡張の可能性を検討する。実験の結果、シングルループとデュアルループのマルチモーダルチェーンフレームワークの両方が、画像のみのデータセットを使用して、ASRとTSの性能改善を可能にした。

関連論文リスト

Hard-Synth: Synthesizing Diverse Hard Samples for ASR using Zero-Shot TTS and LLM [48.71951982716363]
テキスト音声合成(TTS)モデルは自動音声認識(ASR)システムを強化するために広く採用されている。我々は,大規模言語モデル(LLM)と高度なゼロショットTSを利用する新しいASRデータ拡張手法であるHard-Synthを提案する。我々のアプローチでは、追加のテキストデータに頼ることなく、書き直しによる多様なドメイン内テキストを生成するためにLLMを用いる。
論文参考訳（メタデータ） (2024-11-20T09:49:37Z)
VHASR: A Multimodal Speech Recognition System With Vision Hotwords [74.94430247036945]
VHASRは、視覚をホットワードとして使用し、モデルの音声認識能力を強化するマルチモーダル音声認識システムである。 VHASRは、画像のキー情報を効果的に利用して、モデルの音声認識能力を高めることができる。
論文参考訳（メタデータ） (2024-10-01T16:06:02Z)
kNN Retrieval for Simple and Effective Zero-Shot Multi-speaker Text-to-Speech [18.701864254184308]
kNN-TTSは、ゼロショットマルチ話者テキスト音声合成のためのシンプルで効果的なフレームワークである。我々のモデルは、1つの話者から書き起こされた音声に基づいて訓練され、最先端のモデルに匹敵する性能を達成する。また、微細な音声モーフィングを可能にするパラメータも導入する。
論文参考訳（メタデータ） (2024-08-20T12:09:58Z)
Braille-to-Speech Generator: Audio Generation Based on Joint Fine-Tuning of CLIP and Fastspeech2 [0.0]
中国語の文脈に基づく画像合成フレームワークCLIP-KNN-Fastspeech2が構築された。このフレームワークは、複数の基本モデルを統合し、独立した事前学習と共同微調整の戦略を採用する。複数の公開データセットの実験的結果は、BLEU4、FAD(Fr'echet Audio Distance)、WER(Word Error Ratio)、推論速度などの客観的指標を改善したことを示している。
論文参考訳（メタデータ） (2024-07-19T11:18:44Z)
Cross-Speaker Encoding Network for Multi-Talker Speech Recognition [74.97576062152709]
Cross-MixSpeaker ネットワークは、話者間の表現を集約することでSIMOモデルの制限に対処する。ネットワークはSOTと統合され、SIMOとSISOの両方の利点を利用する。
論文参考訳（メタデータ） (2024-01-08T16:37:45Z)
Improving Audio-Visual Speech Recognition by Lip-Subword Correlation Based Visual Pre-training and Cross-Modal Fusion Encoder [58.523884148942166]
本稿では,事前学習および微調整訓練の枠組みの下で,音声視覚音声認識(AVSR)を改善するための2つの新しい手法を提案する。まず, マンダリンにおける口唇形状と音節レベルサブワード単位の相関について検討し, 口唇形状から良好なフレームレベル音節境界を確立する。次に,音声誘導型クロスモーダルフュージョンエンコーダ(CMFE)ニューラルネットワークを提案する。
論文参考訳（メタデータ） (2023-08-14T08:19:24Z)
Enhanced Direct Speech-to-Speech Translation Using Self-supervised Pre-training and Data Augmentation [76.13334392868208]
直接音声音声変換(S2ST)モデルは、データ不足の問題に悩まされる。本研究では,この課題に対処するために,ラベルのない音声データとデータ拡張を用いた自己教師付き事前学習について検討する。
論文参考訳（メタデータ） (2022-04-06T17:59:22Z)
ATCSpeechNet: A multilingual end-to-end speech recognition framework for air traffic control systems [15.527854608553824]
ATCSpeechNetは、航空交通制御システムにおけるコミュニケーション音声を人間可読テキストに変換する問題に取り組むために提案されている。特徴工学や辞書を使わずに、音声波形を直接テキストに変換するエンドツーエンドのパラダイムが開発されている。 ATCSpeech corpusの実験結果から,非常に小さなラベル付きコーパスを用いて,提案手法が高い性能を実現することが示された。
論文参考訳（メタデータ） (2021-02-17T02:27:09Z)
Bootstrap an end-to-end ASR system by multilingual training, transfer learning, text-to-text mapping and synthetic audio [8.510792628268824]
限られたデータリソースでの音声認識のブートストラップは、長い間活発な研究領域だった。本稿では,低資源環境下でRNN-Transducerに基づく音声認識システム(ASR)をブートストラップする様々な手法の有効性について検討する。実験では,ASR後のテキスト・テキスト・マッピングと合成音声を用いた多言語モデルからの変換学習が付加的な改善をもたらすことを示した。
論文参考訳（メタデータ） (2020-11-25T13:11:32Z)
Semi-supervised Learning for Multi-speaker Text-to-speech Synthesis Using Discrete Speech Representation [125.59372403631006]
マルチ話者テキスト音声(TTS)のための半教師付き学習手法を提案する。マルチスピーカTTSモデルは、離散音声表現を備えたエンコーダデコーダフレームワークを用いて、未転写音声から学習することができる。提案した半教師あり学習手法は,音声データの一部がうるさい場合にも有効であることがわかった。
論文参考訳（メタデータ） (2020-05-16T15:47:11Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。